[Plataforma] Instabilidade
Incident Report for Huggy
Postmortem

Sumário

Este relatório reúne informações do incidente que impactou a plataforma Huggy entre os dias 9 e 10 de janeiro de 2024.

Durante a tarde do dia 9 de janeiro de 2024, notamos um comportamento suspeito no processamento de requisições ao monitorar os indicadores de desempenho da nossa infraestrutura de banco de dados.

Pouco tempo depois, a plataforma passou a apresentar lentidão e a sofrer instabilidades, afetando toda a nossa base e o acesso do Suporte Huggy aos canais de atendimento.

Para solucionar este incidente, liberamos uma correção que aliviou a carga de processamento das requisições enviadas para o nosso sistema, reestabelecendo o correto funcionamento dos recursos da plataforma.

Linha do tempo

  • 📆 09/01/2024 15:00 (GMT-3): Detecção de comportamento suspeito
  • 📆 10/01/2024 05:40 (GMT-3): Pico de lentidão na plataforma
  • 📆 10/01/2024 08:00 (GMT-3): Instabilidade e lentidão na plataforma
  • 📆 10/01/2024 09:04 (GMT-3): Descoberta da causa raiz do incidente
  • 📆 10/01/2024 10:35 (GMT-3): Liberação de correção para o incidente
  • 📆 10/01/2024 10:35 (GMT-3): Estabilização da plataforma

Causa raiz do incidente

Houve uma sobrecarga inesperada na quantidade de requisições efetuadas para o nosso sistema, gerando um aumento no tempo médio de processamento dos recursos da plataforma.

Impacto

Recebemos muitos relatos de lentidões nos recursos da plataforma e dificuldades até mesmo na hora de realizar login.

Para termos uma ideia do impacto dessas instabilidades, algumas requisições realizadas para o nosso sistema, que costumavam levar em média 200ms para serem processadas, estavam demandando cerca de 2500ms.

A lentidão se agravou durante a noite do dia 9 de janeiro de 2024 e persistiu ao longo do início da manhã no dia seguinte, alcançando o pico máximo de instabilidade às 5:40 (GMT-3).

Plano de ação

Para solucionar este incidente, liberamos uma correção que aliviou a carga de processamento das requisições enviadas para o nosso sistema, reestabelecendo o correto funcionamento dos recursos da plataforma.

Pedimos desculpas pelo transtorno e ressaltamos que estamos trabalhando para melhorar cada vez mais o desempenho e a segurança das nossas soluções.

Aprendemos muito com os incidentes que aconteceram no ano passado, e o feedback de vocês tem nos ajudado a direcionar esforços para melhorar a experiência de uso da Huggy.

Agradecemos a todos e todas pela compreensão.

Posted Jan 12, 2024 - 16:35 GMT-03:00

Resolved
A plataforma segue em seu funcionamento normal, estamos fechando este Status mas continuaremos monitorando e estudando possíveis melhorias para evitar que esse incidente volte a ocorrer novamente.
Posted Jan 10, 2024 - 12:06 GMT-03:00
Monitoring
Conseguimos detectar que a instabilidade foi causada por um alto fluxo de requisições, após identificar o erro uma correção foi aplicada.

Nesse momento a plataforma está funcionado normalmente e estamos monitorando continuamente para garantir que tudo esteja em ordem.

Pedimos desculpas pelo inconveniente e agradecemos sua compreensão e paciência. Continuaremos trabalhando nas próximas semanas para minimizar os impactos na navegação em nossa plataforma, mesmo durante um alto fluxo de requisições.
Posted Jan 10, 2024 - 10:35 GMT-03:00
Investigating
Estamos enfrentando uma instabilidade temporária no login e lentidão na plataforma. Nossa equipe já está investigando com prioridade máxima. Agradecemos pela compreensão.
Posted Jan 10, 2024 - 08:00 GMT-03:00
This incident affected: Core.