[Plataforma] Instabilidade
Incident Report for Huggy
Postmortem

Sumário

Este relatório reúne informações referentes ao incidente que impactou a plataforma Huggy nos dias 5 e 9 de outubro de 2023.

A tecnologia presente em nossa infraestrutura que viabiliza a configuração Ocultar contatos para os agentes não estava otimizada para processar o alto tráfego de acesso à listagem de contatos, gerando sobrecarga no sistema de autoescalonamento dos servidores da Huggy.

Liberamos uma correção definitiva às 11:30 do dia 9 de outubro, estabilizando a plataforma e assegurando que incidentes envolvendo essa configuração não se repitam.

Linha do tempo

  • 📆 05/10/2023 14:20 (GMT-3): Primeira lentidão do sistema
  • 📆 05/10/2023 18:10 (GMT-3): Liberação de correção para o incidente
  • 📆 05/10/2023 18:10 (GMT-3): Estabilização da plataforma
  • 📆 09/10/2023 10:00 (GMT-3): Recorrência do incidente
  • 📆 09/10/2023 11:30 (GMT-3): Liberação de correção definitiva para o incidente
  • 📆 09/10/2023 12:41 (GMT-3): Estabilização da plataforma

Causa raiz do incidente

A tecnologia presente em nossa infraestrutura que viabiliza a configuração Ocultar contatos para os agentes não estava otimizada para processar o alto tráfego de acesso à listagem de contatos, gerando sobrecarga no sistema de autoescalonamento dos servidores da Huggy.

Impacto

O incidente trouxe impactos de desempenho para toda a nossa base, causando lentidão no acesso ao módulo de Atendimentos e a páginas como Configurações do sistema e Dashboard (Analítico).

Durante esse ocorrido, não houve indisponibilidade total do sistema e nem perdas de mensagens nos canais configurados na plataforma.

Plano de ação

Nossa equipe técnica operou com celeridade para desenvolver uma correção que otimizasse a tecnologia e reduzisse o impacto causado pelo incidente.

Aplicamos uma correção definitiva às 11:30 do dia 9 de outubro, estabilizando a plataforma ao reduzir o tempo de processamento interno da configuração de 14s para cerca de 270ms.

Essa correção, inclusive, melhorou significativamente a eficiência no carregamento da listagem de contatos, pondo um fim na lentidão reportada pelos usuários que possuem uma operação muito grande — antes mesmo do incidente acontecer.

Pedimos mais uma vez desculpas pelo ocorrido. Estamos trabalhando para entregar uma solução de Atendimento Digital cada vez mais estável para você.

Contamos com o seu apoio e a sua compreensão.

Posted Oct 09, 2023 - 19:04 GMT-03:00

Resolved
Após a melhoria ter sido aplicada em nossa infra-estrutura as 11:30h, seguimos com o comportamento normal na plataforma, em breve traremos mais informações sobre correção as melhorias aplicadas.

Pedimos desculpas pelo inconveniente e agradecemos sua compreensão e paciência.
Posted Oct 09, 2023 - 12:41 GMT-03:00
Monitoring
A navegação na plataforma foi normalizada por volta das 11:30h após o autoescalonamento e algumas melhorias realizadas em nossa infraestrutura. Desde então, a plataforma tem funcionado normalmente, vamos continuar monitorando antes de fechar totalmente o status.

É importante ressaltar que durante o período das 10h às 11:30h, a plataforma não ficou inacessível ou inoperante, e não houve perda de mensagens. No entanto, alguns usuários podem ter experimentado lentidão em alguns momentos nesse intervalo.
Posted Oct 09, 2023 - 11:57 GMT-03:00
Investigating
Notamos que hoje a partir das 10h ocorreu perda de performance na plataforma causada pelo alto fluxo que consequentemente gerou uma lentidão de algumas telas do sistema, como atendimento, configurações e Dashboards.

É importante ressaltar que a instabilidade causou apenas lentidão no carregamento de algumas páginas do painel e não houve uma indisponibilidade total no sistema. Durante esses momentos o sistema está realizando vários autoescalonamentos que estão sendo melhorados a todo momento do alto fluxo, com isso a capacidade do servidor está se adequando à demanda.

Estamos monitorando a situação e iremos manter a página de status atualizada. Pedimos desculpas pelos eventuais transtornos e agradecemos a sua compreensão e confiança.
Posted Oct 09, 2023 - 10:00 GMT-03:00
This incident affected: Core.