[Plataforma] Instabilidade
Incident Report for Huggy
Postmortem

Sumário

Este relatório reúne informações do incidente que impactou a plataforma Huggy no dia 30 de janeiro de 2024.

Após aplicarmos uma atualização de desempenho no sistema, este começou a apresentar o comportamento inesperado de criar uma nova conversa para cada mensagem que chegasse na plataforma.

O incidente aumentou de maneira desordenada a criação de novos chats, trazendo uma série de prejuízos para os nossos usuários.

Decidimos prontamente reverter a atualização para corrigir o crescimento desordenado das conversas, normalizando a plataforma às 13:00 do dia 30 de janeiro de 2024.

Linha do tempo

  • 📆 30/01/2024 11:00 (GMT-3): Identificação da instabilidade
  • 📆 30/01/2024 11:32 (GMT-3): Descoberta da causa raiz do incidente
  • 📆 30/01/2024 11:50 (GMT-3): Liberação da correção
  • 📆 30/01/2024 11:59 (GMT-3): Lentidão no processamento de mensagens e ações agendadas
  • 📆 30/01/2024 13:00 (GMT-3): Normalização da plataforma

Causa raiz do incidente

Uma atualização no sistema provocou o comportamento inesperado de criar uma nova conversa para cada mensagem que chegasse na plataforma.

Impacto

O incidente aumentou de maneira desordenada a criação de novos chats em toda a base, especialmente nas contas com grande fluxo de operação.

Devido à descentralização das mensagens recebidas, muitos de nossos usuários foram prejudicados por não conseguirem conversar de maneira adequada — durante o momento da instabilidade — com sua base de clientes.

Os chats “clonados” acabaram impactando também nas métricas de atendimento que levam em consideração o período do incidente.

Plano de ação

Decidimos prontamente reverter a atualização para corrigir o crescimento desordenado das conversas.

Como esse procedimento exige um tempo natural de processamento por parte dos servidores, levaram alguns minutos para que a versão estável do sistema se refletisse em toda a nossa base.

O incidente foi solucionado com sucesso às 11:59 do dia 30 de janeiro de 2024.

Por conta do número elevado de conversas criadas para um mesmo contato, o sistema chegou a enfrentar, durante um curto intervalo de tempo após a solução do incidente, lentidão no processamento de mensagens e ações automáticas agendadas — como o recurso de Pausa do Flow.

A situação se normalizou efetivamente às 13h do dia 30 de janeiro de 2024.

Pedimos mais uma vez sinceras desculpas pelo ocorrido.

Posted Feb 02, 2024 - 15:21 GMT-03:00

Resolved
O sistema está funcionando normalmente desde as 13:00h, porém recomendamos que seja revisado se ficou algum atendimento preso no automático durante o horário da instabilidade (das 11h as 13:00h) para evitar que esse cliente fique preso na automação no futuro.
Nos próximos dias publicaremos um relatório detalhado explicando melhor o que houve.
Sentimos muito pelo ocorrido.
Posted Jan 30, 2024 - 14:00 GMT-03:00
Monitoring
Acabamos de lançar uma correção em ambiente de produção.

Ao lançar uma atualização na plataforma foi gerado alguns comportamentos não esperados (duplicação das ações no chats) e com isso foi necessário reverter a atualização para resolvermos a situação.

A normalização pode levar até as 13h para resolver totalmente, pois com a duplicação de chat houve um aumento na fila que está sendo processada. A expectativa de normalização total do sistema é até as 14h.

Recomendamos que seja feito o atendimento dos chats mais recente do contato e só depois realize a finalização dos chats mais antigos.

Em breve iremos trazer um post mortem com mais detalhes do que houve e do que foi feito para corrigir.
Posted Jan 30, 2024 - 11:50 GMT-03:00
Identified
Estamos investigando um incidente que está causando comportamentos inesperados nos chats como chat duplicado a cada mensagem e múltiplas execuções nos flows.
Já identificamos a causa e em breve será liberada uma correção.
Posted Jan 30, 2024 - 11:00 GMT-03:00
This incident affected: Core.