Aviso de Instabilidade – Dependência AWS (US-EAST-1)

Incident Report for Duotalk

Resolved

Período do incidente: 19 de outubro, 11:49 PM PDT – 20 de outubro, 3:01 PM PDT
Status: Resolvido

Entre as 23h49 (PDT) do dia 19 de outubro e as 15h01 (PDT) do dia 20 de outubro, a Duotalk enfrentou períodos de instabilidade e lentidão em algumas de suas operações devido a um incidente em serviços da AWS na região US-EAST-1.

O problema teve origem em falhas de resolução de DNS para os endpoints regionais do Amazon DynamoDB, o que impactou diversos serviços dependentes, incluindo EC2, Lambda, SQS, CloudWatch e IAM. Essas falhas causaram aumento nas taxas de erro e na latência de respostas.

Após a correção do problema de DNS pela AWS às 2h24 AM (PDT) do dia 20, houve recuperação gradual dos serviços, embora tenham ocorrido novos impactos temporários em componentes internos do EC2 e nos Network Load Balancers, afetando a conectividade de rede de forma intermitente.

A AWS concluiu os esforços de recuperação às 3h01 PM (PDT), restabelecendo completamente as operações. Desde então, os serviços da Duotalk voltaram à normalidade.

Seguimos monitorando a estabilidade dos sistemas e acompanhando a publicação do relatório detalhado de incidente da AWS.

Status atual: Todos os serviços da Duotalk estão operando normalmente.
Posted Oct 21, 2025 - 08:57 GMT-03:00

Update

A AWS confirmou a recuperação completa das invocações do serviço Lambda na região US-EAST-1 e informou que está finalizando o processamento do backlog de eventos pendentes, com previsão de conclusão nas próximas horas.

Na Duotalk, o serviço de filas de entrada de mensagens segue operando normalmente, com todas as mensagens sendo processadas. Entretanto, pode haver pequenos atrasos residuais enquanto o backlog da AWS é totalmente liquidado.

A equipe técnica permanece monitorando o ambiente até a confirmação completa da normalização por parte da AWS.

Status atual: Serviço operacional, com monitoramento ativo
Posted Oct 20, 2025 - 18:07 GMT-03:00

Update

A AWS informou melhora contínua e ampla em todos os serviços da região US-EAST-1, incluindo EC2, Lambda e SQS.
Os erros de invocação do AWS Lambda foram totalmente resolvidos, e a taxa de leitura das filas SQS foi restaurada aos níveis normais.

Como resultado, o serviço de filas de entrada de mensagens da Duotalk está operando normalmente, com processamento estabilizado e sem atrasos significativos.

Ainda estamos monitorando ativamente o ambiente enquanto a AWS conclui a remoção completa das limitações de EC2, mas não há mais impacto perceptível aos clientes da Duotalk neste momento.

Caso novas instabilidades sejam observadas, atualizaremos novamente este canal.

Status atual: Serviço operacional, sob monitoramento
Posted Oct 20, 2025 - 17:14 GMT-03:00

Update

A AWS reportou avanço significativo na recuperação de seus serviços na região US-EAST-1, incluindo EC2, Lambda, SQS e outros componentes de infraestrutura.

Como consequência, o serviço de filas de entrada de mensagens da Duotalk está apresentando melhora gradual. As mensagens em fila estão sendo processadas de forma mais estável, embora ainda possam ocorrer atrasos intermitentes devido a resíduos de conectividade na AWS Lambda e à retomada progressiva da taxa de polling das filas SQS.

Nossa equipe segue monitorando de perto o ambiente e ajustando os fluxos internos para garantir a normalização completa o mais breve possível.

Os clientes podem perceber:
• Redução no tempo de atraso no processamento de mensagens;
• Restauração gradual das integrações dependentes de filas;
• Pequenas oscilações temporárias de latência enquanto a AWS estabiliza o tráfego de rede.

Status atual: Recuperação em andamento
Posted Oct 20, 2025 - 16:55 GMT-03:00

Update

Identificamos degradação no serviço de filas de entrada de mensagens da Duotalk, resultando em atrasos no processamento e entrega de mensagens em algumas integrações e fluxos de comunicação.

A causa está relacionada à instabilidade em serviços da AWS na região US-EAST-1, que atualmente apresentam problemas de conectividade e latência impactando recursos essenciais como SQS, Lambda e EC2 — utilizados internamente pela nossa infraestrutura de mensageria.

A equipe técnica da Duotalk está acompanhando continuamente a recuperação da AWS e aplicando ajustes internos para mitigar os efeitos e normalizar o processamento das filas o mais rápido possível.

Durante esse período, é possível observar:
• Atrasos na entrega de mensagens recebidas por integrações;
• Processamento intermitente de eventos em tempo real;
• Lentidão no consumo de mensagens em algumas aplicações.

Seguimos monitorando de perto e atualizaremos este canal assim que houver progresso na estabilização do serviço.
Posted Oct 20, 2025 - 14:44 GMT-03:00

Update

A AWS informou que identificou a causa raiz dos problemas de conectividade e erros de API que afetaram múltiplos serviços na região US-EAST-1. O incidente foi originado em um subsistema interno responsável pelo monitoramento de rede dos Load Balancers (NLBs) da infraestrutura EC2.

A AWS aplicou medidas adicionais de mitigação e reporta melhora significativa na conectividade e recuperação dos serviços afetados, incluindo DynamoDB, SQS, Lambda, Amazon Connect e outros.
Entretanto, novas criações de instâncias EC2 ainda estão sendo limitadas para apoiar a estabilização completa da região.

Como parte da infraestrutura da Duotalk depende de recursos nessa região, ainda podem ocorrer lentidões pontuais ou falhas intermitentes em algumas operações.

Seguimos monitorando ativamente o ambiente e manteremos novas atualizações conforme a AWS avance no processo de recuperação total.
Posted Oct 20, 2025 - 13:56 GMT-03:00

Update

A AWS confirmou novos problemas de conectividade e erros de API generalizados na região US-EAST-1, afetando múltiplos serviços, incluindo EC2, Lambda, RDS, SQS, ECS, Glue e outros.

Segundo o último comunicado oficial da AWS:
• Houve falhas de rede e perda de conectividade entre zonas de disponibilidade;
• Erros de API estão impactando chamadas e comunicações entre serviços;
• Novos lançamentos de instâncias EC2 continuam apresentando falhas ou lentidão severa;
• Foram aplicadas mitigações parciais, mas o cenário ainda apresenta elevadas taxas de erro.

Como consequência, alguns serviços da Duotalk podem apresentar intermitência, lentidão ou indisponibilidade parcial, especialmente em funcionalidades que dependem diretamente de recursos hospedados na AWS.
Posted Oct 20, 2025 - 11:33 GMT-03:00

Update

A AWS confirmou um evento de saúde afetando o serviço AWS Lambda na região US-EAST-1, identificado como AWS_LAMBDA_COLD_INVOKE_ISSUE.
Entre 07:25 e 10:59 UTC, houve aumento nas taxas de erro e latência em execuções de funções Lambda, especialmente durante cold starts.

Durante esse período, alguns componentes da Duotalk que dependem de Lambda e outros serviços AWS podem ter apresentado lentidão ou falhas pontuais.

De acordo com a AWS, o problema foi mitigado e os serviços estão operando normalmente, embora possamos observar variações momentâneas de desempenho enquanto a infraestrutura global se estabiliza.

Seguimos monitorando de perto o ambiente e manteremos atualizações caso haja qualquer novo impacto detectado.
Posted Oct 20, 2025 - 10:52 GMT-03:00

Monitoring

Início do incidente: 20 de outubro de 2025, 04:00 UTC
Status atual: Monitorando

A AWS reportou desde a madrugada (horário de Brasília) uma série de problemas de latência e erros aumentados em múltiplos serviços hospedados na região US-EAST-1. Entre os serviços afetados estão EC2, RDS, Lambda, SQS, ECS, Glue, EventBridge e CloudTrail.

Esses incidentes resultaram em falhas na criação de novas instâncias EC2, atrasos em filas SQS, e lentidão na entrega de eventos via Lambda e EventBridge. A AWS já aplicou medidas de mitigação e reporta que o cenário está gradualmente se normalizando, embora ainda haja backlog de processamento em alguns serviços.

Como a infraestrutura da Duotalk depende parcialmente de recursos hospedados na AWS US-EAST-1, é possível que alguns usuários experimentem:
• Lentidão intermitente em certas operações;
• Atrasos em processamento de mensagens ou eventos;
• Falhas pontuais em novas conexões de serviço.

Estamos monitorando continuamente o progresso da recuperação da AWS e ajustando nossos sistemas para minimizar qualquer impacto.
Atualizaremos esta página assim que houver novas informações relevantes.

Referência: Status da AWS (https://status.aws.amazon.com/)
Posted Oct 20, 2025 - 10:42 GMT-03:00
This incident affected: Duotalk API.