Indisponibilidade Parcial

Incident Report for Duotalk

Postmortem

Instabilidade no acesso a arquivos estáticos via CloudFront

Data do incidente: 28/05/2025

Horário de início: 10:45 (BRT)

Horário de resolução: 12:10 (BRT)

Duração: Aproximadamente 1h25

Serviços impactados:

  • CDN (CloudFront)
  • Acesso a arquivos estáticos hospedados no S3

Resumo

No dia 28 de maio de 2025, identificamos uma falha no carregamento de arquivos estáticos servidos via CloudFront, resultando em erros do tipo 504 (Gateway Timeout). A falha foi causada por uma instabilidade generalizada na infraestrutura da Amazon Web Services (AWS), impactando a comunicação entre o CloudFront e buckets S3 configurados como origem.

Causa raiz

O problema foi causado por uma falha temporária na AWS, mais especificamente na camada de origem entre o CloudFront e o S3. A AWS apresentou instabilidade em larga escala em algumas regiões, o que foi confirmado por múltiplos canais de monitoramento externo e relatos de usuários.

Ações tomadas

  • Investigação inicial das configurações de origem e permissões no bucket S3
  • Monitoramento de métricas internas e logs de erro da CDN
  • Identificação de múltiplos relatos similares relacionados à AWS
  • Acompanhamento contínuo dos canais oficiais da AWS

Resolução

A instabilidade foi resolvida por volta das 12:10 (BRT), com normalização das respostas da CDN e retorno ao comportamento esperado. O tráfego voltou ao padrão normal e os erros 504 cessaram.

Próximas etapas

  • Avaliação de estratégias de redundância para acesso a estes recursos
  • Reforço no monitoramento entre CloudFront e S3

Conclusão

O incidente foi causado por fatores fora do nosso controle direto, mas tratamos a situação com máxima prioridade, garantindo uma comunicação clara com nossos usuários e ações rápidas de mitigação. Seguiremos trabalhando para aumentar a resiliência dos nossos serviços frente a falhas de infraestrutura externa.

Posted May 28, 2025 - 12:23 GMT-03:00

Resolved

A instabilidade relacionada à Amazon Web Services (AWS), que estava afetando o carregamento da plataforma, foi resolvida. Os serviços estão operando normalmente e não observamos novos erros desde as 11:10 (GMT-3).

Continuaremos monitorando o ambiente, mas consideramos o incidente encerrado neste momento.
Posted May 28, 2025 - 12:19 GMT-03:00

Monitoring

A instabilidade detectada anteriormente parece estar relacionada a problemas generalizados na infraestrutura da AWS. Neste momento, os serviços afetados estão apresentando sinais de recuperação.

Continuamos monitorando de perto para garantir a estabilidade total da plataforma.
Posted May 28, 2025 - 11:56 GMT-03:00

Identified

Identificamos um aumento significativo no número de reports relacionados à Amazon Web Services (AWS), o que coincide com as falhas que estamos enfrentando no acesso a arquivos estáticos via CloudFront/S3. O gráfico de incidentes indica uma instabilidade generalizada nos serviços da AWS na última hora.

Impacto:
Usuários podem continuar enfrentando lentidão ou falhas intermitentes ao carregar recursos servidos por nossa CDN.

Ações em andamento:
Estamos monitorando ativamente a situação e acompanhando os canais oficiais da AWS para novas atualizações. Assim que houver confirmação ou resolução por parte da AWS, informaremos imediatamente.
Posted May 28, 2025 - 11:20 GMT-03:00

Investigating

Estamos investigando uma falha que está impedindo o carregamento da plataforma no endereço https://app.duotalk.io, que utiliza como origem nosso bucket S3. Usuários podem se deparar com mensagens de erro do tipo 504 Gateway Timeout ao tentar acessar o conteúdo.

Os primeiros indícios apontam para uma falha de comunicação entre o CloudFront e o S3 origin, e estamos em processo de validação de configurações, permissões e integridade da origem.

Impacto:
Usuários podem estar enfrentando lentidão ou falha total no carregamento da plataforma e de recursos como imagens, scripts ou arquivos de configuração.

Ações em andamento:
• Verificação das configurações do origin no CloudFront
• Checagem das permissões e acessos no bucket S3
• Monitoramento do status da AWS na região afetada
• Avaliação de possíveis invalidações de cache

Atualizaremos este comunicado assim que tivermos mais informações.
Posted May 28, 2025 - 10:40 GMT-03:00
This incident affected: Duotalk Platform.