Falha em datacenter da AWS paralisa diversas empresas pelo mundo

Falha em sistema interno da AWS causou instabilidade em grandes plataformas globais como Canva, Duolingo, Snapchat e Roblox, após pane no principal data center da empresa nos Estados Unidos.

A AWS divulgou uma nota na manhã dessa segunda-feira (20) confirmando que está investigando uma grave paralisação dos seus serviços de nuvem. Desde o início desse dia, diversas companhias, aplicativos e plataformas digitais ficaram indisponíveis por todo o mundo depois que a subsidiária de cloud da Amazon teve um de seus datacenters mais críticos tirado do ar. Os serviços internos da Big Tech, como o Prime Video, o site de e-commerce e a conexão de rede dos dispositivos Alexa também tiveram problemas de funcionamento.

De acordo com posicionamento da companhia, em seu site oficial, os problemas de conectividade ocorreram devido a um incidente interno na base de armazenamento de dados na região de Virgínia do Norte, no estado homônimo nos Estados Unidos. A causa foi apontada em um sistema interno que monitora a integridade dos balanceadores de carga de rede. “Estamos limitando solicitações para novas inicializações de instâncias EC2 para auxiliar na recuperação e trabalhando ativamente em medidas de mitigação”, acrescentou o posicionamento.

De acordo com apuração da Folha de S. Paulo, cerca de 500 empresas foram impactadas pelo apagão na nuvem da AWS, de diferentes verticais de negócio atuantes em todas as regiões do mundo, incluindo Canva, Duolingo, Snapchat e Roblox. No Brasil, organizações como Mercado Livre, PicPay e iFood sofreram com instabilidades relacionadas a essa ocorrência. De acordo com o site DownDetector, foram recebidos mais de 6,5 milhões de notificações de usuários relacionadas a falhas causadas pela pane na AWS.

“Como outras instituições financeiras e de entretenimento, o PicPay foi afetado pela instabilidade global nos serviços da AWS. Os serviços estão mais lentos que o comum. As empresas já estão trabalhando em conjunto para resolver o problema o mais rapidamente possível”, explicou o PicPay em nota enviada ao jornal. Já o Mercado Livre e Mercado Pago “reconhecem que houve uma instabilidade em seus aplicativos. Nossos times trabalharam rapidamente para restabelecer o sistema, que já opera normalmente”.

Uma situação similar em termos de impacto ocorreu no ano passado, quando uma falha em ambiente CrowdStrike provocou um apagão cibernético de grandes proporções. Na época, diversas organizações ao redor do mundo, incluindo Linhas Aéreas, Instituições financeiras e varejistas enfrentam uma pane geral em seus sistemas.

Tal ocorrência foi causada por uma atualização nova no serviço de monitoramento da CrowdStrike, o Falcon. Devido a um defeito de fábrica, esse update causou problemas aos hosts Azure da Microsoft, que utilizam a ferramenta. Como resultado em cadeia, diversos serviços ligados ao Windows foram paralisados. Outros clientes também tiveram problemas com a plataforma após a atualização.

A Security Report disponibiliza, na íntegra, as últimas atualizações publicadas pela AWS antes da publicação dessa reportagem:

“Taxas de Erro e Latência Aumentadas

20 de outubro, 8h43 (PDT)
Identificamos a origem dos problemas de conectividade de rede que afetaram os serviços da AWS. A causa raiz está em um subsistema interno responsável por monitorar a integridade de nossos balanceadores de carga de rede. Estamos limitando solicitações para novas inicializações de instâncias EC2 para auxiliar na recuperação e trabalhando ativamente em medidas de mitigação.

20 de outubro, 8h04 (PDT)
Continuamos investigando a causa raiz dos problemas de conectividade de rede que estão impactando serviços da AWS, como DynamoDB, SQS e Amazon Connect, na região US-EAST-1. Identificamos que o problema se originou dentro da rede interna do EC2. Continuamos investigando e identificando medidas de mitigação.

20 de outubro, 7h29 (PDT)
Confirmamos que vários serviços da AWS enfrentaram problemas de conectividade na região US-EAST-1. Já observamos sinais iniciais de recuperação e seguimos investigando a causa raiz.

20 de outubro, 7h14 (PDT)
Podemos confirmar erros significativos de API e problemas de conectividade em vários serviços na região US-EAST-1. Estamos investigando e forneceremos uma nova atualização em 30 minutos ou antes, se tivermos mais informações.

20 de outubro, 6h42 (PDT)
Aplicamos várias medidas de mitigação em múltiplas zonas de disponibilidade (AZs) na região US-EAST-1, mas ainda enfrentamos taxas elevadas de erro ao lançar novas instâncias EC2. Estamos limitando a taxa de novas inicializações para auxiliar na recuperação. Faremos uma nova atualização às 7h30 (PDT) ou antes, se houver mais informações.

20 de outubro, 5h48 (PDT)
Estamos progredindo na resolução do problema com lançamentos de novas instâncias EC2 na região US-EAST-1 e já conseguimos iniciar novas instâncias com sucesso em algumas zonas de disponibilidade. Estamos aplicando medidas semelhantes nas demais zonas afetadas. À medida que avançamos, os clientes verão um número crescente de lançamentos bem-sucedidos.
Recomendamos que os clientes lancem novas instâncias EC2 sem especificar uma zona de disponibilidade, permitindo ao EC2 escolher automaticamente a mais adequada.

Também informamos que o processamento do acúmulo de eventos do EventBridge e CloudTrail está sendo concluído com sucesso. Novos eventos estão sendo entregues normalmente, sem atrasos.

Nova atualização será feita até 6h30 (PDT) ou antes, se houver mais informações.

20 de outubro, 5h10 (PDT)
Confirmamos que o processamento das filas SQS via Lambda Event Source Mappings foi restaurado. Agora estamos processando o acúmulo de mensagens SQS nas filas Lambda.

20 de outubro, 4h48 (PDT)
Continuamos trabalhando para restaurar totalmente os lançamentos de novas instâncias EC2 na região US-EAST-1. Recomendamos lançar instâncias EC2 sem direcioná-las a uma AZ específica, para permitir flexibilidade.
A limitação nos lançamentos também afeta serviços como RDS, ECS e Glue. Recomendamos configurar grupos de Auto Scaling para usar múltiplas AZs, garantindo lançamentos automáticos.

Estamos aplicando novas medidas para recuperar os atrasos no polling do Lambda para Event Source Mappings do SQS. Funcionalidades que dependem disso, como atualizações de políticas da organização, também enfrentam lentidão. Nova atualização até 5h30 (PDT).

20 de outubro, 4h08 (PDT)
Seguimos trabalhando para recuperação total dos erros de lançamento do EC2, que podem aparecer como erro de “Insufficient Capacity”. Também estamos mitigando os atrasos de polling do Lambda para mapeamentos de origem de evento do SQS. Nova atualização até 5h00 (PDT).

20 de outubro, 3h35 (PDT)
O problema subjacente de DNS foi completamente mitigado, e a maioria das operações dos serviços AWS está normalizada. Algumas solicitações podem ser limitadas enquanto buscamos a resolução total. Alguns serviços ainda processam o acúmulo de eventos, como CloudTrail e Lambda.
Embora a maioria das operações tenha se recuperado, solicitações para lançar novas instâncias EC2 (ou serviços que dependem disso, como ECS) na região US-EAST-1 ainda enfrentam erros.
Se você ainda estiver tendo problemas para resolver os endpoints do DynamoDB em US-EAST-1, recomendamos limpar o cache de DNS.
Nova atualização até 4h15 (PDT) ou antes, se houver mais informações.

20 de outubro, 3h03 (PDT)
Observamos recuperação na maioria dos serviços afetados da AWS. Confirmamos que serviços globais e recursos que dependem de US-EAST-1 também foram restaurados. Continuamos trabalhando para resolução total e atualizaremos conforme novas informações.

20 de outubro, 2h27 (PDT)
Vemos sinais significativos de recuperação. A maioria das solicitações já deve estar sendo concluída com sucesso. Continuamos processando o acúmulo de solicitações pendentes e forneceremos mais informações em breve.

20 de outubro, 2h22 (PDT)
Aplicamos medidas iniciais e já observamos sinais de recuperação em alguns serviços afetados. Durante esse período, algumas solicitações ainda podem falhar enquanto trabalhamos na resolução total. Recomendamos tentar novamente as solicitações que falharem. Pode haver latência adicional e acúmulo de trabalho em alguns serviços. Nova atualização até 3h15 (PDT).

20 de outubro, 2h01 (PDT)
Identificamos uma causa potencial para as taxas de erro nas APIs do DynamoDB na região US-EAST-1. O problema parece estar relacionado à resolução de DNS do endpoint da API do DynamoDB. Estamos trabalhando em várias frentes para acelerar a recuperação.
O problema também afeta outros serviços AWS na mesma região. Serviços globais que dependem de US-EAST-1, como IAM updates e DynamoDB Global Tables, também podem estar enfrentando falhas.
Durante esse período, clientes podem não conseguir criar ou atualizar casos de suporte. Recomendamos tentar novamente as solicitações que falharem. Nova atualização até 2h45 (PDT).

20 de outubro, 1h26 (PDT)
Confirmamos altas taxas de erro para solicitações ao endpoint do DynamoDB na região US-EAST-1. O problema também afeta outros serviços AWS na mesma região.
Durante esse tempo, clientes podem não conseguir criar ou atualizar casos de suporte. Nossos engenheiros estão trabalhando ativamente tanto na mitigação quanto na investigação da causa raiz. Nova atualização até 2h00 (PDT).

20 de outubro, 12h51 (PDT)
Confirmamos aumento nas taxas de erro e latência para vários serviços AWS na região US-EAST-1. Esse problema também pode afetar a criação de casos de suporte via AWS Support Center ou Support API.
Estamos trabalhando ativamente para mitigar o problema e identificar a causa raiz. Nova atualização em 45 minutos ou antes, se houver novas informações.

20 de outubro, 12h11 (PDT)
Estamos investigando o aumento nas taxas de erro e latência em múltiplos serviços AWS na região US-EAST-1. Forneceremos uma nova atualização em 30 a 45 minutos.”

*Com informações da Folha de S. Paulo, Estado de São Paulo e BBC Brasil