A Microsoft voltou a enfrentar problemas com os serviços da Azure nessa semana, devido a um ataque DDoS contra as plataformas de nuvem. O incidente, já corrigido pela Big Tech, gerou instabilidades nos acessos globais aos sistemas Azure, impedindo novamente que os usuários fizessem uso dos ativos armazenados em cloud.
De acordo com nota publicada no blog a Azure, os problemas começaram ainda na última terça-feira (30), quando um subconjunto de serviços Microsoft tiveram problemas globais de conexão com os clientes. Entre os serviços afetados, estavam Azure App Services, o Application Insights, o Azure IoT Central, o Azure Log Search Alerts, o Azure Policy, o próprio portal do Azure e um subconjunto de serviços do Microsoft 365 e do Microsoft Purview.
Na mensagem, a companhia confirma que a causa inicial foi um ataque distribuído de negação de serviço, que teria ativado os sistemas de proteção automáticos do Azure. Todavia, as investigações atuais apontaram que erros de configuração na implementação dessas defesas ampliou o alcance do ataque em vez de mitigá-lo, resultando em problemas nos componentes do Azure Front Door, erros intermitentes e picos de latência.
“Depois que a natureza do pico de uso foi compreendida, implementamos alterações na configuração de rede para dar suporte aos nossos esforços de proteção contra DDoS e realizamos failovers para caminhos de rede alternativos para proporcionar alívio. Nossas alterações iniciais de configuração de rede mitigaram com sucesso a maioria do impacto”, segue o comunicado.
Após o ocorrido ter sido controlado, o time de forense digital da Big Tech iniciou um processo investigativo para gerar um reporte mais detalhado do que motivou o ocorrido. A proposta é manter todo o monitoramento transparente para o público, motivando a publicação da Revisão Preliminar três dias após o incidente, e uma conclusão publicada nos 14 dias seguintes.
Essa é a primeira paralisação ocorrida nos sistemas Azure após o apagão cibernético que atingiu diretamente a instituição, há duas semanas. Devido a uma falha crítica em uma atualização da ferramenta Falcon, da CrowdStrike, os hosts da Azure foram paralisados, criando uma reação em cadeia que abateu o funcionamento de cerca de 8 milhões de máquinas.
Apesar de esse incidente anterior não ter sido causado por um ataque cibernético, a nota não comenta se os dois eventos estão correlatos, uma vez que a atual ocorrência contou com problemas de configuração na proteção contra DDoS. A Security Report entrou em contato com a Big Tech para questionar esse ponto, e aguarda o retorno para atualizar esta matéria.
A Microsoft também já havia sido alvo de um incidente cibernético envolvendo operações de DDoS. Em junho de 2023, a empresa confirmou que o grupo hacktivista Storm – 1359, promoveu um ataque em larga escala que paralisou as ferramentas do pacote Office 365, além do OneDrive e do Azure. Em nota, a Big Tech também negou que tenha havido vazamento de dados nesse ataque.
A Security Report também publica, na íntegra, posicionamento veiculado no blog do Microsoft Azure:
“Entre aproximadamente 11:45 UTC e 19:43 UTC em 30 de julho de 2024, um subconjunto de clientes pode ter enfrentado problemas de conexão com um subconjunto de serviços da Microsoft globalmente. Os serviços afetados incluíam o Azure App Services, o Application Insights, o Azure IoT Central, o Azure Log Search Alerts, o Azure Policy, bem como o próprio portal do Azure e um subconjunto de serviços do Microsoft 365 e do Microsoft Purview.
Um pico de uso inesperado resultou no desempenho dos componentes do Azure Front Door (AFD) e da Rede de Entrega de Conteúdo (CDN) do Azure abaixo dos limites aceitáveis, levando a erros intermitentes, tempo limite e picos de latência. Embora o evento inicial tenha sido um ataque de negação de serviço distribuído (DDoS), que ativou nossos mecanismos de proteção contra DDoS, as investigações iniciais sugerem que um erro na implementação de nossas defesas ampliou o impacto do ataque em vez de atenuá-lo.
O impacto no cliente começou às 11:45 UTC e começamos a investigar. Depois que a natureza do pico de uso foi compreendida, implementamos alterações na configuração de rede para dar suporte aos nossos esforços de proteção contra DDoS e realizamos failovers para caminhos de rede alternativos para proporcionar alívio. Nossas alterações iniciais de configuração de rede mitigaram com sucesso a maioria do impacto às 14:10 UTC. Alguns clientes relataram menos de 100% de disponibilidade, que começamos a mitigar por volta das 18:00 UTC.
Prosseguimos com uma abordagem de atenuação atualizada, primeiro implementando-a nas regiões da Ásia-Pacífico e da Europa. Após validar que essa abordagem revisada eliminou com sucesso os impactos dos efeitos colaterais da mitigação inicial, nós a implementamos nas regiões das Américas.
As taxas de falha voltaram aos níveis anteriores ao incidente às 19:43 UTC – após monitorar o tráfego e os serviços para garantir que o problema fosse totalmente atenuado, declaramos o incidente atenuado às 20:48 UTC. Alguns serviços downstream levaram mais tempo para se recuperar, dependendo de como foram configurados para usar AFD e/ou CDN.
Nossa equipe concluirá uma retrospectiva interna para entender o incidente com mais detalhes. Publicaremos uma Revisão Preliminar Pós-Incidente (PIR) em aproximadamente 72 horas, para compartilhar mais detalhes sobre o que aconteceu e como reagimos. Após a conclusão de nossa retrospectiva interna, geralmente dentro de 14 dias, publicaremos uma Revisão Final Pós-Incidente com todos os detalhes e aprendizados adicionais.
Para ser notificado quando isso acontecer e/ou para se manter informado sobre futuros problemas de serviço do Azure, certifique-se de configurar e manter alertas de integridade do serviço do Azure – eles podem acionar e-mails, SMS, notificações push, webhooks e muito mais: https://aka.ms/ash-alerts. Para obter mais informações sobre revisões pós-incidente, consulte https://aka.ms/AzurePIRs. Por fim, para obter orientações mais amplas sobre a preparação para incidentes na nuvem, consulte https://aka.ms/incidentreadiness”.