O avanço dos agentes de IA para aplicações reais de negócios já está sendo acompanhado de perto por cibercriminosos. Um novo relatório da Lakera, empresa da Check Point Software, mostra que o vazamento de prompts de sistema respondeu por cerca de 60% de todo o tráfego de ataque observado no quarto trimestre de 2025, tornando-se o principal vetor de risco para sistemas de IA baseados em agentes.
A análise foi conduzida a partir de ataques reais registrados em aplicações protegidas pelo Lakera Guard e em interações no ambiente Gandalf: Agent Breaker. Os dados indicam que, à medida que agentes de IA passam a ler documentos, acessar fontes externas, acionar ferramentas e executar fluxos automatizados de múltiplas etapas, os atacantes ajustam rapidamente suas táticas para explorar cada nova capacidade introduzida.
De acordo com o relatório, os ataques contra agentes de IA no quarto trimestre de 2025 se concentraram em quatro objetivos principais. Como os vazamento de prompts de sistema foi a intenção mais comum, representando aproximadamente 60% do tráfego de ataque, com foco na extração das instruções internas que definem regras, funções e limites dos modelos.
Além das tentativas de burlar mecanismos de segurança de conteúdo apareceram como o segundo vetor mais frequente, respondendo por cerca de 20% dos ataques, geralmente disfarçadas como pedidos de análise, avaliações, transformações aparentemente inofensivas, como resumos e reescritas, ou cenários de simulação e role play.
O estudo mostra que as sondagens de intenção desconhecida corresponderam a aproximadamente 12% do tráfego, indicam atividades de reconhecimento, nas quais os atacantes testam limites e mapeiam vulnerabilidades dos sistemas. E ainda os vazamento de dados confidenciais, responsável por cerca de 8% dos ataques, evidenciou riscos diretamente ligados aos workflows automatizados dos agentes, que processam informações sensíveis ao longo de cadeias de decisão.
Segundo os pesquisadores da Lakera, a predominância do vazamento de prompts demonstra que os atacantes buscam compreender a lógica interna dos agentes antes de avançar para ataques mais complexos e direcionados.
O relatório também aponta o crescimento dos ataques indiretos, nos quais instruções maliciosas não são inseridas diretamente pelo usuário, mas ocultadas em documentos, páginas web ou conteúdos estruturados processados pelos agentes de IA. Esse modelo tem se mostrado mais eficiente do que a injeção direta de prompts, exigindo menos tentativas para ter sucesso e tornando-se um vetor de risco prioritário à medida que agentes são integrados a sistemas corporativos de busca, navegação e automação.
Os dados mostram ainda que muitas falhas de segurança não ocorrem no prompt inicial, mas durante a interação do agente com múltiplas fontes externas, ferramentas e tarefas em várias etapas, ampliando de forma significativa a superfície de ataque.
O quarto trimestre de 2025 revelou também os primeiros exemplos práticos de ataques que só se tornam possíveis em ambientes com agentes de IA, e que não existiam em modelos tradicionais de chatbots. Entre eles estão tentativas de extração de dados internos confidenciais, inserção de instruções com formato de script em cadeias automatizadas de processamento e manipulação de agentes por meio de fontes externas não confiáveis.
Esses padrões indicam que o risco deixa de se concentrar apenas no conteúdo gerado e passa a abranger todo o ciclo de decisão, execução e interação do agente. Para a Lakera, os achados do quarto trimestre de 2025 deixam claro que as organizações não podem tratar a segurança de agentes de IA como uma extensão dos modelos tradicionais de IA conversacional. Cada documento ingerido, ferramenta acionada, chamada externa ou decisão automatizada passa a representar um potencial ponto de comprometimento.
Diante desse cenário, a empresa alerta que preparar 2026 exige uma abordagem de segurança baseada em prevenção, visibilidade e controle contínuo ao longo de todo o fluxo operacional da IA, garantindo proteção não apenas no resultado final produzido pelos modelos, mas em todas as interações que sustentam seu funcionamento e impactam diretamente os processos de negócio.