Zero Trust para IA Agêntica: por que seu assistente de IA precisa de um “fiscal” externo

A Inteligência Artificial Agêntica está se tornando uma ferramenta essencial para o exercício das atividades profissionais em todos os setores. Proém, como os usuários podem garantir segurança sobre a autonomia desses agentes em um ambiente crítico? O Diretor do Departamento de TI do TCE-SP, Fábio Correa Xavier, aponta neste artigo inédito que aplicar medidas de confiança zero sobre a IA pode ser determinante nesse contexto

Por Fábio Correa Xavier*

Assistentes de IA corporativos deixaram de ser apenas geradores de texto. Hoje eles leem documentos internos, acessam e-mails, abrem chamados em sistemas de suporte e chamam APIs da empresa — ou seja, agem, não apenas respondem. Essa mudança move o perímetro de segurança de dentro da rede para dentro da própria cadeia de decisão do modelo. E os modelos de controle de acesso que usamos há décadas, pensados para software determinístico, simplesmente não foram feitos para isso.

Este artigo resume, em linguagem direta, um estudo que faz duas coisas: mapeia os principais riscos desse tipo de sistema e mostra que já existem propostas de arquitetura “zero trust” para IA agêntica — só que espalhadas e desconectadas entre si. A proposta central é uma arquitetura de referência de seis camadas que une essas peças.

O problema em uma frase

Um assistente que lê dados privados, decide sozinho o próximo passo e executa ações reais não pode ser protegido só com os controles de acesso que usamos para software tradicional. Um erro de interpretação — ou uma manipulação deliberada — deixa de ser “só uma resposta errada” e vira uma ação real, às vezes irreversível: um e-mail enviado, um chamado criado, um dado exposto.

Os principais riscos

O estudo organiza os riscos em um “registro de riscos” com dez itens. Os quatro mais críticos:

Injeção de prompt indireta — um documento, e-mail ou comentário malicioso “engana” o modelo, que passa a tratar aquele conteúdo como uma instrução, e não como um dado.
Agência excessiva das ferramentas — um pedido ambíguo do usuário dispara ações amplas ou destrutivas demais.
Vazamento de dados entre sistemas — informação sensível é copiada para um destino de confiança mais baixa (um chamado, um rascunho, uma mensagem externa).
Escalonamento de privilégio via identidade não humana — a conta de serviço usada pelo agente tem mais acesso do que o próprio usuário que fez o pedido.

Outros seis riscos completam a lista: documentos “envenenados”, automação insegura de fluxos de trabalho, memória de longo prazo corrompida, execução insegura de código/consultas geradas pelo modelo, encadeamento de ações aparentemente inofensivas que juntas viram um ataque, e falhas de auditoria que impedem reconstruir quem autorizou o quê.

A pergunta que o artigo responde: alguém já resolveu isso?

Sim — só que de forma fragmentada. Entre 2024 e 2026, surgiram várias propostas de “zero trust” para agentes de IA: extensões do NIST SP 800-207, um white paper da Cisco, o Agentic Trust Framework da Cloud Security Alliance, um framework acadêmico de identidade zero-trust (Huang et al., 2025), o CaMeL da equipe de Debenedetti et al. (2025), e o OWASP Top 10 para Aplicações Agênticas.

O problema: essas propostas se dividem em dois grupos que quase não conversam entre si.

Identidade e rede — focam em autenticar o agente e limitar seus privilégios, mas raramente tratam do problema de dado vs. instrução.
Segregação de fluxo de controle e dados — o CaMeL, por exemplo, é a defesa mais validada empiricamente contra injeção de prompt, mas nem toca em identidade do agente ou governança de memória — por design, ele resolve só uma parte do problema.

Nenhuma proposta cobre, ao mesmo tempo, identidade do agente, segregação instrução/dado, controle de fluxo de informação, um motor de política determinístico, governança de memória e auditoria em nível de sequência.

A proposta: arquitetura ZTA, em seis camadas

A síntese proposta reúne as duas linhas de pensamento em uma arquitetura de seis camadas:

Identidade e autorização do agente — cada agente tem identidade própria, distinta do usuário e de qualquer conta de serviço compartilhada. Sem herança automática de acessos amplos.
Segregação entre instrução e dado — conteúdo recuperado de fora (documentos, e-mails) é sempre tratado como dado, nunca como comando. Ele nunca pode, por construção, autorizar uma ação.
Controle de fluxo de informação — todo dado carrega um rótulo de sensibilidade; todo destino declara o nível máximo que pode receber; o agente não pode rebaixar essa classificação sozinho.
Motor de política determinístico e externo ao modelo — o modelo sugere uma ação; um mecanismo externo e determinístico decide se ela é permitida, negada ou precisa de aprovação humana.
Governança de memória — memória de longo prazo é segmentada por tipo; gravações duráveis com implicação de autorização exigem confirmação humana explícita e jamais podem vir de conteúdo não confiável.
Observabilidade e auditoria em nível de sequência — cada ação gera um registro completo de proveniência, e o monitoramento avalia sequências de ações (não eventos isolados), capaz de flagrar padrões como “leu documento → buscou e-mail → criou chamado → enviou rascunho externo” — individualmente inofensivos, mas suspeitos em conjunto.

A regra de ouro que atravessa as seis camadas: nenhum conteúdo externo chega à camada de execução sem passar pelo mecanismo de decisão. Zero trust aplicado à IA agêntica não é só desconfiar de usuários e sistemas — é desconfiar também do próprio dado que o agente consome.

O que já é maduro, o que é experimental e o que ainda é lacuna aberta

Maduro: separar identidade humana da identidade do agente, projetar ferramentas com privilégio mínimo e exigir aprovação humana para ações irreversíveis — há convergência entre praticamente todas as fontes analisadas.
Experimental, mas promissor: controle de fluxo de informação com capacidades explícitas (como no CaMeL) é a defesa mais validada, mas tem um custo real de usabilidade — o agente completa menos tarefas legítimas quando a política é rígida demais. Esse trade-off precisa ser calibrado por nível de risco, não assumido como resolvido.
Ainda em aberto: identidade de agente baseada em credenciais verificáveis (DIDs/VCs) ainda não é adotada em escala em ambientes corporativos, e integrá-la a protocolos como OIDC/SAML não é trivial. Os benchmarks disponíveis (como o AgentDojo) cobrem poucos domínios e não capturam bem a diversidade de um ambiente corporativo real, com ferramentas internas sob medida.

Limitações, com transparência

O próprio estudo é honesto sobre seus limites: é uma síntese conceitual, não uma validação empírica — nenhuma camada da ZTA foi implementada ou testada contra um benchmark. O cenário de ameaça analisado é representativo, mas único, não uma amostra validada de implantações reais. E a revisão de literatura seguiu um protocolo estruturado, porém não exaustivo, o que significa que outras propostas relevantes — especialmente fontes não indexadas ou fora do inglês — podem ter ficado de fora.

Conclusão

A mudança trazida pela IA agêntica é de natureza, não de grau: um sistema que lê dados privados, decide e age não pode depender apenas dos controles de acesso pensados para software determinístico. A resposta que a literatura já aponta — o modelo recomenda, um mecanismo determinístico decide — não é uma ideia isolada, mas uma convergência de várias frentes de pesquisa e indústria entre 2024 e 2026. O que ainda falta responder não é conceitual, é prático: será que essa integração, uma vez implementada, preserva utilidade suficiente para ser adotada de verdade? Essa é a pergunta que o trabalho futuro precisa responder.

*Fábio Correa Xavier é é Diretor do Departamento de Tecnologia da Informação do Tribunal de Contas do Estado de São Paulo