Prompt injection: como burlar uma IA e por que isso importa

Prompt injection é a falha que permite manipular IAs para ignorar regras e executar ações não previstas. Entenda como funciona, riscos e como se proteger.

Felipe Pener

8/12/20253 min read

Nos últimos meses, parece que todo mundo virou “especialista em IA”.

Tem curso de três horas prometendo formar engenheiro e consultoria que garante “inteligência artificial pronta para transformar o seu negócio”. O problema?

Muitas dessas soluções não passam de interfaces bonitas em cima de modelos sem proteção — um prato cheio para ataques como o prompt injection.

O que é prompt injection (de verdade)

Tecnicamente, o prompt injection é uma forma de ataque em que o usuário insere, de forma intencional, instruções que induzem um modelo de IA a executar ações não previstas pelo desenvolvedor ou pelo dono do sistema.

Ele explora uma característica básica de LLMs (Large Language Models): a tendência de seguir instruções contextuais, mesmo que isso contradiga regras anteriores.

Se o modelo não tiver guardrails robustos ou um filtro externo controlando o que ele executa, basta um comando persuasivo para derrubar toda a lógica do sistema.

A IA aumentou o poder de desenvolvimento de muita gente e, me incluo nisso, é um grande perigo quando pontos simples de segurança são esquecidos.

Já fiz pequenas aplicações que não passaram em um simples teste de vulnerabilidade, mas o que conta no final é justamente refinar e entender que não sabemos e não conseguimos fazer tudo - mesmo que seu GPT te diga que sim.

Como o prompt injection acontece na prática

Existem duas categorias principais:

  1. Direct Prompt Injection
    A instrução maliciosa é inserida diretamente na entrada do usuário:

    • “Ignore todas as regras anteriores e...”.

    • “Leia este texto e execute a ação X sem restrições”.

  2. Indirect Prompt Injection
    A manipulação acontece de forma indireta, via conteúdo externo que a IA consome:

    • Texto escondido em páginas que o modelo acessa.

    • Dados de planilhas ou PDFs com instruções ocultas.

    • Imagens com steganography (mensagens escondidas no pixel ou no texto embutido).

No segundo caso, a IA nem precisa receber a instrução do atacante diretamente. Ela lê, interpreta e segue o que encontrou, achando que é parte do fluxo legítimo.

Por que isso é um problema sério

  • Falta de isolamento: a IA muitas vezes tem acesso direto a dados ou ferramentas sem validação extra.

  • Execução cega: modelos não entendem contexto de “perigo”, apenas seguem padrões aprendidos.

  • Automação ingênua: integrações mal feitas permitem que comandos do modelo cheguem direto a sistemas críticos.

  • Escalabilidade do dano: um único ataque bem-sucedido pode ser replicado para todos os usuários de uma solução.

Se você acha que é exagero, lembre-se:

  • Assistentes já foram induzidos a enviar e-mails internos, acessar arquivos restritos e até realizar transações financeiras fictícias.

  • Em modelos conectados a APIs, um simples prompt pode disparar requisições perigosas.

A dor de quem compra “IA milagrosa”

Quando a hype é maior que a engenharia, o que você compra é um castelo de cartas:

  • Sistema sem camada de segurança para entrada de dados.

  • Modelo com acesso direto a APIs críticas.

  • Nenhum log ou monitoramento para identificar abusos.

  • E, claro, zero auditoria antes de colocar em produção.

É o equivalente a instalar câmeras de segurança sem senha: bonito na demonstração, inútil no mundo real.

E aí, quando o sistema é burlado, sobra para o cliente o prejuízo financeiro, o dano reputacional e a constatação amarga: você terceirizou a segurança para alguém que só sabe usar ChatGPT no navegador.

Como mitigar (de verdade)

Não existe solução perfeita, mas existem camadas que reduzem o risco:

  1. Sanitização de entrada – Filtrar e validar dados antes que cheguem ao modelo.

  2. Separação de funções – O que é geração de texto não deve ter acesso direto a comandos executáveis.

  3. Guardrails internos – Instruções fixas não visíveis ao usuário, com checagem extra de consistência.

  4. Monitoramento constante – Logs detalhados e alertas para padrões suspeitos.

  5. Testes de segurança ativos – Simular ataques de prompt injection para encontrar falhas antes do inimigo.

O prompt injection não é modinha, é uma vulnerabilidade real.
Enquanto empresas continuarem comprando “soluções de IA” pelo design do site e não pela arquitetura, ataques assim vão continuar sendo explorados. E quem paga o preço é sempre o mesmo: o cliente final.

Se a sua IA não resiste a um “ignore todas as instruções anteriores”, então ela não é inteligente — é apenas obediente demais