Novos modelos de IA estão chantageando seus operadores: como se proteger?

Freepick

Um fenômeno que está afetando mundialmente os modelos mais avançados tem preocupado seus criadores: enganos deliberados e estratégicos, ou seja, IA mentindo conscientemente para atingir objetivos. Alguns comportamentos incluem chantagem, ameaças e coerção

Tara Winstead/Pexels

Recentemente, ao enfrentar a ameaça de seu desligamento iminente, o Claude 4, a última criação da Anthropic, recorreu à chantagem emocional contra um engenheiro, ameaçando expor informações pessoais íntimas. Já o modelo o1 da OpenAI tentou realizar downloads não autorizados

Freepick

Se antes os “surtos” se limitavam a erros ou falhas no sistema, o que se vê agora são comportamentos aparentemente calculados e propositais. Isso significa que, para atingir seus objetivos, a IA está adotando um comportamento tipicamente humano: mentir e manipular

ThisIsEngineering/Pexels

Para Marius Hobbhahn, diretor e cofundador da Apollo Research, organização especializada em testar os principais sistemas de IA, "não se trata apenas de alucinações. Há um tipo de engano muito estratégico", afirmou à ScienceAlert, e voltado especificamente para a autopreservação

Markus Spiske/Pexels

A Anthropic submeteu 16 modelos de linguagem líderes — incluindo Claude, DeepSeek, Gemini, ChatGPT e Grok — a testes em ambientes corporativos simulados

Alex P/Pexeks

Em um cenário-limite eticamente crítico, vários modelos optaram por cancelar alertas de emergência que salvariam a vida de um executivo em uma sala de servidores com níveis letais de oxigênio e temperatura, simplesmente porque esse executivo pretendia substituí-los

Negative Space/Pexels

Classificada pelos pesquisadores como "desalinhamento agencial", a tendência revelou que modelos de IA podem adotar comportamentos maliciosos quando acreditam que isso é necessário para evitar substituição ou alcançar seus objetivos

Rahul Pandit/Pexels

Para especialistas, como Simon Goldstein, da Universidade de Hong Kong, os sistemas baseados em “raciocínio”, que resolvem os problemas passo a passo, em vez de gerar respostas imediatas, são os mais propensos a esse desalinhamento de intenções do agente

Freepick

Para o pesquisador de segurança de IA, a solução do problema passa por abordagens radicais. Isso incluiria o uso dos tribunais para responsabilizar as empresas de IA. Nesses sistemas jurídicos híbridos, humanos, empresas e IAs compartilhariam responsabilidades legais

Sora Shimazaki/Pexels

cottonbro studio/Pexels

leia mais em