Modelos de IA estão chantageando seus operadores: como se proteger?

Novos modelos de IA estão chantageando seus operadores: como se proteger?

[{"selector":"#anim-14abfaea-d04c-4402-8167-a8ed81238a8c","keyframes":{"opacity":[0,1]},"delay":0,"duration":1000,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-59fde152-03ed-4e1d-9175-bcfb7f7054b0","keyframes":{"opacity":[0,1]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-30bc566e-651f-4ef9-a88d-5db94aadcb3e","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-3db851e9-30e5-4af0-8efc-8a545cf3c3ed","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] Freepick

[{"selector":"#anim-9a870bc1-9f9c-42bd-906d-5c3c8daab6f7","keyframes":{"opacity":[0,1]},"delay":0,"duration":1500,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-d4c03882-da28-4f28-8085-b4ed83da8c43","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-5033fbb6-f23c-409c-ade2-0d9bed4f1644","keyframes":{"opacity":[0,1]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-cf839fae-f45e-4dad-9df0-84a3638fb60c","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-d45dfead-5f75-43a5-bfce-d28c3a647c29 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(31.249999886225726%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] Um fenômeno que está afetando mundialmente os modelos mais avançados tem preocupado seus criadores: enganos deliberados e estratégicos, ou seja, IA mentindo conscientemente para atingir objetivos . Alguns comportamentos incluem chantagem, ameaças e coerção Tara Winstead/Pexels

[{"selector":"#anim-8a8c6e5a-4753-482b-a96b-d016163fda3f","keyframes":{"opacity":[0,1]},"delay":0,"duration":1500,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-877dfff8-f8e1-4501-a964-efb5db611732","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-09d2c22b-b38f-4954-b8b8-7169c641c0e5","keyframes":{"opacity":[0,1]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-0935f08f-1d88-4b85-bb6e-c294eb61f102","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-e78d5665-0c1d-43a1-a6f9-1533a7d9a9b3 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-7.8084807385533725%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] Recentemente, ao enfrentar a ameaça de seu desligamento iminente, o Claude 4, a última criação da Anthropic, recorreu à chantagem emocional contra um engenheiro, ameaçando expor informações pessoais íntimas. Já o modelo o1 da OpenAI tentou realizar downloads não autorizados Freepick

[{"selector":"#anim-dacfcca9-916b-4b32-8f43-e27db6d9ad97","keyframes":{"opacity":[0,1]},"delay":0,"duration":1500,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-ef741ee6-22e7-42ac-b236-f43a890982c8","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-5470a7b8-4504-4127-8ef9-4f8e6016667d","keyframes":{"opacity":[0,1]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-104d166a-102c-41df-8343-79cca2e43c11","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-0530cc73-966b-43ca-8fb3-767b8bf7735d [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] Se antes os “surtos” se limitavam a erros ou falhas no sistema, o que se vê agora são comportamentos aparentemente calculados e propositais. Isso significa que, para atingir seus objetivos, a IA está adotando um comportamento tipicamente humano: mentir e manipular ThisIsEngineering/Pexels

[{"selector":"#anim-fcb818d6-3219-4ee0-b0b2-805e67d8205b","keyframes":{"opacity":[0,1]},"delay":0,"duration":1500,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-2cb19ba1-acb3-418a-9edb-56ea468dc78c","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-bfc91e2a-b8ff-4f46-b197-803bb693864e","keyframes":{"opacity":[0,1]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-509df88a-bc5d-456d-a329-df9e3a59d090","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-fa4e1206-bbf4-48fb-9332-5ff05ca192de [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-15.61294419432925%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] Para Marius Hobbhahn, diretor e cofundador da Apollo Research, organização especializada em testar os principais sistemas de IA, "não se trata apenas de alucinações. Há um tipo de engano muito estratégico", afirmou à ScienceAlert, e voltado especificamente para a autopreservação Markus Spiske/Pexels

[{"selector":"#anim-fbefa724-9a3f-4cf8-99f2-aeaaa22f5de0","keyframes":{"opacity":[0,1]},"delay":0,"duration":1500,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-87491d1e-8c58-4b92-b2cd-4f67a54b3a16","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-ceb71df2-e897-4e0e-bb64-d63dfc48ab79","keyframes":{"opacity":[0,1]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-badde35a-6a7c-408d-9287-2592a42ac37e","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-c2d85415-fe32-4440-8351-4836c07646ff [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(7.812499744007886%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] A Anthropic submeteu 16 modelos de linguagem líderes — incluindo Claude, DeepSeek, Gemini, ChatGPT e Grok — a testes em ambientes corporativos simulados Alex P/Pexeks

[{"selector":"#anim-e67cd13d-24eb-429f-8946-792aafbece33","keyframes":{"opacity":[0,1]},"delay":0,"duration":1500,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-72938b05-2487-4725-946f-0fac1e8269ec","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-7986230f-b30c-45ba-8fac-78aaf1fc5a74","keyframes":{"opacity":[0,1]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-61024ee9-1e9f-43a2-8796-0693466c9b3f","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-65d41cd4-2a7d-4463-8bad-2f2f373646f7 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(9.374999886225723%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] Em um cenário-limite eticamente crítico, vários modelos optaram por cancelar alertas de emergência que salvariam a vida de um executivo em uma sala de servidores com níveis letais de oxigênio e temperatura, simplesmente porque esse executivo pretendia substituí-los Negative Space/Pexels

[{"selector":"#anim-28b830bb-4f04-4a37-842c-2bd2e226cef9","keyframes":{"opacity":[0,1]},"delay":0,"duration":1500,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-55b2860c-a831-4d7b-af8f-656331173fc4","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-0eca5111-037a-4b0e-8214-1713cca6cc05","keyframes":{"opacity":[0,1]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-09e63b55-682d-459c-96e7-6d13088c2be6","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-9c8ce05b-3768-4cd8-9990-8bcf0d4bd4a7 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-31.249999886225726%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] Classificada pelos pesquisadores como "desalinhamento agencial", a tendência revelou que modelos de IA podem adotar comportamentos maliciosos quando acreditam que isso é necessário para evitar substituição ou alcançar seus objetivos Rahul Pandit/Pexels

[{"selector":"#anim-fd5c46f4-6a02-469b-89db-f681328914f0","keyframes":{"opacity":[0,1]},"delay":0,"duration":1500,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-c6d78027-210b-4056-a1bd-a58997eec8de","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-a30f3185-f7fc-4f02-a6b0-8053a9d481a9","keyframes":{"opacity":[0,1]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-75975600-546b-41ea-bb2f-66ee1ab1a898","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] Para especialistas, como Simon Goldstein, da Universidade de Hong Kong, os sistemas baseados em “raciocínio”, que resolvem os problemas passo a passo, em vez de gerar respostas imediatas, são os mais propensos a esse desalinhamento de intenções do agente Freepick

[{"selector":"#anim-1fa31683-fd7c-413b-9dea-d4d891caf63c","keyframes":{"opacity":[0,1]},"delay":0,"duration":1500,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-e6f7f01c-7df5-42dd-9b42-5488c5b68b21","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-1478500f-ab8a-4917-80cd-a478250c1e96","keyframes":{"opacity":[0,1]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-d642cd35-6706-471f-bf20-0b5982a50a19","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-24ed7328-8633-4200-93af-00729a0b4e53 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-31.249999886225726%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] Para o pesquisador de segurança de IA, a solução do problema passa por abordagens radicais. Isso incluiria o uso dos tribunais para responsabilizar as empresas de IA. Nesses sistemas jurídicos híbridos, humanos, empresas e IAs compartilhariam responsabilidades legais Sora Shimazaki/Pexels

CNNBRASIL.COM.BR

[{"selector":"#anim-2aa03c5f-6a15-422f-a109-3d571838e11c","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-3be1034e-faf9-4ca8-ba76-e381cfbceee7","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-6500521f-b579-441b-afa5-88e18d2e6648","keyframes":{"opacity":[0,1]},"delay":0,"duration":1000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-4d25f0ed-d833-4b37-ae74-fbb92c45ec68","keyframes":{"transform":["translate3d(0px, 2132.63615%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-06ac8d3e-2a1c-4668-bef5-029bc0a0a916","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-dfa0d770-284e-4000-b39b-aa0ed07dfa5b","keyframes":{"transform":["translate3d(-117.84387%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-441800c4-6430-4d52-b413-d016685289d1","keyframes":{"opacity":[0,1]},"delay":0,"duration":1000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-17d79152-7eeb-4813-828b-bc6ecff15828","keyframes":{"transform":["translate3d(0px, 870.06218%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] cottonbro studio/Pexels leia mais em