IA passa em “teste final”? Banco mede nível de acerto

Inteligência artificial passa em “teste final”? Banco mede nível de acerto

[{"selector":"#anim-dbf9a7a3-e52f-4936-9480-e35aebad4b93","keyframes":{"opacity":[0,1]},"delay":0,"duration":1000,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-e28775ac-76b4-48b1-aa89-d9bc5c757a4b","keyframes":{"opacity":[0,1]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-f902ef67-f100-4efb-a5f5-63c06008b4b9","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-47fad887-72d1-458b-9259-c4d075559f10","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] Freepick

[{"selector":"#anim-141539e0-17d0-4bf7-9d77-a1b0f71a059f","keyframes":{"opacity":[0,1]},"delay":0,"duration":1500,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-53e1ccac-d303-490d-958b-bbf46b6a82a8","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-337c384d-0575-4a17-b526-be3596010531","keyframes":{"opacity":[0,1]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-2cfd59e9-3be1-4129-a620-e2a0565c14ea","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-07dfc338-f7fd-4869-b388-0b4c198fe188 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] Pesquisadores de mais de 40 países, com participação brasileira, criaram um banco de dados que promete funcionar como um “teste final” para medir o avanço da inteligência artificial ThisIsEngineering/Pexels

[{"selector":"#anim-37ac4297-d446-4417-9c99-08e007c6ba4a","keyframes":{"opacity":[0,1]},"delay":0,"duration":1500,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-a38fce3a-d4e8-4d54-8a59-7efbfb14131b","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-bd368e98-c496-4db9-8ea4-ac1a604f0307","keyframes":{"opacity":[0,1]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-89c439a7-0e61-426e-8ca5-366496e44090","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-3c5db2e9-137b-496b-b2a2-884cbe4f2600 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(0, 17.93032832415473%, 0)","translate3d(0, 0%, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] A ferramenta, chamada Humanity’s Last Exam (HLE) — ou “o último exame da humanidade” —, está disponível para uso público e teve seu funcionamento descrito na revista Nature. As informações foram divulgadas pelo Jornal da USP, da Universidade de São Paulo Google DeepMind/Pexels

[{"selector":"#anim-aee23062-955e-449c-bcb7-67d72813ed57","keyframes":{"opacity":[0,1]},"delay":0,"duration":1500,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-74f6cb8f-89bb-4121-b878-c8c146b83c60","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-f07eeb4f-d883-4973-9eca-d661597405c2","keyframes":{"opacity":[0,1]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-16ac7b30-f481-491f-af13-75b580fa0696","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-955b4b78-1926-493b-9f03-268700eb26d7 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(31.249999886225726%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] O HLE reúne 2.500 questões distribuídas em dezenas de áreas do conhecimento, como matemática, ciências naturais e humanidades. O objetivo é avaliar, com precisão, o nível de acerto de modelos de IA, incluindo os chamados LLMs , como o ChatGPT e Gemini Matheus Bertelli/Pexels

[{"selector":"#anim-76b4de7f-11b9-4b82-a343-32bf07645344","keyframes":{"opacity":[0,1]},"delay":0,"duration":1500,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-092f5cd1-fedc-49c1-bef2-a1f19d0b88a8","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-eaef63ec-3ad8-4dfa-878e-4b2309425ba9","keyframes":{"opacity":[0,1]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-e109ea92-986a-4dcc-bda9-18173047fd3a","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-319c7060-7d58-476d-81df-a0a835c68daf [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] “A ideia é essencialmente criar uma ferramenta para medir o avanço dos modelos de IA de hoje”, afirmou ao Jornal da USP a pesquisadora Emily de Oliveira Santos, do Instituto de Ciências Matemáticas e da Computação da USP Sumaid pal Singh Bakshi/uNSPLASH

[{"selector":"#anim-553c5801-1cd6-4d7e-95be-9e1104ca7c9f","keyframes":{"opacity":[0,1]},"delay":0,"duration":1500,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-756bdbd4-e6f1-498c-929c-80596f4b818f","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-12297e97-305e-4337-84f4-1874fdc810d9","keyframes":{"opacity":[0,1]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-3346edc0-e241-4c1c-b036-ae60d13ca6c0","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-2747cc16-f3d0-494b-ab56-e12691145efe [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(44.30602232701625%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] O banco de dados foi estruturado para avaliar diferentes tipos de habilidade — do conhecimento científico ao raciocínio aplicado. Segundo Emily, o HLE pode testar desde conhecimentos gerais e senso comum até competências mais complexas Google DeepMind/Pexels

[{"selector":"#anim-368c7bd2-1b4a-4126-b0ad-70f70ea2a36d","keyframes":{"opacity":[0,1]},"delay":0,"duration":1500,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-c3990745-fb69-4f73-b731-6d05ed9a3fcc","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-68ace541-c1bc-4d83-9531-bac73d1387e7","keyframes":{"opacity":[0,1]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-747f3597-2626-4dd4-a11c-45b3f73975c2","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":500,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-6c53cb6d-bfc6-47cb-8528-03e8b29819b4 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-62.128906328685574%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] O projeto foi disponibilizado no site lastexam.ai com a proposta de subsidiar pesquisas e políticas públicas relacionadas à inteligência artificial Steve Johnson/Unsplash

CNNBRASIL.COM.BR

[{"selector":"#anim-f239d18c-dff4-4dca-ad90-e23c98e5f56f","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-6ef5ec34-f1d3-4e9a-bf0f-b81183f56479","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-c2cfb5ae-46f1-4f59-9996-5277777ccc7c","keyframes":{"opacity":[0,1]},"delay":0,"duration":1000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-6d9d31c5-f764-4623-979c-cd13ecff4a77","keyframes":{"transform":["translate3d(0px, 2132.63615%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-06700191-ff39-4235-9326-b42723cab385","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-b4cab383-6560-4837-b1c1-92b318fd4154","keyframes":{"transform":["translate3d(-117.84387%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-93865da7-5006-4666-b5be-59ca28e73c01","keyframes":{"opacity":[0,1]},"delay":0,"duration":1000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-a3bf93a5-c063-40d5-b284-ae164f6eec22","keyframes":{"transform":["translate3d(0px, 870.06218%, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] Aidin Geranrekab/Unsplash leia mais em