Nya tester visar att AI-modeller når tak på 66% i expertuppgifter

arXiv cs.AI

Forskare har skapat XpertBench, ett test med 1 346 professionella uppgifter från 80 kategorier som experter inom finans, juridik och medicin har bidragit med. Även de bästa AI-modellerna klarar bara omkring 66% av uppgifterna, vilket visar att det fortfarande finns en stor klyfta mellan AI och verklig expertis. Modellerna presterar olika bra inom olika områden - vissa är bättre på matematik medan andra är bättre på språk.

Djupdykning

Medan ChatGPT och Claude imponerar på oss vanliga dödliga med sina svar, visar sig de flesta AI-modeller bara klara runt 55% av riktigt expertuppgifter när de bedöms enligt professionella standarder. XpertBench skiljer sig från andra tester genom att låta över 1000 riktiga experter – forskare från toppuniversitet och erfarna praktiker – skapa uppgifter som faktiskt speglar vad som krävs i deras yrken, inte bara generella kunskapsfrågor. Det mest slående är att även de bästa modellerna når en "takmaxeffekt" på omkring 66% framgång, vilket tyder på att vi närmar oss en vägg där nuvarande AI-arkitekturer inte räcker till för genuint expertarbete. Modellerna visar också märkliga styrke- och svaghetsmönster – vissa exceller på kvantitativ analys men havererar på språklig syntes, andra tvärtom. Det här är varför ditt lokala advokatkontor och sjukhus fortfarande inte ersatts av robotar – det räcker inte att låta smart, man måste faktiskt leverera på expertnivå.