Nytt test avslöjar: AI-agenter klarar bara 42% av sjukvårdsuppgifter
arXiv cs.AI
Forskare har lanserat HealthAgentBench, ett testpaket med 54 verkliga sjukvårdsuppgifter fördelade på 7 kategorier – och resultaten visar att dagens bästa AI-agenter fortfarande har lång väg kvar. Det starkaste systemet, Codex GPT-5.5, lyckas bara med ungefär 42% av uppgifterna, vilket är värt att notera nästa gång någon hävdar att AI är redo att ta över kliniska arbetsflöden. Medicinsk bildanalys (att tolka röntgen och liknande) visade sig vara särskilt svårt, medan AI-agenterna klarade sig bättre på att bygga forskningsmodeller från patientdata.