Ny benchmark visar att AI-modeller fortfarande hallucinerar i 30% av fallen

arXiv cs.AI

Forskare har utvecklat HalluHard, ett test med 950 frågor som visar att även de starkaste AI-modellerna som Claude Opus-4.5 med webbsökning fortfarande producerar felaktig information i cirka 30% av fallen. Testet fokuserar på högkritiska områden som juridik, medicin och kodning där felbedömningar kan få allvarliga konsekvenser.

Djupdykning

Forskare har utvecklat HalluHard, ett nytt benchmark för att mäta hur ofta stora språkmodeller "hallucinerar" - det vill säga påstår felaktiga fakta som låter trovärdiga - i flerrundiga konversationer. Testet omfattar 950 frågor inom kritiska områden som juridik, forskning, medicin och programmering, där modellerna måste ange källor för sina påståenden. Även de starkaste AI-modellerna som Claude Opus-4.5 med webbtillgång hallucinerar fortfarande i cirka 30 procent av fallen, och problemet förvärras ju längre konversationerna blir eftersom tidiga fel sprider sig. Detta är särskilt problematiskt eftersom AI-system i allt högre grad används för expertuppgifter där faktisk korrekthet är avgörande för säkerhet och trovärdighet. Studien visar att hallucinationer påverkas av modellens kapacitet, position i konversationen och vilken typ av kunskap som krävs. Nyckelinsikt: Även de mest avancerade AI-modellerna kämpar fortfarande med att skilja fakta från fiktion i komplexa konversationer, vilket utgör en betydande utmaning för praktisk användning inom kritiska områden.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 31 av 94 ▶