Nytt benchmark visar att bästa AI-modeller bara klarar hälften av kunskapstest

arXiv cs.AI

Forskare har skapat KINA, ett omfattande kunskapstest med 899 frågor från 261 ämnesområden, där Googles Gemini-3.1-Pro-Preview presterar bäst med 53,17% följt av Claude-Opus på 49,92%. Det stora gapet till perfekt prestanda visar att även de mest avancerade språkmodellerna fortfarande har betydande kunskapsluckor inom specialiserade områden.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 21 av 92 ▶