Nytt benchmark visar att bästa AI-modeller bara klarar hälften av kunskapstest
arXiv cs.AI
Forskare har skapat KINA, ett omfattande kunskapstest med 899 frågor från 261 ämnesområden, där Googles Gemini-3.1-Pro-Preview presterar bäst med 53,17% följt av Claude-Opus på 49,92%. Det stora gapet till perfekt prestanda visar att även de mest avancerade språkmodellerna fortfarande har betydande kunskapsluckor inom specialiserade områden.