Forskare skapar första gemensamma standarden för AI-utvärderingsresultat
arXiv cs.AI
Forskare har lanserat Every Eval Ever, en databas som samlar AI-utvärderingar från olika källor i ett enhetligt format efter att resultaten tidigare varit utspridda över otaliga plattformar och format. Databasen innehåller redan 22 235 modeller och 2 273 unika benchmarks, vilket gör det enklare att jämföra AI-prestanda över olika system. Det här löser ett stort praktiskt problem – tidigare var det som att försöka jämföra äpplen med päron när man ville se vilka AI-modeller som faktiskt presterar bäst.