Ny metod för att testa AI-modeller hittar exakt gränsen för vad de klarar av

arXiv cs.AI

Forskare har utvecklat Dynamic Boundary Evaluation som hittar den exakta svårighetsnivån där AI-modeller lyckas hälften av gångerna, istället för att använda samma fasta test för alla modeller. Metoden testades på 9 olika språkmodeller och kan identifiera skillnader som traditionella tester missar när modeller blir för bra eller för dåliga för standarden. Det här kan göra AI-utvärdering mer träffsäker, särskilt för säkerhet och sanningshalt.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 6 av 59 ▶