Ny metod för att testa AI-modeller hittar exakt gränsen för vad de klarar av
arXiv cs.AI
Forskare har utvecklat Dynamic Boundary Evaluation som hittar den exakta svårighetsnivån där AI-modeller lyckas hälften av gångerna, istället för att använda samma fasta test för alla modeller. Metoden testades på 9 olika språkmodeller och kan identifiera skillnader som traditionella tester missar när modeller blir för bra eller för dåliga för standarden. Det här kan göra AI-utvärdering mer träffsäker, särskilt för säkerhet och sanningshalt.