TRACE: Ny metod minskar AI-hallucinationer utan träning

arXiv cs.AI

Forskare har utvecklat TRACE, en algoritm som minskar AI-hallucinationer genom att analysera olika lager i språkmodeller under inferens. Metoden förbättrade prestationen med i genomsnitt +12,26 poäng på MC1-testet över 15 olika modeller, utan att kräva ny träning eller externa datakällor.

Djupdykning

Forskare har utvecklat TRACE, en metod som stoppar AI-hallucinationer genom att låta modellen korrigera sig själv under pågående resonemang. Istället för att bara jämföra olika lager i neurala nätverk eller styra mot "sanningsfullhet", analyserar TRACE hur faktabevis utvecklas genom hela modellens tänkande och väljer automatiskt rätt korrigeringsmetod för varje specifik input. Det smarta med TRACE är att den erkänner att hallucinationer inte följer ett enkelt mönster - ibland vet modellen rätt svar tidigt men förkastas det senare, andra gånger konkurrerar flera kandidatsvar genom hela processen. Genom att spåra dessa "trajektorier" av bevis kan metoden välja mellan tre korrigeringsstrategier: vända på slutresultatet, återgå till ett tidigare tillstånd, eller justera bland kandidatsvaren. Resultaten är imponerande konsistenta - TRACE förbättrade prestandan över samtliga 15 modeller och 8 modellfamiljer utan en enda regression, helt utan träning eller finjustering. Det som gör detta särskilt anmärkningsvärt är att metoden fungerar som en universell lösning med samma inställningar överallt, vilket antyder att hallucinationsmönster kanske är mer förutsägbara än man tidigare trott.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 2 av 15 ▶