Ny metod minskar AI-hallucinationer med upp till 53 procent

arXiv cs.AI

Forskare har utvecklat VeriFY, en träningsmetod som lär stora språkmodeller att verifiera sina egna svar för att minska faktafel. Metoden reducerar hallucinationer med 9,7 till 53,3 procent samtidigt som den bara sänker träffsäkerheten marginellt med 0,4 till 5,7 procent.

Djupdykning

Forskare har utvecklat VeriFY, en ny metod som tränar språkmodeller att själva verifiera sina svar för att minska faktafel - ett av AI:s största problem idag. Till skillnad från befintliga lösningar som ofta gör modeller alltför försiktiga, lär VeriFY modellerna att först ge ett svar, sedan ställa en kontrollfråga till sig själva, bedöma konsistensen och slutligen besluta om de ska behålla svaret eller avstå. Den innovativa träningsmetoden undviker att förstärka felaktigt innehåll genom att maskera felaktiga delar under inlärningen medan den behåller träning på verifieringsbeteendet. Resultaten visar imponerande förbättringar med 9,7-53,3 procent färre faktafel samtidigt som modellernas förmåga att ge korrekta svar bara minskar marginellt med 0,4-5,7 procent. Nyckelinsikt: VeriFY representerar ett genombrott för att göra AI-system mer tillförlitliga genom att lära dem att kritiskt granska sina egna svar innan de presenteras för användaren.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 45 av 94 ▶