PRISM: Ny metod förbättrar AI-modellers matematiska resonemang

arXiv cs.AI

Forskare har utvecklat PRISM, en algoritm som använder stegvis verifiering för att förbättra AI-modellers förmåga att lösa komplexa matematiska problem. Metoden når 90% prestanda på AIME25-testet med en 20 miljarder parameter modell, vilket matchar resultat från betydligt större 120 miljarder parameter modeller. PRISM fungerar genom att behandla kandidatlösningar som partiklar i ett energilandskap och koncentrerar sannolikheten på högkvalitativa resonemang.

Djupdykning

AI-forskare har utvecklat PRISM, ett system som förbättrar AI:s resonemang genom att låta den "tänka djupare" och självkorrigera sina svar. Traditionella metoder för djupt tänkande har problem - när AI:n försöker förbättra sina svar kan den faktiskt förvärra dem genom att förstärka fel eller förkasta rätta minoritetslösningar. PRISM löser detta genom att använda en "Process Reward Model" (PRM) som kan bedöma kvaliteten på varje steg i resonemanget, inte bara slutresultatet. Systemet behandlar kandidatlösningar som partiklar i ett energilandskap och använder PRM-poäng för att styra vilka lösningar som ska vidareutvecklas och vilka som ska kasseras. På komplexa matematik- och vetenskapstest når PRISM imponerande resultat - 90% på AIME25 och 75% på HMMT25 - med en 20 miljarder parameter modell som presterar lika bra som en 120 miljarder parameter modell. Det här är ett genombrott för att göra AI-resonemang både mer tillförlitligt och effektivt, särskilt för komplexa problem som kräver steg-för-steg-tänkande. Nyckelinsikt: PRISM visar att bättre självkorrigering, inte bara större modeller, kan vara nyckeln till mer intelligent AI-resonemang.