OpenDeepThink förbättrar AI-resonemang genom parallell problemlösning

arXiv cs.AI

Forskare har utvecklat OpenDeepThink, en metod som låter AI-modeller lösa komplexa problem genom att generera flera lösningsförslag parallellt och sedan jämföra dem parvis för att hitta det bästa. Tekniken förbättrade Gemini 3.1 Pro's prestanda på programmeringsproblem med 405 poäng på bara 27 minuter, genom att låta modellen kritisera och förbättra sina egna förslag i åtta omgångar.

Djupdykning

OpenDeepThink visar att AI-resonemang inte bara handlar om att tänka djupare, utan också bredare - och smartare urval. Istället för att bara låta modeller resonera längre i en enda tankegång, låter systemet flera AI-kopior tävla mot varandra i par, ungefär som en tennisturnering där Bradley-Terry-modellen (en matematisk metod för att ranka konkurrenter baserat på parvisa jämförelser) avgör vem som går vidare. Det verkligt smarta här är att systemet inte bara väljer bästa svaret - det låter förlorarna lära sig av kritiken och försöka igen, medan de sämsta 25% kasseras helt. Detta löser ett enormt problem: hur ska AI bedöma vilken lösning som är bäst när det inte finns ett facit? Parvisa jämförelser visar sig vara mycket mer tillförlitligt än att bara be AI:n ranka alla svar på en gång. Resultatet? Gemini 3.1 Pro klättrade 405 Elo-poäng på Codeforces (programmeringstävlingsplattform) på bara 27 minuter. Men det mest intrigerande är att förbättringarna bara syns inom "objektivt verifierbara" områden - matematik, kod - medan subjektiva bedömningar faktiskt blev sämre.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 1 av 14 ▶