CoT2-Meta: Budgeterad metakognitiv kontroll för testtidsresonemang
Forskare har utvecklat CoT2-Meta, ett nytt ramverk som förbättrar AI-modellers förmåga att resonera genom att aktivt styra när modellen ska expandera sitt tänkande, beskära onödiga vägar eller reparera fel. Systemet uppnår 92,8% på MATH-datasetet och 90,4% på GPQA, med förbättringar på 3,6-5,2 procentenheter jämfört med tidigare metoder.
Djupdykning
Forskare har utvecklat CoT2-Meta, ett nytt system som får AI-modeller att "tänka om sitt tänkande" när de löser komplexa problem. Istället för att bara generera en lång kedja av resonemang och hoppas på det bästa, använder systemet en "meta-controller" som aktivt beslutar när AI:n ska utforska nya lösningsvägar, kasta bort dåliga idéer, reparera felaktiga steg eller helt enkelt ge upp och erkänna att den inte vet. Resultaten är imponerande – systemet presterar bättre än befintliga metoder på matematikproblem, vetenskapsfrågor och kodning, samtidigt som det använder beräkningskraft mer effektivt. Det här är betydelsefullt eftersom det visar att AI-system kan bli smartare genom att lära sig när och hur de ska kontrollera sina egna tankeprocesser, precis som människor gör när de löser svåra problem. Nyckelinsikt: Genom att ge AI-system explicit kontroll över sina egna resonemang kan vi få både bättre prestanda och mer effektiv användning av beräkningskraft.