Forskare utvecklar metod för att komprimera AI:s tankeprocesser
Forskare har utvecklat en ny teknik som gör att AI-modeller kan resonera mer effektivt genom att korta ner sina "tankeprocesser" (chain-of-thought) utan att påverka kvaliteten på svaren. Metoden, kallad DSS-GRPO, separerar träningen av tanke- och svarsdelarna så att modellen lär sig att tänka mer koncist samtidigt som svaren förblir korrekta.
Djupdykning
AI-modeller använder idag "chain-of-thought" (CoT) – alltså att tänka högt genom problem steg för steg – för att ge mer tillförlitliga svar, men detta kostar betydligt mer eftersom varje tankesteg kräver fler tokens. Forskare har därför utvecklat DSS-GRPO, en metod som tränar modeller att komprimera sina tankeprocesser utan att påverka kvaliteten på slutsvaret. Det smarta med metoden är att den anpassar längden på resonemangen efter hur svår frågan är – enkla problem får kortare tankar medan komplexa behåller djupare analys. Tekniken separerar också träningen av "tänkande"-delen från "svar"-delen, så modellen lär sig att korta ner sina interna resonemang utan att samtidigt göra sina användarsvar kortare och sämre. Detta är en genombrott för att göra AI mer kostnadseffektiv utan att offra prestanda – tänk på det som att träna modeller att "tänka tystare" när det räcker med enkla slutledningar. Nyckelinsikt: Framtidens AI kommer kunna välja hur djupt den tänker baserat på problemets komplexitet, precis som människor gör.