KnowRL förbättrar AI-resonemang med minimal kunskapsvägledning

arXiv cs.AI

Forskare har utvecklat KnowRL, en träningsmetod som hjälper språkmodeller resonera bättre genom att dela upp vägledning i små kunskapsdelar istället för att mata in långa ledtrådar. Deras 1,5 miljarder parameter-modell når 70% noggrannhet på matematiska problem – en förbättring på nästan 10 procentenheter jämfört med basmodellen.

Djupdykning

Forskare har knäckt ett grundläggande problem med att träna AI-modeller att resonera bättre - hur man ger precis rätt mängd vägledning utan att överväldiga systemet. KnowRL löser detta genom att bryta ner komplexa problem i atomära "kunskapspoäng" och sedan använda en smart algoritm för att hitta den minsta uppsättning ledtrådar som faktiskt hjälper modellen lära sig. Det genuint intressanta här är "pruning interaction paradox" - att ta bort en ledtråd kan hjälpa prestandan, men ta bort flera kan skada den, vilket tyder på att AI-reasoning fungerar mer som ett ekosystem än en pipeline. Resultaten är imponerande för en så liten modell - 1,5 miljarder parametrar når 70% noggrannhet på reasoning-uppgifter, vilket överträffar betydligt större modeller. Det visar att intelligens kanske handlar mer om kvaliteten på träningsprocessen än bara att mata in mer data, ungefär som skillnaden mellan att lära sig spela schack genom att memorera miljoner partier versus att förstå de underliggande strategierna.