AI-modell lär sig förbättra sig själv utan extern hjälp

arXiv cs.AI

Forskare har utvecklat EvoLM, en metod där språkmodeller skapar sina egna bedömningskriterier och använder dem för att träna sig själva bättre. Deras Qwen3-8B-modell presterade 25,7% bättre än GPT-4.1 på RewardBench-2 genom att helt enkelt jämföra sina nuvarande svar med äldre versioner av sig själv. Det intressanta här är att modellen inte behöver mänskliga annoteringar eller externa belöningsmodeller – den utvecklar sin egen förmåga att bedöma kvalitet.

Djupdykning

Forskare har byggt en språkmodell som tränar sig själv att bli bättre genom att utveckla sina egna bedömningskriterier – lite som att lära sig genom att ständigt finslipa sitt eget betygsystem. EvoLM fungerar genom att modellen växelvis tränar två färdigheter: att skapa specifika utvärderingsrubiker för varje uppgift, och att använda dessa rubriker för att förbättra sina egna svar, allt utan extern övervakning. Det som gör detta banbrytande är att det kringgår de klassiska begränsningarna inom AI-träning – mänskliga bedömare kan inte lära modeller att överträffa mänsklig förmåga, externa API:er skapar beroenden, och traditionella belöningssystem fungerar bara där det finns självklara rätta svar. Genom att låta modellen jämföra sina nuvarande prestationer med sina egna tidigare versioner skapas en självförstärkande loop där både bedömningsförmågan och prestandan förbättras tillsammans. Resultaten visar att en 8 miljarder parameter-modell kan utveckla bedömningskriterier som överträffar GPT-4, vilket antyder att framtidens AI-utveckling kanske handlar mindre om att mata modeller med mer data och mer om att låta dem utveckla sina egna interna standarder för excellens.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 1 av 19 ▶