Bayesiansk styrning gör kodningsagenter smartare på att fatta beslut

arXiv cs.AI

Forskare har tagit fram ett nytt sätt att styra AI-agenter som skriver kod – istället för fasta regler använder systemet bayesiansk statistik (en metod för att uppdatera sannolikheter löpande) för att dynamiskt avgöra när det är värt att köra dyra verifieringsverktyg. Testat på sex olika AI-modeller och nio kodningsbenchmarks visar metoden störst nytta när verifiering är kostsam och de enklare diagnostikverktygen ger viss men inte perfekt information. Som bonus ger systemet ett tolkningsbart konfidenspoäng för kodens korrekthet, vilket slår befintliga metoder för att mäta osäkerhet.

Djupdykning

De flesta kodningsagenter idag fungerar ungefär som en student som lämnar in en tentamen utan att titta igenom svaren – de kör ett fast schema av verktyg i en förutbestämd ordning, oavsett om situationen egentligen kräver det. Den här forskningen byter ut det rigida schemat mot ett Bayesianskt ramverk, vilket i praktiken betyder att agenten håller koll på hur säker den är på sin lösning och fattar beslut baserat på den osäkerheten snarare än en fast regel. Verifiering av kod – alltså att faktiskt köra och testa att lösningen funkar – är dyrt i termer av tid och resurser, och det är just där Bayesian control visar sin styrka: agenten vet när den ska investera i dyr verifiering och när den kan nöja sig med billigare diagnostik. Det de flesta missar är att pappret egentligen handlar om två saker i ett: dels ett bättre beslutssystem, dels ett helt nytt sätt att mäta hur säker en agent faktiskt är på sin kod – och den biten slår redan existerande metoder som bygger på att tolka modellens egna tokensannolikheter. När AI-agenter börjar fatta mer sofistikerade meta-beslut om sina egna begränsningar förändras grundläggande hur vi ska tänka på tillförlitlighet i automatiserad mjukvaruutveckling.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 3 av 16 ▶