Ny teknik bryter skalbarhetshinder för visuella AI-agentsystem

arXiv cs.AI

Forskare har utvecklat L²-VMAS, en metod som löser det så kallade "skalningshindret" där fler AI-agenter försämrar prestanda istället för att förbättra den. Tekniken förbättrar noggrannheten med 2,7-5,4% samtidigt som den minskar tokenanvändningen med 21,3-44,8% genom att ersätta textbaserad kommunikation med direkta minnesstrukturer.

Djupdykning

Forskare har identifierat ett kritiskt problem med visuella multi-agent-system (VMAS) där fler AI-agenter paradoxalt nog försämrar prestanda istället för att förbättra den – en så kallad "skalvägg". Problemet ligger i att agenter kommunicerar genom naturligt språk, vilket skapar informationsförluster när visuella intryck och resonemang översätts till text. Det nya ramverket L²-VMAS löser detta genom att låta agenter dela "dubbla latenta minnen" direkt utan språklig mellanhand, kombinerat med ett entropibaserat system som aktiverar minnesdelning endast när det behövs. Genombrotten visar på 2,7-5,4% förbättrad noggrannhet samtidigt som tokenanvändningen minskar med upp till 45%, vilket betyder både bättre resultat och lägre kostnader. Detta är särskilt betydelsefullt för svenska företag som utvecklar AI-lösningar där flera agenter behöver samarbeta kring visuella uppgifter, som inom automation, övervakning eller kvalitetskontroll. Nyckelinsikt: Genom att kringgå språkbarriären och låta AI-agenter kommunicera direkt via latenta representationer kan multi-agent-system äntligen leverera på sitt löfte om förbättrad prestanda genom samarbete.