AI-agenter designar nya språkmodeller autonomt

arXiv cs.AI

Forskare har låtit AI-agenter själva designa nya neurala arkitekturer som presterar bättre än Llama 3.2 – med 2,4-3,8% högre träffsäkerhet på nedströmstasks. Systemet AIRA använder 31 agenter som inom 24 timmar utforskar nya sätt att bygga språkmodeller, från grundläggande komponenter till kompletta implementationer.

Djupdykning

AI-agenter har nu börjat designa sina egna neurala nätverk från grunden, och resultaten är faktiskt bättre än vad människor har skapat. I det här experimentet fick 11 AI-agenter 24 timmar på sig att utforska helt nya arkitekturer för språkmodeller, medan 20 andra agenter skrev kod för nya uppmärksamhetsmekanismer - de byggstenar som låter AI förstå långsiktiga samband i text. Det som gör det här så märkvärdigt är att agenterna inte bara kopierade befintliga designs utan hittade genuint nya sätt att organisera beräkningar som presterar 2-4% bättre än etablerade modeller som Llama 3.2. Vad de flesta missar är att det här inte handlar om att ersätta mänskliga forskare utan om att skapa ett system där AI kan förbättra sig själv i en loop - varje generation av modeller blir bättre på att designa nästa generation. Det är som att vi precis har sett de första stapplande stegen mot AI som utvecklar AI, och det händer mycket snabbare än de flesta förutspådde.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 2 av 17 ▶