ActionEngine: Ny teknik gör GUI-agenter 12 gånger billigare

arXiv cs.AI

Forskare har utvecklat ActionEngine, en AI-agent som kan styra grafiska användargränssnitt genom att först utforska webbsidor offline och bygga upp ett minne, sedan skriva Python-program för att utföra uppgifter. Tekniken uppnår 95% framgång på Reddit-uppgifter jämfört med 66% för tidigare metoder, samtidigt som den minskar kostnaderna med 11,8 gånger och latensen med hälften.

Djupdykning

Forskare har utvecklat ActionEngine, ett nytt system som revolutionerar hur AI-agenter interagerar med webbgränssnitt genom att ersätta den traditionella "titta-tänka-agera"-metoden med programmatisk planering. Istället för att ta skärmdumpar och resonera vid varje steg använder systemet två specialiserade agenter: en som kartlägger webbsidor offline och skapar ett "minne" av gränssnittet, och en annan som skriver kompletta Python-program för att utföra uppgifter baserat på denna karta. Resultaten är imponerande - på Reddit-uppgifter lyckades systemet i 95% av fallen med bara ett enda AI-anrop i genomsnitt, jämfört med 66% för traditionella metoder, samtidigt som kostnaderna minskade med nästan 12 gånger. Det smarta är att systemet har en backup-mekanism som kan "reparera" sig själv om något går fel genom att falla tillbaka på visuell analys och uppdatera sitt minne. Detta representerar ett fundamentalt skifte från reaktiv till proaktiv AI-automation av webbuppgifter, vilket öppnar dörrar för mycket mer effektiv och tillförlitlig automatisering av repetitiva onlineuppgifter - från e-handel till administrativt arbete. Nyckelinsikt: Genom att ge AI-agenter ett ihållande minne och förmågan att planera programmatiskt istället för att reagera steg för steg, kan vi uppnå dramatiskt bättre prestanda till en bråkdel av kostnaden.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 2 av 18 ▶