Ny AI-agent navigerar webbsidor med visuellt minne
Forskare har utvecklat V-GEMS, en AI-agent som kan navigera webbsidor genom att kombinera visuell förståelse med ett explicit minnessystem som håller reda på var den varit. Agenten presterade 28,7% bättre än tidigare metoder och undviker att fastna i loopar när den navigerar djupt in på webbplatser.
Djupdykning
Forskare har utvecklat V-GEMS, en AI-agent som kan navigera på webben nästan som en människa genom att kombinera visuell förståelse med ett explicit minnessystem. Det stora problemet med nuvarande AI-agenter är att de ofta fastnar i loopar eller blir förvirrade när de ska klicka på rätt knappar och länkar på komplexa webbsidor. V-GEMS löser detta genom att skapa en strukturerad karta över var den har varit och vad den har gjort, vilket gör att den kan backa när den kör fast och undvika att upprepa samma misstag. Med en prestandaökning på 28,7% jämfört med tidigare metoder visar detta att vi kommer allt närmare AI-agenter som kan utföra komplexa uppgifter åt oss på internet - tänk automatiserad näthandel, researchtasks eller formulärfyllning. Nyckelinsikt: Genom att ge AI-agenter både rumslig förståelse och strukturerat minne tar vi ett stort steg mot verkligt autonoma digitala assistenter som kan navigera webben lika smidigt som vi människor.