Nya AI-webbagenter misslyckas med att hitta och använda dold information

arXiv cs.AI

Forskare testade 250 AI-webbagenter på komplexa uppgifter där de behövde hitta dold kontextuell information på webben. Agenterna kunde navigera till relevanta sidor men hittade avgörande bevis i bara en liten andel av fallen, och prestationen sjönk till slumpnivå när de behövde ignorera vilseledande ytlig information.

Djupdykning

Forskare har lanserat PATHWAYS, ett nytt benchmark som avslöjar allvarliga brister i AI-agenters förmåga att utföra djupare utredningsarbete på webben. Testet med 250 komplexa uppgifter visar att även om AI-agenter kan navigera till relevanta webbsidor, lyckas de endast i en bråkdel av fallen att faktiskt hitta och använda avgörande dold information som krävs för att fatta korrekta beslut. Särskilt problematiskt är att prestandan kollapsar nästan helt när agenter måste ignorera vilseledande ytlig information och gräva djupare, vilket tyder på att nuvarande AI-system saknar kritiskt tänkande och förmåga att ifrågasätta första intryck. Resultaten är betydelsefulla eftersom de visar att trots AI-agenternas imponerande navigeringsförmågor på webben, är de fortfarande långt ifrån att kunna ersätta mänskligt omdöme i komplexa utredande uppgifter som kräver analytisk skicklighet. Det här sätter fingret på en viktig begränsning för praktisk tillämpning av AI-agenter inom områden som journalistik, forskning och faktakontroll. Nyckelinsikt: AI-agenter kan navigera webben men saknar fortfarande grundläggande förmågor för kritiskt tänkande och djupanalys som krävs för tillförlitligt utredningsarbete.