Forskare utvecklar system för automatisk uppgiftsgenerering för AI-agenter
Forskare har utvecklat TEA, ett system som automatiskt genererar uppgifter för att testa AI-agenter i nya 3D-miljöer. Systemet skapade 87 876 uppgifter över två cykler i 10 olika scener, vilket visade att befintliga AI-modeller presterar överraskande dåligt på grundläggande uppfattningsförmåga trots bra resultat på offentliga tester.
Djupdykning
Forskare har utvecklat ett nytt system för att automatiskt generera utvärderingsuppgifter för AI-agenter direkt i okända 3D-miljöer, vilket avslöjar allvarliga brister hos dagens toppmodeller. Systemet TEA skapar uppgifter genom att låta agenten interagera med miljön och sedan utveckla nya varianter baserat på befintliga uppgifter, vilket resulterade i nästan 88 000 verifierade uppgifter över bara två cykler. När forskarna testade ledande AI-modeller mot människor på dessa uppgifter visade det sig att modellerna presterade förvånansvärt dåligt på grundläggande perceptionsuppgifter och saknade förståelse för 3D-interaktioner, trots att de presterar bra på standardiserade tester. Resultaten understryker den kritiska skillnaden mellan laboratorieprestanda och verklig kapacitet, vilket är avgörande när AI-agenter snart ska lanseras i hem världen över. Nyckelinsikt: Studien visar att dagens AI-agenter kan vara farligt övervärderade eftersom standardtester inte fångar deras verkliga begränsningar i okända miljöer.