Forskare utvecklar nya metoder för AI-agenters minne och testning
Forskare inom artificiell intelligens har tagit viktiga steg framåt för att förbättra och utvärdera AI-agenters kapacitet. Fyra nya studier presenterar innovativa metoder för att hantera utmaningar inom agentminne, osäkerhetshantering och prestationsbedömning.
En omfattande studie fokuserar på graf-baserade minnesystem för AI-agenter, där forskarna kategoriserar agentminne i kort- och långtidsminne. Grafstrukturer visas vara särskilt lämpliga för att modellera relationella beroenden och organisera hierarkisk information, vilket möjliggör kunskapsackumulering och iterativ resonemang för komplexa uppgifter.
Parallellt har forskare utvecklat ett nytt ramverk för osäkerhetshantering hos AI-agenter. Till skillnad från tidigare forskning som fokuserat på enkla fråga-svar-system, adresserar den nya metoden interaktiva agenter där osäkerheten gradvis minskar genom agentens handlingar över tid.
På testningsfronten har TEA-systemet utvecklats för att automatiskt generera testuppgifter i okända 3D-miljöer. Systemet skapade 87 876 uppgifter över två cykler i 10 olika scener, vilket avslöjade överraskande svagheter hos avancerade AI-modeller i grundläggande uppfattningsuppgifter trots stark prestanda på offentliga benchmarks.
Slutligen introduceras AgenticPay, ett ramverk för att utvärdera AI-agenters förhandlingsförmåga i köp- och säljsituationer. Med över 110 olika uppgifter visar systemet att dagens språkmodeller har betydande brister i förhandlingsförmåga och strategiskt resonemang.
Sammantaget pekar forskningen på att trots snabba framsteg inom AI finns det fortfarande grundläggande utmaningar att lösa innan AI-agenter kan fungera effektivt i komplexa, verkliga miljöer.