Forskare skapar AI-system som automatiskt bygger benchmarks för robotars rumsliga intelligens

arXiv cs.AI

Embodied-BenchClaw använder tre AI-agenter för att automatiskt skapa och underhålla benchmarks som testar robotars förmåga att förstå rum och rörelse. Systemet bygger komplett testpaket genom fem steg - från planering till utvärdering - och har redan skapat benchmarks för inomhusnavigering, robotmanipulation och drönare. Det här skulle kunna lösa problemet med att dagens robotbenchmarks snabbt blir för lätta när AI-modellerna förbättras.

Djupdykning

Forskare har utvecklat ett system som automatiskt bygger testbatteri för att mäta hur bra AI är på spatial intelligens – alltså förmågan att förstå och navigera i fysiska miljöer. Embodied-BenchClaw använder tre AI-agenter som samarbetar för att skapa, strukturera och utvärdera nya tester baserat på vad användaren vill mäta, från inomhusnavigation till drönarförståelse. Det genialiska ligger inte bara i automatiseringen, utan i att systemet löser benchmark-problemet som hela AI-branschen brottas med: dagens tester blir snabbt föråldrade när modellerna förbättras, och att skapa nya är enormt tidskrävande. Genom att göra processen kontinuerlig och modulär skapas en självförnyelsemaskin för utvärdering. Det här kan förändra hur vi mäter framsteg inom robotik och embodied AI, men det väcker också frågan om vi riskerar att skapa en värld där AI-system bara blir bra på att lösa de tester som andra AI-system designar. Kanske är det dags att fundera på om vi behöver människor i loopen för att säkerställa att våra mätverktyg faktiskt speglar verkligheten.