Forskare skapar nytt test för AI-modellers förmåga att navigera komplexa geografiska problem

arXiv cs.AI

Forskare har utvecklat EVGeoQA, ett nytt test som utvärderar hur väl stora språkmodeller kan lösa komplexa navigeringsproblem med flera mål samtidigt - som att hitta en laddstation för elbil samtidigt som man vill besöka en restaurang. Experimenten visar att AI-modeller kan använda verktyg för delproblem men har svårt med längre rutt-planering, även om de oväntat kan sammanfatta tidigare resor för att bli mer effektiva.

Djupdykning

Forskare har skapat EVGeoQA, ett test som utmanar AI-modeller att navigera verkliga geografiska problem istället för att bara svara på statiska kartfrågor. Testet bygger på elbilsladdning – modellerna får koordinater för en användare och måste hitta laddstationer medan de samtidigt uppfyller andra önskemål, som att hitta en restaurang i närheten. Det här är betydligt mer komplext än befintliga test som mest handlar om att hämta information från kartor. Resultaten visar något fascinerande: AI-modellerna kan använda verktyg för att lösa delproblem, men kämpar med att utforska över längre avstånd och balansera flera mål samtidigt. Dock upptäckte forskarna en oväntad förmåga – modellerna kan sammanfatta sina tidigare utforskningsvägar för att bli mer effektiva över tid. Det här är första steget mot AI som faktiskt kan planera resor och navigera komplexa logistiska utmaningar, inte bara svara på frågor om var Stockholm ligger.