Multimodala AI-modeller misslyckas med grundläggande rumslig matematik

arXiv cs.AI

En ny studie visar att ledande multimodala språkmodeller endast når 60% noggrannhet på rumsliga matematikproblem som människor löser med 95% säkerhet. Forskarna presenterar MathSpatial, ett ramverk med 2 000 testproblem och 8 000 träningsexempel för att förbättra AI-modellers rumsliga resonemang. Finjustering av Qwen2.5-VL-7B med metoden uppnådde konkurrenskraftig noggrannhet samtidigt som antalet tokens reducerades med 25%.

Djupdykning

Forskarna bakom MathSpatial har avslöjat en fundamental svaghet hos dagens mest avancerade multimodala AI-modeller - deras bristfälliga förmåga att förstå rumsliga relationer och lösa matematiska problem som involverar två- och tredimensionell geometri. Medan människor löser sådana uppgifter med över 95% träffsäkerhet når inte ens de ledande modellerna 60%, vilket tyder på att dessa system främst är tränade på mönsterigenkänning snarare än verklig rumslig förståelse. Detta är särskilt problematisk eftersom rumslig resoning är grundläggande för många praktiska tillämpningar inom teknik, arkitektur och robotik där AI-system förväntas navigera och manipulera fysiska objekt. Studiens nya ramverk MathSpatial erbjuder både en systematisk testbänk för att mäta dessa förmågor och en träningsmetod som strukturerar resonemanget i atomära operationer, vilket kan vara avgörande för att utveckla mer tillförlitliga AI-system för verkliga tillämpningar. Nyckelinsikt: Dagens AI-modeller är överraskande dåliga på rumslig matematik, vilket avslöjar att de saknar djupare geometrisk förståelse som är nödvändig för många praktiska tillämpningar.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 2 av 14 ▶