Vision-språkmodeller misslyckas med geometrisk rumslig reasoning i Tangram-pussel
Forskare testade fem vision-språkmodeller på Tangram-pussel och fann att de presterar mycket sämre än människor, med genomsnittlig IoU på endast 0,41 för enstaka pusselbitar och 0,23 för två bitar. Ett nytt självförbättrande ramverk utan omträning lyckades dock höja prestandan från 0,63 till 0,932 IoU genom iterativ återkoppling och belöningsstyrd förbättring.
Djupdykning
Forskare har utvecklat TangramSR, ett system som testar om vision-språkmodeller kan lösa geometriska pussel genom att efterlikna mänskliga kognitiva processer som mental rotation och iterativ förbättring. Experimenten visar på betydande brister hos nuvarande AI-modeller, där genomsnittlig prestanda når endast 0,41 IoU för enkla uppgifter och sjunker till 0,23 för mer komplexa sammansättningar - långt under vad även barn kan prestera på Tangram-pussel. För att lösa detta introducerar forskarna ett träningsfritt ramverk som använder självförbättring i realtid genom belöningsbaserad feedback, vilket förbättrar prestandan från 0,63 till 0,932 IoU utan att behöva träna om modellerna. Studien belyser en kritisk svaghet inom AI:s rumsliga resonemang och visar hur människoliknande iterativa processer kan förbättra AI-systems geometriska förståelse betydligt. Detta arbete är särskilt relevant för utvecklingen av mer autonoma AI-system som kan förbättra sig själva utan kontinuerlig omträning. Nyckelinsikt: TangramSR visar att AI-modellers rumsliga resonemang kan förbättras dramatiskt genom människoinspirerade iterativa processer, även utan kostsam omträning av modellerna.