Hur bra är vi egentligen på att testa multimodala AI-modeller?
Forskare pekar på ett växande glapp: multimodala AI-modeller (som kan hantera text, bild, ljud och video samtidigt) utvecklas snabbare än verktygen för att utvärdera dem. De flesta befintliga tester mäter uppgifter isolerat och missar om modellen faktiskt förstår hur modaliteterna hänger ihop – exempelvis rumslig och tidsmässig sammanhang eller fysisk världsförståelse. Det är lite som att bedöma en tolks förmåga genom att bara testa varje språk separat, aldrig i faktisk konversation.
Djupdykning
De flesta MLLM-benchmarks testar idag om en modell *kan* se en bild och svara på en fråga om den – men det är ungefär lika meningsfullt som att bedöma en kirurgs skicklighet genom att fråga dem om anatomi på ett prov. Det forskarna pekar på är att vi saknar sätt att mäta om modellen faktiskt *integrerar* information mellan modaliteter, alltså om den kan hålla ihop vad den hör, ser och läser samtidigt och dra en sammanhållen slutsats. Ta "temporal-spatial coherence" som exempel: kan modellen förstå att något rör sig från vänster till höger i en video och koppla det till ett ljud som uppstår vid rätt tillfälle? Dagens benchmarks svarar inte på den frågan. Det som verkligen missas i debatten om hur bra dessa modeller är, är att höga poäng på isolerade uppgifter kan dölja fundamentala brister i hur modellen förstår den fysiska världen – en modell kan "klara" ett test utan att ha en aning om orsak och verkan. När autonoma system som robotar och självkörande bilar i allt högre grad bygger på just den här typen av modeller, är det ett mätproblem som snabbt blir ett säkerhetsproblem.