AI-modeller utvecklas ojämnt - briljanta på språk, dåliga på visuell förståelse

arXiv cs.AI

Forskare har testat sex generationer av AI-modeller med IQ-test och upptäckt en märklig obalans: modellerna presterar i 98:e percentilen på språkförståelse men under 1:a percentilen på visuell problemlösning. Resultaten tyder på att nuvarande skalningsmetoder inte räcker för att uppnå mänsklik allmän intelligens - AI:n har helt enkelt fundamentala arkitektoniska begränsningar som gör den briljant på symbolisk språkmanipulation men urusel på att förstå vad den ser.

Djupdykning

AI-modeller utvecklar intelligens som en begåvad dyslektiker – briljanta på verbal förståelse och arbetsminne (över 98:e percentilen jämfört med människor) men katastrofalt dåliga på visuell perception och rumslig förståelse (under 1:a percentilen). Forskarna upptäckte något fascinerande: samma logiska problem som modellerna löser perfekt när det presenteras som text blir omöjligt när det visas som bilder, vilket avslöjar en djup arkitektonisk fördom mot språkbaserat tänkande. Det här förklarar varför ChatGPT kan skriva poetisk kod men fortfarande har problem med att räkna fingrar på bilder – det handlar inte bara om träningsdata utan om fundamentala begränsningar i hur dessa system är byggda. Även efter sex generationer av förbättringar förblir den visuella perceptionen i stort sett opåverkad, medan språkförmågan skjuter i höjden. Upptäckten antyder att vägen till artificiell allmän intelligens kanske inte bara handlar om större modeller och mer data – vi kanske behöver helt nya arkitekturer för att få balanserad kognition som människor.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 2 av 20 ▶