AI-modeller fastnar i grundläggande logik

"Fyra separata forskningsteam har lanserat benchmarks som alla pekar åt samma håll: AI-modeller som verkar imponerande i enkla demos kollapsar när uppgifterna blir komplexa."
Fyra separata forskningsteam har lanserat benchmarks som alla pekar åt samma håll: AI-modeller som verkar imponerande i enkla demos kollapsar när uppgifterna blir komplexa.
DeepWeb-Bench visar att även frontmodeller misslyckas med 70% av uppgifterna när de ska samla bevis från flera källor och kombinera dem till slutsatser. Det fascinerande är att bara 12-14% av felen kommer från att inte hitta rätt information. Resten? De hittar allt de behöver men kan inte koppla ihop bitarna. Det förklarar varför ChatGPT fortfarande hallucinerar trots tillgång till hela internet.
PlanningBench bekräftar mönstret. Modellerna kraschar när de ska hantera flera begränsningar samtidigt, typ "planera en resa med budget X, undvik flygplatser Y och Z, och kom fram före tisdag". Samma sak som får människor att använda resebyråer istället för att googla själva.
Men den mest bisarra upptäckten kommer från robotstudien: när forskarna la till 40% slumpmässigt brus i robotarnas kameror ökade framgångsfrekvensen med 285%. Perfekt information gjorde dem värre på problemlösning eftersom de fastnade i repetitiva loopar. Att inte se allt tydligt tvingade dem att tänka mer strategiskt.
Det här är inte bara akademiska kuriositet. Om du bygger något som förlitar sig på LLMs för komplexa beslut, räkna med att du behöver designa runt deras oförmåga att hantera djup logik. Inte tillgång till data, inte beräkningskraft – grundläggande resonemang.


