AI-agenter uppvisar inkonsekvent beteende vid upprepade uppgifter

arXiv cs.AI

En studie av 3 000 körningar med AI-agenter visar att samma agent kan producera 2,0-4,2 olika handlingssekvenser för identiska uppgifter. Konsekvent beteende (≤2 unika vägar) ger 80-92% träffsäkerhet medan inkonsekvent beteende (≥6 vägar) bara når 25-60%, med 69% av variationen uppstående redan vid andra steget.

Djupdykning

En ny studie avslöjar ett allvarligt konsistensproblem med AI-agenter baserade på stora språkmodeller - samma agent kan producera helt olika resultat när den får identiska uppgifter att lösa. Forskarna testade över 3 000 körningar med tre ledande modeller och fann att agenter i genomsnitt genererade 2-4 olika handlingsmönster för samma uppgift, trots identiska indata. Det mest oroväckande är kopplingen mellan inkonsistens och misslyckanden - uppgifter där agenten agerade konsistent nådde 80-92% träffsäkerhet, medan inkonsistenta uppgifter bara lyckades i 25-60% av fallen. Problemet uppstår tidigt i beslutsprocessen, ofta redan vid det första söksteget, vilket tyder på att dagens AI-agenter saknar den stabilitet som krävs för kritiska tillämpningar inom företag och offentlig sektor. Nyckelinsikt: Bristande beteendekonsistens hos AI-agenter är inte bara ett tekniskt problem utan en fundamental barriär för tillförlitlig automation som kräver nya metoder för kvalitetskontroll.