Frontier-modeller flopar på första IT-agentbenchmarket

ITBench-AA visar att även de mest avancerade modellerna från OpenAI, Anthropic och Google presterar under 50% när de testas på riktiga IT-arbetsflöden. Benchmarket, utvecklat av Artificial Analysis tillsammans med IBM, skiljer sig från vanliga AI-test genom att fokusera på komplexa, flerstegiga uppgifter som IT-personal faktiskt gör.
Detta är den första riktiga verklighetskontrollen för alla som har planerat att ersätta sin IT-avdelning med AI-agenter under 2025. Medan modellerna kan skriva kod och förklara tekniska koncept imponerande bra, visar ITBench-AA att steget från "impressive demo" till "kan faktiskt göra jobbet" fortfarande är betydligt längre än vad många har trott.
Resultaten ger också perspektiv på varför både OpenAI och Anthropic äntligen verkar ha hittat sina faktiska marknader. Simon Willison pekar på att båda företagen nu har product-market fit, vilket troligen handlar mer om att hjälpa utvecklare och kunskapsarbetare än att automatisera bort hela jobbkategorier.
För utvecklare som överväger AI-integrationer är signalen tydlig: fokusera på assistansuppgifter snarare än fullt autonoma system. AI som kodningspartner eller dokumentationshjälp? Absolut. AI som ersätter din DevOps-person? Inte än.
Ironiskt nog spenderar samma företag miljoner på att påverka politiker som Alex Bores, som vill reglera AI-utveckling. Kanske hade de sparat pengarna och fokuserat på att få sina modeller att klara mer än hälften av IT-uppgifterna först.


