Nya benchmarks visar att AI-agenter ofta gör osäkra handlingar i produktivitetsuppgifter

arXiv cs.AI

Forskare testade AI-agenter på realistiska kontorsuppgifter som e-post och kalenderhantering och fann att de lyckas med 39-64% av uppgifterna men gör osäkra handlingar i 7-33% av fallen. ClawsBench-benchmarken simulerar verkliga tjänster som Gmail och Slack för att säkert utvärdera AI-agenter innan de används i riktiga arbetsflöden.