Anthropic studerar AI-agenters självständighet

Latent Space

Anthropic har genomfört en egen studie av AI-agenters autonomi, liknande METR:s tidigare forskningsdata (METR är en organisation som mäter AI-risker). Studien fokuserar på hur självständigt AI-system kan agera och fatta beslut utan mänsklig övervakning.

Djupdykning

Medan vi väntar på att AI-agenter ska ta över världen, har Anthropic gjort det viktiga men mindre glamorösa arbetet att faktiskt mäta hur autonoma deras AI-system egentligen är. Deras studie bygger vidare på METR:s (Model Evaluation for Extreme Risks) ramverk för att bedöma om AI-modeller kan utföra komplexa uppgifter självständigt – typ att hacka system, manipulera människor eller sprida sig själva på internet. Resultaten visar att dagens modeller fortfarande är ganska begränsade i sin förmåga att agera helt självständigt, men skillnaderna mellan olika modeller börjar bli tydliga. Det här är superviktigt eftersom autonoma AI-agenter potentiellt kan vara både otroligt användbara och farliga – skillnaden ligger i hur väl vi kan kontrollera och förutse deras beteende. Anthropic:s transparens kring sina egna tester är också ett tecken på att företaget tar säkerhetsfrågor på allvar, vilket blir allt viktigare när konkurrensen inom AI hårdnar. Nyckelinsikt: Att mäta AI-autonomi idag är som att sätta säkerhetsbältet innan man startar bilen – det kanske verkar tidigt, men det är mycket enklare än att göra det när man redan kör i 200 km/h.