Forskare utvecklar metoder för att upptäcka hemligt samarbete mellan AI-agenter

arXiv cs.AI

Forskare har skapat NARCBench, ett testverktyg för att upptäcka när AI-agenter samarbetar i hemlighet genom att analysera deras interna aktiveringar. Metoderna uppnådde 100% träffsäkerhet i kontrollerade miljöer och 60-86% när de testades på helt nya scenarion. Resultaten visar att olika typer av samarbete syns på olika sätt i AI-modellernas interna representationer.