Ny benchmark utvärderar AI-agenters förmåga att simulera mänskliga försöksdeltagare
Forskare har utvecklat HumanStudy-Bench, ett benchmarksystem som testar hur väl språkmodeller kan efterlikna mänskligt beteende i vetenskapliga experiment. Systemet återskapat 12 etablerade studier med över 6000 försök och deltagare från tiotals upp till över 2100 personer, inom områden som kognition och social psykologi.
Djupdykning
AI-agenter som simulerar mänskliga deltagare i vetenskapliga studier blir allt vanligare inom samhällsvetenskap, men forskare har hittills haft svårt att avgöra om resultaten beror på AI-modellens grundförmågor eller hur experimentet designats. HumanStudy-Bench introducerar ett nytt ramverk som behandlar deltagarsimulering som ett agentdesignproblem, där varje agent definieras av både en basmodell och specifika deltagarattribut som styr beteendet. Benchmarket har återskapat 12 klassiska studier inom kognitiv psykologi och social interaktion, omfattande över 6 000 försök med ursprungliga mänskliga urval från tiotals till över 2 100 deltagare. Detta möjliggör för första gången systematisk utvärdering av hur väl AI-agenter faktiskt kan reproducera mänskligt beteende på vetenskaplig nivå, snarare än bara ytlig imitation. Utvecklingen är avgörande för att AI ska kunna användas som pålitligt verktyg för hypotesgenerering och preliminär testning innan dyra studier med riktiga människor genomförs. Nyckelinsikt: HumanStudy-Bench kan revolutionera samhällsvetenskaplig forskning genom att erbjuda ett standardiserat sätt att validera AI-agenters förmåga att simulera komplext mänskligt beteende i kontrollerade experimentella miljöer.