PeerRank: Självständig utvärdering av språkmodeller genom webbaserad peer review

arXiv cs.AI

Forskare har utvecklat PeerRank, ett system där språkmodeller utvärderar varandra autonomt genom att generera frågor, svara med hjälp av webdata och bedöma svar från andra modeller. I en studie med 12 kommersiella modeller och 420 genererade frågor visade systemet stabil ranking som korrelerade med etablerade mått som Elo-rating.

Djupdykning

Forskare har utvecklat PeerRank, ett revolutionerande system där AI-modeller utvärderar varandra helt autonomt utan mänsklig inblandning eller fördefinierade referenssvar. Systemet låter modeller generera egna testfrågor, svara med hjälp av aktuell webinformation och sedan bedöma varandras prestationer, vilket skapar en självförsörjande utvärderingsprocess som kan hålla jämna steg med den snabba AI-utvecklingen. Studien med 12 kommersiella modeller och 420 autonomt genererade frågor visar att metoden producerar stabila rankningar som korrelerar väl med traditionella mätvärden, samtidigt som den avslöjar viktiga biaser i hur modeller bedömer varandra. Detta är banbrytande eftersom dagens AI-utvärdering begränsas av statiska benchmarks som snabbt blir föråldrade och inte speglar verkliga användningsfall där modeller måste hämta och syntetisera information från webben. PeerRank öppnar för en mer skalbar och realistisk utvärdering av AI-system som kan anpassa sig till den dynamiska karaktären hos modern AI-användning. Nyckelinsikt: Genom att låta AI-modeller utvärdera varandra autonomt med webbaserad information kan vi skapa mer relevanta och uppdaterade prestationsmått än traditionella statiska benchmarks.