AI Integrity: Ett nytt ramverk för verifierbar AI-styrning

arXiv cs.AI

Forskare föreslår "AI Integrity" som ett nytt sätt att styra AI-system genom att verifiera själva resonemangsprocessen istället för bara slutresultatet. De introducerar ett fyrskiktigt "Authority Stack" som spårar hur AI-system går från värderingar till data, plus mätvärden för att upptäcka när denna process blir korrumperad. Tanken är att göra AI:s beslutsfattande transparent och kontrollerbart, oavsett vilka värderingar systemet har från början.

Djupdykning

Medan världen gryr om AI-säkerhet och etik, missar vi något grundläggande: vi kollar bara på vad AI-system gör, inte hur de tänker. Det här konceptet "AI Integrity" försöker lösa det genom att göra själva beslutsprocessen transparent och verifierbar - ungefär som att kräva att en domare visar sina anteckningar istället för bara att säga "förtroende för mig". Forskarna har skapat något de kallar "Authority Stack" - fyra lager som visar hur ett AI-system går från grundvärderingar till slutliga beslut, och definierat "Integrity Hallucination" som när systemet säger att det följer sina värderingar men egentligen inte gör det. Det smarta här är att de inte försöker diktera vilka värderingar AI borde ha, utan bara kräver att vägen från bevis till slutsats ska vara spårbar. I praktiken skulle det kunna betyda att vi slutar gissa varför ChatGPT sa något konstigt och istället kan se exakt vilka källor och resonemang som ledde dit - lite som att ha en evigt dokumenterad tankeprocess istället för en svart låda som ibland mår bra.