Nytt ramverk för att tolka vad AI-system egentligen 'tror' och 'vill'
arXiv cs.AI
Forskare föreslår ett filosofiskt ramverk för att avgöra om verktyg inom mekanistisk interpretabilitet (tekniker som försöker läsa av vad som händer inuti en AI-modell) faktiskt mäter det de påstår sig mäta – nämligen en modells mål och övertygelser. Poängen är att man inte kan mäta tro och önskan separat, de hänger ihop och måste tolkas som ett helt system. Det är relevant för AI-säkerhet: utan en sådan grund är det svårt att veta om vi verkligen förstår – eller kan lita på – ett systems beteende.