Ny metod raderar oönskade koncept från AI-bildgeneratorer på 4,3 sekunder

arXiv cs.AI

Forskare har utvecklat Orthogonal Concept Erasure (OCE), en teknik som kan ta bort upp till 100 oönskade koncept från diffusionsmodeller (AI som genererar bilder) på bara 4,3 sekunder. Metoden använder ortogonala transformationer istället för traditionella additiva uppdateringar, vilket gör det möjligt att radera specifika koncept utan att förstöra modellens övergripande förmåga att skapa bilder. Det här är särskilt användbart för att censurera olämpligt innehåll i AI-bildgeneratorer som Stable Diffusion.

Djupdykning

Forskare har knäckt en fundamental svaghet i hur AI-bildgeneratorer rensas från oönskat innehåll. Problemet var att befintliga metoder fungerade som att försöka ta bort graffiti genom att måla över det – man lyckas dölja det oönskade, men förstör samtidigt väggmålningen bakom. Det nya tillvägagångssättet, Orthogonal Concept Erasure, fungerar mer som en precisionslaser som bara påverkar det du vill ta bort. Det genialiska ligger i insikten att neuroners riktning avgör vad de representerar, medan deras storlek och inbördes vinklar avgör modellens generella förmåga. Genom att använda ortogonala transformationer (tänk matematiska rotationer som håller avstånd intakta) kan forskarna selektivt vrida bort oönskade koncept utan att röra resten av nätverkets struktur. Att kunna radera 100 olika koncept på 4,3 sekunder öppnar för realtidsfiltrering av AI-innehåll, något som blir kritiskt när generativa modeller rullas ut i konsumentprodukter där varje millisekund räknas.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 1 av 20 ▶