Forskare upptäcker varför multimodala AI-modeller blir osäkra med bilder

arXiv cs.AI

Nya AI-modeller som kan hantera både text och bilder tappar sina säkerhetsmekanismer när de får visuella inputs – forskare kallar detta 'Safety Geometry Collapse'. Teamet utvecklade en metod kallad ReGap som korrigerar problemet i realtid utan omträning, vilket förbättrar säkerheten betydligt på flera testbenchmarks.

Djupdykning

Forskarna har upptäckt varför AI-modeller som kan hantera både text och bilder plötsligt blir farliga när man visar dem en bild istället för att bara skriva till dem. Det visar sig att modellerna bokstavligen förlorar sin interna kompass för vad som är säkert när olika modaliteter blandas - något de kallar "Safety Geometry Collapse". Tänk dig det som att modellens säkerhetsfilter fungerar perfekt i textvärlden, men när en bild dyker upp så vrider det hela det interna koordinatsystemet så att filtret pekar åt fel håll. Det mest fascinerande är att teamet lyckades bevisa att detta inte bara är korrelation genom att aktivt "rätta till" driften i realtid och se säkerheten återställas. Deras metod ReGap fungerar helt utan omträning - den bara justerar modellens interna representationer medan den tänker, ungefär som att sätta på glasögon för att korrigera för astigmatism. Detta förklarar varför så många säkerhetsincidenter med multimodala AI-system verkar komma från ingenstans - det handlar inte om att modellerna "glömmer" sina säkerhetsregler, utan att hela deras geometriska förståelse för fara kollapsar när modaliteter blandas.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 1 av 15 ▶