MEMENTO lär AI-modeller att komprimera sitt eget minne
Forskare har utvecklat MEMENTO, en teknik som lär stora språkmodeller att komprimera sina egna tankeprocesser till korta sammanfattningar istället för att komma ihåg allt. Metoden minskar minneskraven med 2,5 gånger och ökar hastigheten med 75% samtidigt som modellerna behåller sin noggrannhet på matematik och kodning.
Djupdykning
Forskare har utvecklat MEMENTO, en metod som lär språkmodeller att hantera sitt eget "minne" mer effektivt genom att dela upp långa resonemangskedjor i block och komprimera varje block till en sammanfattning. Istället för att hålla koll på hela den växande kontexten när modellen tänker igenom komplexa problem, kan den nu fokusera bara på dessa komprimerade "mementos" – vilket minskar minnesanvändningen med 2,5 gånger och ökar hastigheten med 75%. Det som är fascinerande här är att forskarna upptäckte något oväntat: informationen från varje block lagras på två sätt samtidigt – både i den explicita textsammanfattningen och i modellens interna "KV cache" som behåller implicit information från originalblocket. När de tog bort den dolda informationskanalen föll prestandan med 15 procentenheter, vilket visar att modellerna utvecklat en sofistikerad dubbelspårig minnesarkitektur. Det här är egentligen första steget mot AI-system som kan hantera verkligt långsiktig reflektion utan att drunkna i sin egen "stream of consciousness" – tänk skillnaden mellan att läsa en bok genom att memorera varje ord versus att ta anteckningar kapitel för kapitel.