Ny forskning visar hur State Space Models lär sig kod
State Space Models (SSM) kan matcha eller överträffa Transformers på kodförståelse-uppgifter, men forskare visar att SSM:er glömmer vissa syntaktiska och semantiska relationer under finjustering. Ett nytt analysverktyg kallat SSM-Interpret avslöjar att modellerna flyttar fokus mot kortsiktiga beroenden, vilket lett till arkitektoniska förbättringar.
Djupdykning
State Space Models (SSM) har nyligen uppmärksammats som ett effektivt alternativ till den dominerande transformer-arkitekturen inom AI, och denna forskning ger första djupgående analysen av hur SSM faktiskt förstår programkod. Studien visar att SSM är överlägsna transformers när det gäller att fånga syntax och semantik under grundträning, men förlorar denna förmåga under specialiserad finjustering - särskilt för uppgifter som kräver förståelse av närliggande kodrelationer. Forskarna har utvecklat SSM-Interpret, ett verktyg som avslöjar att modellerna genomgår en "spektral förskjutning" där de fokuserar alltför mycket på kortsiktiga beroenden på bekostnad av djupare kodförståelse. Denna insikt är betydelsefull eftersom den både förklarar tidigare mysteriska prestationsskillnader och har lett till konkreta arkitektoniska förbättringar som validerar analysens värde. Nyckelinsikt: Första gången forskare kan förklara varför SSM-modeller beter sig som de gör med kod, vilket öppnar för målriktade förbättringar av AI:s kodförståelse.