Forskare avslöjar vad som händer inuti AI-modeller under träning
arXiv cs.AI
När stora språkmodeller tränas med supervised fine-tuning förändras deras interna representationer mycket mer än vad som syns på ytan. Forskare från arXiv har utvecklat en ny analysmetod med Sparse Autoencoders som visar att specifika semantiska features förändras systematiskt i olika lager, trots att den övergripande strukturen ser oförändrad ut.