Mixture of Experts (MoEs) i Transformers

Hugging Face Blog

Mixture of Experts är en arkitektur som låter stora AI-modeller bli mer effektiva genom att bara aktivera vissa delar av nätverket för varje uppgift, istället för att använda hela modellen. Tekniken gör det möjligt att bygga modeller med miljarder parametrar som ändå kräver mindre beräkningskraft vid körning. Stora företag som Google och OpenAI använder redan MoE-arkitekturer i sina senaste språkmodeller.