Ny routingmetod förbättrar språkmodellers prestanda med 1,6 gånger färre tokens

arXiv cs.AI

Forskare har utvecklat Expert Threshold (ET) routing som låter AI-modeller dynamiskt fördela beräkningskraft mellan olika experter baserat på rörliga tröskelvärden. Metoden presterar betydligt bättre än befintliga TC-MoE-system och kan nå samma resultat med 1,6 gånger färre tokens i experiment med modeller upp till 2,4 miljarder parametrar.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 4 av 68 ▶