Forskare identifierar energieffektiva längder för LLM-inferens

arXiv cs.AI

Ny forskning visar att stora språkmodeller är mest energieffektiva med korta till måttliga indata och medellånga utdata, medan långa indata eller mycket korta utdata kraftigt sänker effektiviteten. Studien testade modeller från 1B till 9B parametrar på NVIDIA H100 GPUs och uppnådde 1,79% medelfel i energiprediktioner. Genom att anpassa sekvenslängder till dessa "sweet spots" kan energiförbrukningen minskas betydligt i produktionssystem.

Djupdykning

Ny forskning visar att energiförbrukningen för stora språkmodeller (LLM) inte följer de enkla linjära modeller som används idag, utan har tydliga "sweet spots" där effektiviteten är som högst. Studien, som testade modeller från 1 till 9 miljarder parametrar på NVIDIA H100-processorer, fann att energieffektiviteten är optimal vid korta till måttliga inmatningar kombinerat med medellånga utmatningar, medan den sjunker drastiskt vid mycket långa inmatningar eller mycket korta svar. Detta innebär att företag som kör AI-tjänster i produktion kan minska sina energikostnader avsevärt genom att anpassa sina prompt-strategier och utmatningslängder efter dessa effektivitetszoner. Forskningsresultatet blir särskilt viktigt när AI-tjänster skalas upp och energikostnaderna utgör en allt större del av driftskostnaderna för tech-företag. Nyckelinsikt: Genom att förstå och utnyttja LLM:ers icke-linjära energiprofiler kan företag optimera både kostnader och miljöpåverkan i sina AI-tjänster.