AI-industrin står inför inferensåldern

Latent Space

AI-branschen befinner sig i en övergång från att träna modeller till att fokusera på inferens (användning av färdigtränade modeller), vilket kommer att förändra både kostnadsstrukturer och affärsmodeller. Denna tysta förändring kan bli lika viktig som själva AI-genombrotten, då företag nu måste optimera för att köra AI-tjänster effektivt snarare än bara bygga större modeller.

Djupdykning

När alla pratar om att träna större AI-modeller blir det lätt att missa att den riktiga guldrushen redan har flyttat till inference - alltså när modellerna faktiskt används för att besvara frågor och lösa problem. Träning av en GPT-modell kanske kostar miljontals dollar en gång, men inference kostar pengar varje sekund, varje fråga, för miljontals användare samtidigt. Det här förklarar varför företag som Nvidia inte bara säljer chippen för att bygga AI utan allt mer fokuserar på att optimera för drift och användning. OpenAI spenderar antagligen mer på att köra ChatGPT än vad de någonsin spenderade på att träna den ursprungliga modellen. Samtidigt betyder det att framtiden tillhör inte bara dem som kan bygga de smartaste modellerna, utan dem som kan köra dem billigast och snabbast. Vi ser redan början på detta med företag som bygger specialiserade inference-chips och molntjänster som lovar att sänka kostnaderna dramatiskt. Det ironiska är att ju mer framgångsrik AI blir, desto mer kommer inference-kostnader att äta upp företagens marginaler - om de inte löser ekvationen snabbt nog.