Deep Agents minskar LLM-kostnader med upp till 80% via prompt caching

LangChain Blog

Deep Agents har byggt in stöd för prompt caching (återanvändning av tidigare bearbetad text) direkt i sin plattform, vilket kan sänka token-kostnaderna med upp till 80% hos alla större modellleverantörer. Det smarta är att det sker automatiskt – ingen extra konfiguration krävs av användaren. I praktiken handlar det om att slippa betala för att skicka samma långa systemprompt om och om igen till modellen.

Djupdykning

Prompt caching är en teknik där ett AI-system sparar undan redan bearbetade delar av en konversation eller instruktionstext, så att modellen inte behöver "läsa" samma information om och om igen varje gång du skickar ett nytt meddelande – det är ungefär som att ha en lapp framför sig istället för att memorera hela manualen för varje svar. Deep Agents har byggt in det här direkt i sin plattform utan att användaren behöver röra en enda inställning, vilket sänker token-kostnader med upp till 80 procent hos alla stora leverantörer som OpenAI, Anthropic och Google. Det folk missar i debatten om AI-kostnader är att det sällan är själva modellvalet som avgör slutnotan – det är hur ofta du skickar samma kontextinformation i varje anrop, och det skenar snabbt när du bygger agenter som kör hundratals sekventiella steg. En 80-procentig kostnadsminskning låter dramatisk, men är fullt rimlig om en agent till exempel bär med sig en lång systemprompt genom hela sin körning. Den verkliga konkurrenseffekten här är att företag som tidigare bromsat sin AI-användning av ekonomiska skäl plötsligt kan skala upp utan att räkna på varje anrop.