AI-bedömare lär sig tycka som människor

"LangChain har släppt metoder för att träna så kallade "LLM-as-a-Judge"-system som värderar andra AI-systems prestanda på samma sätt som människor skulle göra."
AI som bedömer AI börjar bli mer mänsklig. LangChain har släppt metoder för att träna så kallade "LLM-as-a-Judge"-system som värderar andra AI-systems prestanda på samma sätt som människor skulle göra. Tekniken bygger på few-shot learning och syftar till att lösa ett grundläggande problem: hur vet vi om våra AI-system faktiskt fungerar bra?
Problemet är inte teoretiskt. Replit använde LangSmith för att spåra prestanda i sina AI-agenter och upptäcka flaskhalsar i komplexa arbetsflöden. New Computer lyckades öka minnesåterkallningen i sitt AI-system med 50% genom att systematiskt mäta regressionsproblem. När du bygger något som ska fungera i produktion behöver du veta var det går fel.
Parallellt med det här lanserar San Francisco-startupet Goodfire verktyget Silico som går steget längre: istället för att bara bedöma AI-modeller utifrån låter det utvecklare titta inuti dem och justera parametrar under träningen. Det här är som skillnaden mellan att testa en bil efter den byggts och att kunna justera motorn medan den rullar.
Verktygslandskapet mognar snabbt. LangSmith får nu stöd för OpenTelemetry, vilket gör det enklare att spåra prestanda i distribuerade system. För team som bygger AI-produkter betyder det mindre gissning och mer systematisk förbättring. LangChain lanserar också OpenEvals med färdiga utvärderingsmallar som kan spara veckor av arbete när du ska välja vilken modell som passar din produkt bäst.
Det intressanta är timing: när AI-modeller blir kraftfullare blir det också viktigare att förstå exakt vad de gör och varför.


