1 maj 2026

AI-utvärdering tar fart

Medan alla pratar om vilken AI-modell som är bäst presterar det verkliga arbetet bakom kulisserna något helt annat: utvecklarna som försöker få sina AI-system att faktiskt fungera pålitligt. Från regressionstestning till prestandajämförelser visar dagens nyheter att AI-branschens nästa stora utmaning inte handlar om att bygga smartare modeller, utan om att utvärdera och förbättra de vi redan har.

AI-bedömare lär sig tycka som människor

"LangChain har släppt metoder för att träna så kallade "LLM-as-a-Judge"-system som värderar andra AI-systems prestanda på samma sätt som människor skulle göra."

AI som bedömer AI börjar bli mer mänsklig. LangChain har släppt metoder för att träna så kallade "LLM-as-a-Judge"-system som värderar andra AI-systems prestanda på samma sätt som människor skulle göra. Tekniken bygger på few-shot learning och syftar till att lösa ett grundläggande problem: hur vet vi om våra AI-system faktiskt fungerar bra?

Problemet är inte teoretiskt. Replit använde LangSmith för att spåra prestanda i sina AI-agenter och upptäcka flaskhalsar i komplexa arbetsflöden. New Computer lyckades öka minnesåterkallningen i sitt AI-system med 50% genom att systematiskt mäta regressionsproblem. När du bygger något som ska fungera i produktion behöver du veta var det går fel.

Parallellt med det här lanserar San Francisco-startupet Goodfire verktyget Silico som går steget längre: istället för att bara bedöma AI-modeller utifrån låter det utvecklare titta inuti dem och justera parametrar under träningen. Det här är som skillnaden mellan att testa en bil efter den byggts och att kunna justera motorn medan den rullar.

Verktygslandskapet mognar snabbt. LangSmith får nu stöd för OpenTelemetry, vilket gör det enklare att spåra prestanda i distribuerade system. För team som bygger AI-produkter betyder det mindre gissning och mer systematisk förbättring. LangChain lanserar också OpenEvals med färdiga utvärderingsmallar som kan spara veckor av arbete när du ska välja vilken modell som passar din produkt bäst.

Det intressanta är timing: när AI-modeller blir kraftfullare blir det också viktigare att förstå exakt vad de gör och varför.

Källor:LangChain Blog · LangChain Blog · LangChain Blog · LangChain Blog · LangChain Blog · LangChain Blog · LangChain Blog · LangChain Blog · LangChain Blog · MIT Technology Review · LangChain Blog · LangChain Blog · LangChain Blog · LangChain Blog · LangChain Blog

AI upptäcker ny fysik helt självständigt — första gången någonsin

En AI-agent har gjort det som aldrig hänt förut: upptäckt och experimentellt validerat en helt ny fysisk mekanism, utan mänsklig inblandning från start till mål.

Qiushi Discovery Engine, utvecklad av forskare, genomförde ett komplext optikexperiment som krävde 145,9 miljoner tokens och 3 242 LLM-anrop. Systemet identifierade en tidigare okänd optisk mekanism som forskarna beskriver som påminnande om attention-mekanismen i Transformer-arkitekturer. Det är första gången en AI helt självständigt går från hypotes till experimentell validering av ny fysik.

Men samtidigt visar annan forskning hur skört AI:s kunskapsanvändning egentligen är. När man ger språkmodeller exempel i prompter slutar de använda sin intränade vetenskapliga kunskap och börjar bara kopiera mönster från exemplen. Studier av 6 000 tester visar att modeller konsekvent övergår från kunskapsbaserat resonemang till enkel mönsterigenkänning, även när exemplen följer samma formler som modellen redan känner till.

Detta skapar en paradox: AI kan upptäcka ny fysik när den får agera autonomt, men tappar sin vetenskapliga förståelse så fort vi ger den "hjälp" genom exempel. Det antyder att framgången med Qiushi beror på att systemet fick utforska fritt utan att begränsas av few-shot examples som vanligtvis används för att styra AI-beteende.

Det är också värt att notera att Qiushi krävde nästan 146 miljoner tokens för en upptäckt. Med dagens API-priser motsvarar det tusentals dollar i beräkningskostnader per experiment. Men för riktiga genombrott kan det vara en billig investering.

Källor:arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · n8n Blog · n8n Blog · arXiv cs.AI

Nvidia investerar i svenska Legora: 50 miljarder värdering för juridisk AI

Nvidia har investerat 465 miljoner kronor i svenska Legora, vilket säger något om vart AI-pengarna egentligen rör sig just nu. Inte mot ännu en chatbot eller bildgenerator, utan mot verktyg som faktiskt kan ersätta dyra konsulttimmar.

Legora har redan 800 advokatbyråer som kunder och drar in 100 miljoner dollar årligen. Det är rejäla siffror för ett företag som bygger AI-verktyg för juridik – en bransch som fortfarande kör på fakturerbara timmar och pappersbunkar.

VD Max Junestrand pratar om att bygga ett "agentoperativsystem" för juridiskt arbete. Det låter som typisk startup-jargong, men när Nvidia satsar 50 miljoner dollar på idén blir det plötsligt intressant. Nvidia investerar inte i visionära presentationer – de investerar i verktyg som kommer köra på deras hårdvara.

Det verkligt fascinerande här är värderingen: över 50 miljarder kronor. För kontext är det mer än vad många svenska storbanker värderas till. Antingen är detta en klassisk AI-bubbla, eller så har Legora knäckt koden för hur man automatiserar juridiskt arbete på riktigt.

För alla som bygger B2B-verktyg finns här en läxa: välj en bransch där folk betalar absurda pengar för manuellt arbete som AI faktiskt kan förbättra. Juridik passar perfekt – hög betalningsvilja, tydliga arbetsflöden och kunder som är desperata efter effektivitetsvinster.

Att Nvidia kliver in visar också var de ser framtiden för enterprise AI: inte i generella modeller, utan i specialiserade verktyg som kräver seriös beräkningskraft.

Källor:Computer Sweden · Breakit · Di Digital

Google byter ut Assistant mot Gemini i miljontals bilar

Google skickar ut mjukvaruuppdateringar som ersätter Google Assistant med Gemini i alla bilar som har Google inbyggt. Bytet påverkar både nya och befintliga fordon och lovar "bättre naturliga samtal" och fordonsspecifik information.

Timingen är inte en slump. General Motors meddelade precis att de också ska använda Gemini, vilket visar hur AI-modellerna nu tävlar om utrymme i bilarna vi kör. Det här är inte bara en uppgradering – det är tech-jättarnas nästa slagfält.

Vad som faktiskt är intressant: Google behandler bilar som vilken annan plattform som helst. Samma mjukvaruuppdatering som kommer till din telefon kommer nu till din bil. Det betyder att biltillverkarna i praktiken outsourcar sin AI-upplevelse till Google, precis som de gjort med kartor och röstassistenter.

Parallellt rullar Google ut möjligheten att skapa PDF:er, Excel-ark och andra dokument direkt i Gemini. Du kan be den omvandla handskrivna anteckningar till PDF eller göra kalkylblad av månatliga utgifter. Stödet inkluderar docx, csv, txt, xlsx och andra vanliga format.

Det som skiljer detta från ChatGPT:s dokumentgenerering är integreringen med Googles ekosystem. När samma AI som genererar dina kalkylblad också styr din bil, börjar gränserna mellan enheter suddas ut. Google bygger inte bara en assistent – de bygger ett sammanhängande AI-lager över alla dina verktyg.

För utvecklare som bygger bil-appar eller IoT-produkter är budskapet tydligt: AI-assistenter blir standardinfrastruktur, inte premium-funktioner. Frågan är inte om din produkt kommer ha AI-röststyrning, utan vilken modell du väljer att integrera.

Källor:TechCrunch AI · The Verge AI · Computer Sweden

Dagens siffra

93%

Minskning av debug-tid när AI-agenter imiterar riktiga utvecklingsteam

Källa: LangChain

Snabbkollen

Kinesiska jättar kastar sig över chip efter AI-modellen

Deepseeks nya AI-modell fick visserligen ljumma mottaganden internationellt, men den är designad för att köras på kinesiska AI-chip istället för amerikanska – vilket nu driver upp försäljningen av Huaweis halvledare kraftigt. Det här visar hur geopolitiska spänningar kring AI-teknik skapar nya marknadsrörelser där kinesiska företag bygger sina egna AI-ekosystem.

Källor: Dagens Industri

Forskare introducerar grafbaserade världsmodeller för bättre AI-planering

Forskare har systematiserat en ny typ av AI-modeller som använder grafstrukturer istället för vanliga tensorer för att representera miljöer, vilket ska minska brus och förbättra resonemang. Studien kategoriserar dessa 'graph world models' i tre typer baserat på hur de strukturerar information: rumslig abstraktion, fysisk simulering och logiskt resonemang. Det är första gången dessa emerging modeller formaliserats som ett enhetligt forskningsområde.

Källor: arXiv cs.AI

Är ni redo för när AI-agenterna börjar shoppa av varandra? (Så blir ni det)

AI-agenter börjar ta över e-handeln genom att själva fatta köpbeslut åt människor, vilket skapar en ny marknad där algoritmerna handlar med varandra. Företag behöver anpassa sina strategier för att nå dessa automatiska köpare som fungerar helt eller delvis utan mänsklig inblandning.

Källor: Breakit

Teknikjättarnas AI-investeringar spås nå 1.000 miljarder dollar nästa år

De stora teknikjättarna fortsätter pumpa in enorma summor i AI-utveckling, och Wall Street-analytiker spår att kapitalinvesteringarna kan överstiga 1.000 miljarder dollar nästa år. Det visar hur intensiv kapprustningen inom AI fortfarande är bland teknikgiganterna.

Källor: Dagens Industri

Spotify lanserar verifieringsmärke för att skilja riktiga artister från AI

Spotify introducerar ett 'Verified by Spotify'-märke med grön bock för att bekräfta att det finns en riktig person bakom musiken, inte AI. AI-personas och profiler som huvudsakligen laddar upp AI-genererad musik är för tillfället inte berättigade till verifiering, även om Spotify lämnar dörren öppen för framtiden.

Källor: The Verge AI

Ex-Uberchef bygger AI-plattform för vårdpersonal

Robin Reznik, tidigare Sverigechef för Uber som sedan blev läkare, startar nu AI-startupen Bricca med stöd från Norrsken. Han bygger en fysisk AI-plattform som ska integreras direkt i läkarbrickor för att lösa problemen med dåliga gränssnitt och ohygieniska mobiltelefoner inom vården.

Källor: Breakit

AI kan ge skolan 10 000 lärare – utan att anställa en enda

AI skulle kunna frigöra tid motsvarande över 10 000 lärartjänster genom att minska administrativt arbete och låta lärare fokusera mer på undervisning. Risken är dock att tiden i stället går till ännu mer administration om skolan inte gör tydliga prioriteringar.

Källor: Dagens Industri

Experten om techjättarnas AI-investeringar: "Marknaden ger dem the benefit of the doubt"

Marknaden fortsätter att ge techjättarna förtroende trots enorma AI-investeringar som ännu inte genererat proportionerlig avkastning. Experter menar att investerare fortfarande tror på den långsiktiga potentialen, även om många bolag spenderar miljarder utan att visa konkreta resultat än så länge.

Källor: Dagens Industri

Kaliforniens poliser kan nu bötfälla förarlösa bilar

Från 1 juli kan poliser i Kalifornien ge bötesförelägganden till tillverkare av självkörande bilar när deras fordon bryter mot trafikregler, som att köra mot rött ljus eller inte stanna för skolbussar. Regeländringen kommer efter år av virala trafikförseelser och säkerhetsutredningar, inklusive pågående granskning av Teslas Full Self-Driving-system.

Källor: The Verge AI

Codex CLI 0.128.0 lägger till /goal-kommando

Simon Willisons Codex CLI-verktyg får en ny /goal-funktion i version 0.128.0 som låter användare sätta mål för AI-assisterade kodningssessioner. Funktionen hjälper till att strukturera längre programmeringsuppgifter genom att hålla koll på det övergripande målet medan man jobbar med enskilda kodrader.

Källor: Simon Willison

Nemotron Labs: Vad OpenClaw-agenter betyder för alla organisationer

OpenClaw, ett open source-projekt för AI-agenter, har nått 100 000 stjärnor på GitHub i början av 2026 enligt en artikel som verkar beskriva framtida händelser. Utvecklarintresset har ökat kraftigt sedan januari, vilket tyder på att AI-agenter blir allt mer populära bland programmerare.

Källor: NVIDIA AI Blog

Vad tyckte du om dagens digest?

AI-utvärdering tar fart

AI-bedömare lär sig tycka som människor

AI upptäcker ny fysik helt självständigt — första gången någonsin

Nvidia investerar i svenska Legora: 50 miljarder värdering för juridisk AI

Google byter ut Assistant mot Gemini i miljontals bilar

Dagens siffra

Snabbkollen

Färskbryggt AI varje morgon