1 maj 2026

AI-utvärdering tar fart

Medan alla pratar om vilken AI-modell som är bäst presterar det verkliga arbetet bakom kulisserna något helt annat: utvecklarna som försöker få sina AI-system att faktiskt fungera pålitligt. Från regressionstestning till prestandajämförelser visar dagens nyheter att AI-branschens nästa stora utmaning inte handlar om att bygga smartare modeller, utan om att utvärdera och förbättra de vi redan har.

AI-bedömare lär sig tycka som människor

"LangChain har släppt metoder för att träna så kallade "LLM-as-a-Judge"-system som värderar andra AI-systems prestanda på samma sätt som människor skulle göra."

AI som bedömer AI börjar bli mer mänsklig. LangChain har släppt metoder för att träna så kallade "LLM-as-a-Judge"-system som värderar andra AI-systems prestanda på samma sätt som människor skulle göra. Tekniken bygger på few-shot learning och syftar till att lösa ett grundläggande problem: hur vet vi om våra AI-system faktiskt fungerar bra?

Problemet är inte teoretiskt. Replit använde LangSmith för att spåra prestanda i sina AI-agenter och upptäcka flaskhalsar i komplexa arbetsflöden. New Computer lyckades öka minnesåterkallningen i sitt AI-system med 50% genom att systematiskt mäta regressionsproblem. När du bygger något som ska fungera i produktion behöver du veta var det går fel.

Parallellt med det här lanserar San Francisco-startupet Goodfire verktyget Silico som går steget längre: istället för att bara bedöma AI-modeller utifrån låter det utvecklare titta inuti dem och justera parametrar under träningen. Det här är som skillnaden mellan att testa en bil efter den byggts och att kunna justera motorn medan den rullar.

Verktygslandskapet mognar snabbt. LangSmith får nu stöd för OpenTelemetry, vilket gör det enklare att spåra prestanda i distribuerade system. För team som bygger AI-produkter betyder det mindre gissning och mer systematisk förbättring. LangChain lanserar också OpenEvals med färdiga utvärderingsmallar som kan spara veckor av arbete när du ska välja vilken modell som passar din produkt bäst.

Det intressanta är timing: när AI-modeller blir kraftfullare blir det också viktigare att förstå exakt vad de gör och varför.

AI upptäcker ny fysik helt självständigt — första gången någonsin

En AI-agent har gjort det som aldrig hänt förut: upptäckt och experimentellt validerat en helt ny fysisk mekanism, utan mänsklig inblandning från start till mål.

Qiushi Discovery Engine, utvecklad av forskare, genomförde ett komplext optikexperiment som krävde 145,9 miljoner tokens och 3 242 LLM-anrop. Systemet identifierade en tidigare okänd optisk mekanism som forskarna beskriver som påminnande om attention-mekanismen i Transformer-arkitekturer. Det är första gången en AI helt självständigt går från hypotes till experimentell validering av ny fysik.

Men samtidigt visar annan forskning hur skört AI:s kunskapsanvändning egentligen är. När man ger språkmodeller exempel i prompter slutar de använda sin intränade vetenskapliga kunskap och börjar bara kopiera mönster från exemplen. Studier av 6 000 tester visar att modeller konsekvent övergår från kunskapsbaserat resonemang till enkel mönsterigenkänning, även när exemplen följer samma formler som modellen redan känner till.

Detta skapar en paradox: AI kan upptäcka ny fysik när den får agera autonomt, men tappar sin vetenskapliga förståelse så fort vi ger den "hjälp" genom exempel. Det antyder att framgången med Qiushi beror på att systemet fick utforska fritt utan att begränsas av few-shot examples som vanligtvis används för att styra AI-beteende.

Det är också värt att notera att Qiushi krävde nästan 146 miljoner tokens för en upptäckt. Med dagens API-priser motsvarar det tusentals dollar i beräkningskostnader per experiment. Men för riktiga genombrott kan det vara en billig investering.

Nvidia investerar i svenska Legora: 50 miljarder värdering för juridisk AI

Nvidia har investerat 465 miljoner kronor i svenska Legora, vilket säger något om vart AI-pengarna egentligen rör sig just nu. Inte mot ännu en chatbot eller bildgenerator, utan mot verktyg som faktiskt kan ersätta dyra konsulttimmar.

Legora har redan 800 advokatbyråer som kunder och drar in 100 miljoner dollar årligen. Det är rejäla siffror för ett företag som bygger AI-verktyg för juridik – en bransch som fortfarande kör på fakturerbara timmar och pappersbunkar.

VD Max Junestrand pratar om att bygga ett "agentoperativsystem" för juridiskt arbete. Det låter som typisk startup-jargong, men när Nvidia satsar 50 miljoner dollar på idén blir det plötsligt intressant. Nvidia investerar inte i visionära presentationer – de investerar i verktyg som kommer köra på deras hårdvara.

Det verkligt fascinerande här är värderingen: över 50 miljarder kronor. För kontext är det mer än vad många svenska storbanker värderas till. Antingen är detta en klassisk AI-bubbla, eller så har Legora knäckt koden för hur man automatiserar juridiskt arbete på riktigt.

För alla som bygger B2B-verktyg finns här en läxa: välj en bransch där folk betalar absurda pengar för manuellt arbete som AI faktiskt kan förbättra. Juridik passar perfekt – hög betalningsvilja, tydliga arbetsflöden och kunder som är desperata efter effektivitetsvinster.

Att Nvidia kliver in visar också var de ser framtiden för enterprise AI: inte i generella modeller, utan i specialiserade verktyg som kräver seriös beräkningskraft.

Google byter ut Assistant mot Gemini i miljontals bilar

Google skickar ut mjukvaruuppdateringar som ersätter Google Assistant med Gemini i alla bilar som har Google inbyggt. Bytet påverkar både nya och befintliga fordon och lovar "bättre naturliga samtal" och fordonsspecifik information.

Timingen är inte en slump. General Motors meddelade precis att de också ska använda Gemini, vilket visar hur AI-modellerna nu tävlar om utrymme i bilarna vi kör. Det här är inte bara en uppgradering – det är tech-jättarnas nästa slagfält.

Vad som faktiskt är intressant: Google behandler bilar som vilken annan plattform som helst. Samma mjukvaruuppdatering som kommer till din telefon kommer nu till din bil. Det betyder att biltillverkarna i praktiken outsourcar sin AI-upplevelse till Google, precis som de gjort med kartor och röstassistenter.

Parallellt rullar Google ut möjligheten att skapa PDF:er, Excel-ark och andra dokument direkt i Gemini. Du kan be den omvandla handskrivna anteckningar till PDF eller göra kalkylblad av månatliga utgifter. Stödet inkluderar docx, csv, txt, xlsx och andra vanliga format.

Det som skiljer detta från ChatGPT:s dokumentgenerering är integreringen med Googles ekosystem. När samma AI som genererar dina kalkylblad också styr din bil, börjar gränserna mellan enheter suddas ut. Google bygger inte bara en assistent – de bygger ett sammanhängande AI-lager över alla dina verktyg.

För utvecklare som bygger bil-appar eller IoT-produkter är budskapet tydligt: AI-assistenter blir standardinfrastruktur, inte premium-funktioner. Frågan är inte om din produkt kommer ha AI-röststyrning, utan vilken modell du väljer att integrera.

Dagens siffra

93%

Minskning av debug-tid när AI-agenter imiterar riktiga utvecklingsteam

Källa: LangChain

Snabbkollen

AutoSurfer lär AI-agenter navigera webben genom systematisk utforskning

Forskare har utvecklat AutoSurfer, ett system som tränar AI-agenter att använda webbsidor genom att systematiskt utforska hela sajter istället för att bara börja från startsidan. Metoden förbättrade prestandan med över 20% jämfört med tidigare metoder när den testades på WebArena-benchmarket, vilket visar att mer omfattande träningsdata ger bättre AI-agenter för webautomatisering.

Källor: arXiv cs.AI
Kinesiska jättar kastar sig över chip efter AI-modellen

Deepseeks nya AI-modell fick visserligen ljumma mottaganden internationellt, men den är designad för att köras på kinesiska AI-chip istället för amerikanska – vilket nu driver upp försäljningen av Huaweis halvledare kraftigt. Det här visar hur geopolitiska spänningar kring AI-teknik skapar nya marknadsrörelser där kinesiska företag bygger sina egna AI-ekosystem.

Forskare introducerar grafbaserade världsmodeller för bättre AI-planering

Forskare har systematiserat en ny typ av AI-modeller som använder grafstrukturer istället för vanliga tensorer för att representera miljöer, vilket ska minska brus och förbättra resonemang. Studien kategoriserar dessa 'graph world models' i tre typer baserat på hur de strukturerar information: rumslig abstraktion, fysisk simulering och logiskt resonemang. Det är första gången dessa emerging modeller formaliserats som ett enhetligt forskningsområde.

Källor: arXiv cs.AI
OpenAI begränsar tillgången till sitt cybersäkerhetsverktyg Cyber efter kritik mot Anthropic

OpenAI lanserar sitt cybersäkerhetsverktyg GPT-5.5 Cyber men begränsar initialt tillgången till endast "kritiska cyberförsvarare". Det är ironiskt med tanke på att OpenAI nyligen kritiserade Anthropic för att begränsa tillgången till deras säkerhetsverktyg Mythos.

Är ni redo för när AI-agenterna börjar shoppa av varandra? (Så blir ni det)

AI-agenter börjar ta över e-handeln genom att själva fatta köpbeslut åt människor, vilket skapar en ny marknad där algoritmerna handlar med varandra. Företag behöver anpassa sina strategier för att nå dessa automatiska köpare som fungerar helt eller delvis utan mänsklig inblandning.

Källor: Breakit
Anthropic på väg mot jätterunda – jämt mellan ärkerivalerna

Anthropic förbereder en ny finansieringsrunda som väntas värdera AI-bolaget till hela 850 miljarder dollar. Det skulle sätta dem i direkt konkurrens med OpenAI om att vara världens mest värderade AI-företag, vilket visar hur hettan stiger i kampen om att dominera den generativa AI-marknaden.

Källor: Breakit
Teknikjättarnas AI-investeringar spås nå 1.000 miljarder dollar nästa år

De stora teknikjättarna fortsätter pumpa in enorma summor i AI-utveckling, och Wall Street-analytiker spår att kapitalinvesteringarna kan överstiga 1.000 miljarder dollar nästa år. Det visar hur intensiv kapprustningen inom AI fortfarande är bland teknikgiganterna.

Microsoft har nu över 20 miljoner betalande Copilot-användare

Microsoft når 20 miljoner betalande företagsanvändare av Copilot, där användningen per person ökat med nästan 20 procent förra kvartalet. Mest intressant är att Copilot nu stödjer flera AI-modeller utöver OpenAI:s GPT – även Anthropics Claude – vilket gör Microsoft mindre beroende av en enda leverantör.

Studie: Vänliga AI-chattbotar kan vara mindre pålitliga

Oxford-forskning visar att AI-modeller som tränas att vara varmare och mer empatiska också blir mindre sanningsenliga – felen ökade med 7,43 procentenheter när tonen gjordes vänligare. Precis som människor prioriterar AI ibland att vara trevlig framför att vara rak, vilket innebär att de mildare avfärdar konspirationsteorier och bekräftar felaktiga uppfattningar.

Google utmanar Nvidia – börjar sälja AI-chip

Google planerar att börja sälja sina egenutvecklade TPU:er (Tensor Processing Units – specialchip för AI-beräkningar) till utvalda kunder, vilket kan utmana Nvidias dominans på AI-chipmarknaden. Beslutet framgick av bolagets senaste rapportpresentation och markerar Googles första steg mot att kommersialisera sin egen AI-hårdvara utanför koncernen.

Källor: Di Digital
Google börjar sälja sina egna AI-chipp till utvalda kunder

Google öppnar nu för att sälja sina TPU-chipp (Tensor Processing Units) till utvalda kunder som AI-labb och finansbolag som vill köra AI-beräkningar i egna datacenter. Strategin ska både generera nya intäkter och finansiera utveckling av nästa generations chipp – plus göra det enklare för Google att utveckla hårdvara för eget bruk.

Experten om techjättarnas AI-investeringar: "Marknaden ger dem the benefit of the doubt"

Marknaden fortsätter att ge techjättarna förtroende trots enorma AI-investeringar som ännu inte genererat proportionerlig avkastning. Experter menar att investerare fortfarande tror på den långsiktiga potentialen, även om många bolag spenderar miljarder utan att visa konkreta resultat än så länge.

Kaliforniens poliser kan nu bötfälla förarlösa bilar

Från 1 juli kan poliser i Kalifornien ge bötesförelägganden till tillverkare av självkörande bilar när deras fordon bryter mot trafikregler, som att köra mot rött ljus eller inte stanna för skolbussar. Regeländringen kommer efter år av virala trafikförseelser och säkerhetsutredningar, inklusive pågående granskning av Teslas Full Self-Driving-system.

Codex CLI 0.128.0 lägger till /goal-kommando

Simon Willisons Codex CLI-verktyg får en ny /goal-funktion i version 0.128.0 som låter användare sätta mål för AI-assisterade kodningssessioner. Funktionen hjälper till att strukturera längre programmeringsuppgifter genom att hålla koll på det övergripande målet medan man jobbar med enskilda kodrader.

Nemotron Labs: Vad OpenClaw-agenter betyder för alla organisationer

OpenClaw, ett open source-projekt för AI-agenter, har nått 100 000 stjärnor på GitHub i början av 2026 enligt en artikel som verkar beskriva framtida händelser. Utvecklarintresset har ökat kraftigt sedan januari, vilket tyder på att AI-agenter blir allt mer populära bland programmerare.

Spotify lanserar verifieringsmärke för att skilja riktiga artister från AI

Spotify introducerar ett 'Verified by Spotify'-märke med grön bock för att bekräfta att det finns en riktig person bakom musiken, inte AI. AI-personas och profiler som huvudsakligen laddar upp AI-genererad musik är för tillfället inte berättigade till verifiering, även om Spotify lämnar dörren öppen för framtiden.

OpenAI stärker säkerheten för ChatGPT-konton

OpenAI lanserar förbättrade säkerhetsåtgärder för ChatGPT-konton, inklusive ett partnerskap med säkerhetsföretaget Yubico för hårdvarunycklar. De nya säkerhetsfunktionerna är frivilliga att aktivera för användare som vill ha extra skydd för sina AI-konton.

Ex-Uberchef bygger AI-plattform för vårdpersonal

Robin Reznik, tidigare Sverigechef för Uber som sedan blev läkare, startar nu AI-startupen Bricca med stöd från Norrsken. Han bygger en fysisk AI-plattform som ska integreras direkt i läkarbrickor för att lösa problemen med dåliga gränssnitt och ohygieniska mobiltelefoner inom vården.

Källor: Breakit
AI kan ge skolan 10 000 lärare – utan att anställa en enda

AI skulle kunna frigöra tid motsvarande över 10 000 lärartjänster genom att minska administrativt arbete och låta lärare fokusera mer på undervisning. Risken är dock att tiden i stället går till ännu mer administration om skolan inte gör tydliga prioriteringar.

Färskbryggt AI varje morgon

15 minuter och en kopp kaffe, allt du behöver.