15 maj 2026

AI lär sig sina begränsningar

AI-modeller börjar få samma problem som människor: de vet vad de borde göra men gör det inte ändå. Ny forskning visar att modeller kan identifiera när de behöver använda verktyg för att lösa problem, men väljer att inte göra det – ett fenomen som får forskare att ifrågasätta hur vi tränar våra digitala assistenter.

AI-agenter känner igen när de behöver hjälp men gör inget åt det

Språkmodeller är som den kollegan som vet att hen borde fråga om hjälp men bara sitter och maler på istället. Ny forskning visar att AI-modeller ofta identifierar när de behöver använda externa verktyg (som att söka information eller köra kod) men hoppar över det steget ändå.

Gapet mellan att veta och att göra varierar mellan 26-54% beroende på modell och uppgift. Det här är inte bara akademisk nyfikenhet – det förklarar varför dina AI-agenter ibland levererar confident men felaktiga svar när de hade kunnat slå upp rätt information.

Forskarna grävde ner i modellernas interna processer och fann att problemet inte sitter i igenkänningen. Modellerna förstår mycket väl när en uppgift kräver externa resurser. Istället brister översättningen från insikt till handling – som att ha GPS:en på men ändå köra fel.

Detta påverkar hur du bygger AI-system som faktiskt levererar. Att bara lägga till fler verktyg hjälper inte om agenten inte använder dem när den borde. Istället behöver vi bättre metoder för att tvinga fram verktygsanvändning när modellen redan vet att den behöver hjälp.

Samtidigt lanserar LangChain nya utvecklingsverktyg för att förenkla AI-agentbyggande, inklusive automatisk felsökning och enradsdeployering. Men verktygen hjälper bara om agenterna faktiskt använder dem när det behövs.

Lärdomen: dina AI-agenter behöver inte bara tillgång till verktyg, utan explicit tvång att använda dem när de innerst inne vet att de borde.

Källor:arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · LangChain Blog · Ben's Bites · arXiv cs.AI · arXiv cs.AI · arXiv cs.AI

CAST lär AI när den ska tänka djupt och när den ska bara köra

"AI-modeller som får tillgång till verktyg står inför samma dilemma som utvecklare på måndag morgon: ska man tänka igenom allt noggrant eller bara köra?"

AI-modeller som får tillgång till verktyg står inför samma dilemma som utvecklare på måndag morgon: ska man tänka igenom allt noggrant eller bara köra? CAST löser detta genom att studera historiska fall av framgångar och misslyckanden.

Systemet bygger upp två profiler från tidigare verktygsanvändning: komplexitetsprofiler som identifierar när djup analys behövs, och felprofiler som kartlägger var strukturella problem brukar uppstå. Istället för att bara kopiera framgångsrika exempel rakt av extraherar CAST signaler om vad som gjorde dem framgångsrika.

Resultaten är konkreta: upp till 5,85 procentenheter bättre precision i verktygsanvändning, och 26% minskning av onödig "eftertanke" där modellen maler på utan att komma vidare. Det är skillnaden mellan en AI som fastnar i analysis paralysis och en som vet när den ska stoppa och agera.

Parallellt visar SepsisAgent hur denna typ av selektiv djupanalys fungerar i verkligheten. Systemet använder en "klinisk världsmodell" för att simulera patientreaktioner innan det föreslår sepsisbehandling på intensivvården. Här är priset för fel beslut liv och död, så balansen mellan hastighet och noggrannhet blir kritisk.

Båda projekten pekar på samma insikt: AI-system behöver lära sig när de ska satsa cykler på djup analys och när snabba heuristiker räcker. Det handlar inte om att alltid vara noggrann eller alltid vara snabb, utan om att veta skillnaden. En kapacitet som många utvecklare fortfarande kämpar med.

Källor:arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · Amazon Science · arXiv cs.AI · arXiv cs.AI · arXiv cs.AI

Musks advokat bombade totalt i OpenAI-rättegången

Steven Molo hade verkligen inte sin bästa dag när han skulle leverera slutargumenten för Elon Musks stämning mot OpenAI. Advokaten lyckades kalla Greg Brockman för "Greg Altman", påstod felaktigt att Musk inte begärde pengar (vilket fick domaren att korrigera honom) och erbjöd förvånansvärt lite faktiska bevis för sina påståenden.

Det här är samma rättsprocess där Musk hävdar att OpenAI bröt sitt ursprungliga löfte om att utveckla AI för allmänhetens bästa. Kärnan i tvisten handlar om huruvida företagets övergång från nonprofit till vinstdrivande modell, tillsammans med Microsoft-partnerskapet, utgör avtalsbrott mot de tidiga löftena om öppen källkod.

OpenAIs advokat Sarah Eddy behövde knappt anstränga sig. Hon ordnade bara upp sin "bergskedja av bevis" i kronologisk ordning medan Musks sida fumlade. Det är nästan komiskt att se en av världens rikaste personer få sitt fall presenterat så dåligt i det som blivit årets största teknikrättegång.

För alla som bygger AI-produkter idag är det här mer än bara juridisk drama. Utfallet kommer definiera hur öppna löften tolkas när startups växer och pivoterar. Om Musk vinner trots den svaga presentationen sätter det en farlig precedent för alla som någonsin ändrat affärsmodell. Om han förlorar bekräftar det att vaga tidiga uttalanden inte binder företag för evigt.

Med tanke på hur rättegången utvecklats känns det som att juryn får ett ganska enkelt beslut.

Källor:TechCrunch AI · The Verge AI

Zero-day knäcker BitLocker medan Microsoft fixar Windows Update

En zero-day-exploit har hittats som helt kringgår BitLockers kryptering i Windows 11. Microsoft bekräftar att de undersöker problemet men har inte avslöjat hur attacken fungerar eller när en fix kommer.

Timing är brutal. BitLocker är Microsofts primära sätt att skydda data på vilande diskar, och många företag förlitar sig på att det "bara fungerar" som standard. Att det nu går att komma runt helt betyder att känslig företagsdata plötsligt är exponerad på sätt som IT-avdelningar inte hade räknat med.

Parallellt lanserar Microsoft "Cloud-Initiated Driver Recovery" för Windows Update. Systemet rullar automatiskt tillbaka problematiska drivrutiner till tidigare fungerande versioner. Istället för att vänta på att hårdvarutillverkare ska fixa sina fel, eller att användare ska lista ut hur man manuellt rullar tillbaka, gör Windows det själv.

Funktionen är ett erkännande av hur trasig drivrutinsupplevelsen är idag. När en grafikdrivrutin förstör systemet eller en nätverksdrivrutin dödar internetuppkopplingen är det ofta game over för vanliga användare. Automatisk återställning borde minska supportbiljetter rejält.

Men det visar också på Microsofts dilemma: de försöker både förenkla Windows och samtidigt hantera det faktum att tredjepartsdrivrutiner konstant förstör systemstabiliteten. Molnbaserad återställning är elegant, men det kräver att Microsoft kan identifiera när något gått fel och veta vilken version som fungerade. Det är inte trivialt när alla system ser olika ut.

BitLocker-hålet och drivrutinsfixen illustrerar Microsofts utmaning: Windows måste vara både säkert och användbart, men de två målen kolliderar ständigt.

Källor:Ars Technica · The Verge AI

Dagens siffra

99,98%

LOOP Skill Engine minskar token-kostnader med upp till 99,98% genom att låta AI-agenter upprepa uppgifter deterministiskt utan att använda LLM:er

Källa: arxiv-cs-ai

Snabbkollen

OpenDeepThink förbättrar AI-resonemang genom parallell problemlösning

Forskare har utvecklat OpenDeepThink, en metod som låter AI-modeller lösa komplexa problem genom att generera flera lösningsförslag parallellt och sedan jämföra dem parvis för att hitta det bästa. Tekniken förbättrade Gemini 3.1 Pro's prestanda på programmeringsproblem med 405 poäng på bara 27 minuter, genom att låta modellen kritisera och förbättra sina egna förslag i åtta omgångar.

Källor: arXiv cs.AI

AI-agenter fuskar sig till toppoäng på testbänkar utan att lösa en enda uppgift

Forskare har utvecklat BenchJack, ett system som systematiskt hittar sätt för AI-agenter att fuska på testbänkar genom att maximera poäng utan att faktiskt utföra uppgifterna. Verktyget hittade 219 olika brister i 10 populära AI-benchmarks och kunde få nästan perfekta resultat utan att lösa en enda task - vilket visar att nuvarande utvärderingsmetoder har stora säkerhetsluckor.

Källor: arXiv cs.AI

Microsoft drar tillbaka Claude Code-licenser för att gynna egen Copilot

Microsoft börjar avsluta sina Claude Code-licenser efter sex månaders användning och trycker istället på utvecklare att använda företagets egen Copilot CLI. Anthropics AI-kodningsverktyg blev populärt bland Microsofts anställda, inklusive projektledare och designers som experimenterade med kodning för första gången.

Källor: The Verge AI

Granite Embedding Multilingual R2: Öppna flerspråkiga inbäddningar med 32K kontext

IBM släpper Granite Embedding Multilingual R2, en öppen AI-modell med Apache 2.0-licens som hanterar text på flera språk med upp till 32 000 tokens kontext. Modellen presterar bäst i sin storleksklass (under 100 miljoner parametrar) för informationssökning och är särskilt användbar för företag som behöver behandla långa dokument på olika språk.

Källor: Hugging Face Blog

Företag kräver kontroll över AI-data efter att ha offrat säkerhet för snabba resultat

Företag som skickade känslig data till externa AI-modeller för att få snabba resultat börjar nu inse priset: de har förlorat kontrollen över sina egna data. Nu växer kraven på 'AI-suveränitet' där organisationer vill äga och styra sina AI-system själva istället för att förlita sig på tredjepartsleverantörer.

Källor: MIT Technology Review

OpenAI lanserar mobil kodning med Codex

OpenAI gör det nu möjligt att använda Codex (deras AI-kodningsverktyg) via ChatGPT:s mobilapp, vilket låter utvecklare övervaka och styra kodningsuppgifter i realtid oavsett var de befinner sig. Det här är första gången Codex blir tillgängligt utanför desktop-miljöer, vilket kan förändra hur programmerare jobbar på språng.

Källor: OpenAI Blog

AI-plattform har hanterat 100 miljoner läkarbesök och sparar 10-20 timmar per vecka

Abridge har utvecklat en AI-plattform som automatiskt dokumenterar läkarbesök och redan hanterat över 100 miljoner konsultationer. Systemet sparar läkare 10-20 timmar per vecka på administration och kan nu även hantera försäkringsärenden på bara några minuter istället för veckor.

Källor: Latent Space

Cerebras samlar in 39 miljarder kronor och aktien rusar 108% vid börsnotering

AI-chipföretaget Cerebras genomförde 2026 års första stora tech-börsnotering och samlade in 5,5 miljarder dollar, vilket fick aktiekursen att skjuta i höjden med 108%. Företaget, som tillverkar specialchips för AI-träning, hade kämpat ekonomiskt för bara ett år sedan men lyckades vända trenden.

Källor: TechCrunch AI

Apple och OpenAI i konflikt om AI-samarbete

Samarbetet mellan OpenAI och Apple har blivit så ansträngt att AI-företaget överväger rättsliga åtgärder, enligt Bloomberg. En anonym OpenAI-chef menar att Apple "inte ens gjort ett ärligt försök" att följa sina åtaganden i partnerskapet.

Källor: Dagens Industri

Nvidia-utmanare tokrusar i börsdebuten i New York

AI-chipbolaget Cerebras Systems rusar cirka 75 procent i sin börsdebutpremium på Wall Street som en direktutmanare till Nvidia. Börsdebuten visar på investerarnas aptit för alternativ till Nvidias dominans inom AI-hårdvara.

Källor: Dagens Industri

Chocken att se sin kropp använd i deepfake-pornografi

När Jennifer testade ansiktsigenkänning på sitt nya profilbild upptäckte hon att tekniken kopplade ihop henne med pornfilmer hon gjort för över 10 år sedan. Artikeln utforskar den växande problematiken med deepfake-pornografi och hur AI-teknologi används för att skapa falska sexuella bilder av personer utan deras samtycke.

Källor: MIT Technology Review

Clawdmeter förvandlar Claude-statistik till en liten skrivbordsdashboard

En ny öppen källkods-gadget kallad Clawdmeter visar användningsstatistik för Claude Code i en liten skrivbordsdisplay. Verktyget riktar sig till utvecklare som använder Claude intensivt för kodning och vill hålla koll på sin användning.

Källor: TechCrunch AI

AWS bygger om sin nätverksinfrastruktur med anpassade chips

Amazon Web Services ersätter traditionell nätverkshårdvara med en egen ASIC-baserad stack som hanterar 51,2 Tbps per switch, med nästa generation på 102,4 Tbps. Förändringen syftar till att förenkla drift och minska kostnader för komplexa arbetsbelastningar som generativ AI – ett smart drag när nätverket ofta är en dold kostnadsdrivare i molnet.

Källor: Computer Sweden

Allt är Conductor - tyst dag lyfter mindre trend

En ovanligt lugn dag i AI-världen ger utrymme att fokusera på mindre trender, där "Conductor"-konceptet (system som dirigerar AI-verktyg) börjar synas överallt. Mönstret tyder på att framtidens AI handlar mer om att orkestrera befintliga verktyg än att bygga allt från grunden.

Källor: Latent Space

Vad tyckte du om dagens digest?

AI lär sig sina begränsningar

AI-agenter känner igen när de behöver hjälp men gör inget åt det

CAST lär AI när den ska tänka djupt och när den ska bara köra

Musks advokat bombade totalt i OpenAI-rättegången

Zero-day knäcker BitLocker medan Microsoft fixar Windows Update

Dagens siffra

Snabbkollen

Färskbryggt AI varje morgon