14 april 2026

OpenAI utökar och AI-agenter tar nya steg

OpenAI är tydligen inte nöjda med att bara dominera chatbots – nu köper de upp startups inom privatekonomi samtidigt som interna dokument avslöjar en kompromisslös strategi för att krossa konkurrenter som Anthropic. Men kanske är det rätt timing, för medan OpenAI planerar sin nästa världsherravälde håller AI-agenter på att mogna från klumpiga experiment till faktiska verktyg som kan förhandla, övervaka tillverkning och till och med coacha varandra.

OpenAI köper Hiro och vill bygga vallgravar

OpenAI köper finansstartup Hiro och kommer integrera ekonomisk planering direkt i ChatGPT. Det är den tydligaste signalen än så länge att de vill förvandla sin chatbot från verktyg till plattform.

Timingen är intressant. Samma vecka som köpet tillkännagavs skickade intäktschef Denise Dresser ett fyrasidigt memo till anställda om att bygga "vallgravar" runt OpenAI:s produkter. Problemet de försöker lösa? Det är för enkelt för användare att hoppa mellan AI-modeller beroende på vad som presterar bäst just nu.

Det här är klassisk plattformsstrategi. Istället för att bara vara "den bästa AI:n" vill OpenAI bli den enda du behöver. Finansiell planering är smart val – det är något folk gör regelbundet men inte dagligen, och det kräver kontinuitet och kontext som chatbots är bra på.

Men det visar också hur pressad OpenAI känner sig. När Anthropic släpper en modell som presterar bättre på vissa uppgifter förlorar de användare över en natt. Lösningen verkar vara att göra bytet så opraktiskt att folk stannar kvar.

För utvecklare betyder det här troligtvis fler integrationer och API:er från OpenAI framöver. De kommer inte bara konkurrera på modellkvalitet längre – de bygger ett ekosystem. Frågan är om det kommer kännas som värde eller vendor lock-in när de väl är färdiga.

AI-agenter börjar träna varandra – och det funkar bättre än väntat

"Fyra nya forskningsrön pekar åt samma håll: AI-agenter fungerar bäst med AI-supervision."

Fyra nya forskningsrön pekar åt samma håll: AI-agenter fungerar bäst med AI-supervision. Det låter meta, men resultaten är konkreta.

Agent Mentor är kanske det mest praktiska exemplet. Systemet övervakar andra AI-agenters exekveringsloggar, identifierar när promptarna är otydliga eller felaktiga, och injicerar korrigerande instruktioner automatiskt. Resultatet: mätbara noggrannhetsförbättringar över hela linjen. För alla som byggt AI-agenter vet hur frustrerande prompt-debugging kan vara – det här är första gången någon automatiserat den processen på riktigt.

Parallellt visar RLVR-forskningen att en 30 miljarder parameter-agent kan slå betydligt större modeller på prisförhandling genom förstärkningsinlärning med verifierbara belöningar. Mest fascinerande: agenten generaliserade till motståndare den aldrig tränat mot. Det antyder att supervisionsmekanismer kan skapa robusthet som vanlig fine-tuning missar.

Ännu mer konkret blir det med wire-arc 3D-printing-övervakaren. Forskarna byggde ett multi-agent system där en agent analyserar svetsdata och en annan lyssnar på ljudsignaler för att upptäcka defekter i realtid. 91,6% träffsäkerhet på porositet-detection – det är industriell precision på riktigt.

Gemensamma nämnaren: supervision som emergent funktion snarare än programmerad logik. Bieffekten för oss som bygger agentsystem är uppenbar. Istället för att optimera en enskild agent kanske vi ska fokusera på att bygga system där agenter övervakar och tränar varandra. Det verkar vara där den faktiska prestandan ligger.

AI-agenter kan inte räkna pengar eller hitta vägen

Fyra nya forskningsstudier visar att AI-agenter har fundamentala brister som ingen pratar om. USACOArena introducerar något så enkelt som en budget för kodningsuppgifter – varje token och test kostar poäng. Resultatet? Agenterna kraschar ekonomiskt medan de desperat försöker lösa problem de inte förstår kostnaden för.

Ännu värre: The Amazing Agent Race visar att agenter bara klarar 37% av uppgifter där de måste hoppa mellan Wikipedia-sidor. Det här är inte raketforskning – det är att klicka på länkar och komma ihåg vad man läste på föregående sida. Men 27-52% av gångerna hittar de helt enkelt inte rätt information.

UniToolCall försöker standardisera hur agenter använder verktyg, vilket låter vettigt tills man inser att det är som att bygga perfekta hammare för snickare som inte kan hitta spiken. Deras förbättrade Qwen3-modell slår GPT och Claude på verktygsuppgifter, men det spelar ingen roll om agenten inte kan navigera till rätt verktyg från början.

Det mest avslöjande är labyrinstudien: Gemini kan beskriva 96-99% av rumsliga relationer korrekt men klarar bara 16-34% av visuella labyrinter. Det är som att ha en GPS som kan läsa kartan perfekt men ändå kör fel hela tiden.

För utvecklare som bygger agent-system är budskapet tydligt: fokusera på navigation och resurshantering innan du optimerar prestanda. En agent som kan göra 100 saker perfekt men inte vet när den ska sluta, eller som tappar bort sig efter tre klick, är värdelös i produktion.

Ny metod minskar AI:s hallucinationer genom att tvinga den att titta

Multimodala AI-modeller har ett irriterande beteende: när de stöter på svåra beslut slutar de att titta på bilderna och hittar på saker istället. Forskare har nu kartlagt exakt varför detta händer och byggt en motgift.

Problemet uppstår vid så kallade "kognitiva vägskäl" – moment när modellen möter hög osäkerhet och måste välja riktning i sitt resonemang. Istället för att gräva djupare i den visuella informationen faller modellen tillbaka på sina språkkunskaper och börjar fantisera. Det är ungefär som att be någon beskriva en målning i mörka rummet och få en detaljerad berättelse baserad på vad de tror borde finnas där.

Lösningen heter V-STAR och använder ett belöningssystem som aktivt straffar modellen när den ignorerar visuell information under kritiska moment. Träningsmetoden tvingar modellen att förankra sitt resonemang i det den faktiskt ser, även när det blir knepigt.

För alla som bygger produkter med vision-språkmodeller är detta praktiskt relevant. Hallucinationer är inte bara ett tekniskt problem utan ett användbarhetsproblem – användare slutar lita på system som hittar på detaljer i bilder. En modell som faktiskt tittar på vad den ska analysera är skillnaden mellan en användbar bildanalys-feature och en som måste komma med disclaimers.

Forskningen visar också på något större: de flesta multimodala modeller är egentligen språkmodeller med bildkompetens påklistrad, inte genuint integrerade system. V-STAR pekar mot en riktning där visuell och språklig förståelse faktiskt arbetar tillsammans istället för att konkurrera om uppmärksamhet.

Dagens siffra

91,6%

träffsäkerhet för AI-agenter som övervakar 3D-printing i realtid för att upptäcka porositet defekter

Snabbkollen

Ny benchmark testar om AI-agenter kan designa sina egna förstärkningsinlärningspipelines

Forskare har lanserat Agent²RL-Bench, ett test som mäter om stora språkmodeller kan bygga kompletta RL-system (reinforcement learning) för att förbättra AI-modeller. Resultaten visar stora skillnader mellan uppgifter - på ALFWorld förbättrades prestandan från 6% till 93%, medan andra uppgifter knappt påverkades alls. Det här är intressant eftersom det visar att AI-agenter ännu inte är redo att ersätta mänskliga ML-ingenjörer i alla sammanhang.

Källor: arXiv cs.AI
MEMENTO lär AI-modeller att komprimera sitt eget minne

Forskare har utvecklat MEMENTO, en teknik som lär stora språkmodeller att komprimera sina egna tankeprocesser till korta sammanfattningar istället för att komma ihåg allt. Metoden minskar minneskraven med 2,5 gånger och ökar hastigheten med 75% samtidigt som modellerna behåller sin noggrannhet på matematik och kodning.

Källor: arXiv cs.AI
Anthropic släpper Claude-tillägg för Microsoft Word

Anthropic lanserar nu en betaversion av Claude för Microsoft Word efter tidigare släpp för Excel och PowerPoint i februari. Tillägget låter användare ställa frågor om dokument, skapa sammanfattningar och spåra ändringar – riktat främst mot företagsanvändare som journalister och jurister. Just nu kräver det Claude Team eller Enterprise-prenumeration.

AI-agenter hjälper life science-labb att fatta beslut

Life science-labb genererar enorma mängder data från utrustning och miljöövervakning, men har svårt att omvandla signalerna till snabba beslut. Agentiska AI-system kan resonera i sammanhang, prioritera vad som är viktigt och föreslå nästa steg - en förskjutning från reaktiva varningar till operativt beslutsstöd.

Qlucore lanserar AI-baserat test för akut myeloisk leukemi

Det svenska företaget Qlucore lanserar ett AI-baserat test som kan klassificera nio olika molekylära subtyper av akut myeloisk leukemi från en enda sekvensering. Testet kan också upptäcka över 38 genfusioner och mäta MECOM-genuttryck, vilket tidigare krävde flera separata analyser – något som kan förbättra både hastighet och kostnadseffektivitet för laboratorier.

Källor: Inderes.se
AI:s blinda fläck i EU-reglering

En ny analys från Kommerskollegium visar att EU:s AI-regler missar ett kritiskt område: kollektiva samhällsrisker från lagliga AI-system som formar beteenden och marknader i stor skala. Medan nuvarande regelverk fokuserar på tekniska risker och individuell skada, faller kumulativa effekter från AI-drivna rekommendationer och rankningar utanför regelverket. Detta skapar en regulatorisk blind fläck som påverkar konkurrens och internationell handel.

Stanford-rapport visar växande klyfta mellan AI-experter och allmänheten

Stanfords senaste AI Index visar att klyftan växer mellan experter och allmänheten när det gäller AI, där vanliga människor känner allt större oro för jobb, sjukvård och ekonomin. Intressant nog verkar de som arbetar med AI ha en helt annan bild av teknologins påverkan än de som faktiskt kommer att påverkas av den.

AI Integrity: Ett nytt ramverk för verifierbar AI-styrning

Forskare föreslår "AI Integrity" som ett nytt sätt att styra AI-system genom att verifiera själva resonemangsprocessen istället för bara slutresultatet. De introducerar ett fyrskiktigt "Authority Stack" som spårar hur AI-system går från värderingar till data, plus mätvärden för att upptäcka när denna process blir korrumperad. Tanken är att göra AI:s beslutsfattande transparent och kontrollerbart, oavsett vilka värderingar systemet har från början.

Källor: arXiv cs.AI
Första studien visar klimatfotavtrycket av AI-forskning

Forskare har för första gången kartlagt den totala miljöpåverkan från att utveckla en AI-modell - från experimentstadium till färdig produkt. När de analyserade skapandet av Moshi (en 7 miljarder parameter språkmodell) upptäckte de att de flesta studier bara rapporterar energiförbrukningen för slutgiltig träning, men missar alla misslyckade experiment och utvecklingsfaser som ofta står för majoriteten av beräkningskraften.

Källor: arXiv cs.AI
Microsoft utvecklar ytterligare en OpenClaw-liknande agent

Microsoft arbetar på en ny AI-agent liknande OpenClaw, som ett tillägg till sina tidigare agenter Cowork och Copilot Tasks som kan utföra uppgifter åt användare. Företaget fortsätter bygga ut sitt utbud av automatiserade AI-assistenter som kan hantera mer komplexa arbetsflöden.

Rezolve Ai lanserar handelsspecialiserade AI-modeller i Microsoft Foundry

Rezolve Ai har gjort sina brainpowa™-modeller tillgängliga i Microsoft Foundry, vilket gör dem till en av få leverantörer bredvid OpenAI och Anthropic i plattformen. Modellerna är specialbyggda för e-handel och hjälper företag att skapa 'commerce copilots' som kan identifiera köpintentioner och orkestrera verktygsanrop i realtid på Azure.

Källor: Nasdaq.com
AI-användning når 50% bland amerikanska anställda

För första gången använder hälften av amerikanska anställda AI på jobbet minst några gånger om året, enligt Gallup. 13% använder AI dagligen och företag som implementerat AI rapporterar mer omorganisering och personalförändringar än andra. Det verkar som AI börjar omforma arbetsplatser, även om genomgripande förändringar i hur arbete utförs fortfarande är begränsade.

Källor: Gallup.com
AI-agenter bryts ner och MirrorCode presenteras i ny forskningssammanställning

Import AI 453 tar upp forskning om hur AI-agenter kan exploateras och brytas ner, samt presenterar MirrorCode - ett nytt verktyg för kodanalys. Utgåvan diskuterar också tio olika perspektiv på hur AI gradvis kan minska mänsklig kontroll över system.

Källor: Import AI
Färre än 20% av nordiska företagsledare ser AI öka omsättningen

Endast 18% av nordiska företagsledare tror att AI har ökat deras omsättning, visar Deloittes undersökning bland 170 chefer från Sverige, Finland, Danmark och Norge. Däremot menar nästan 80% att AI förbättrat effektiviteten, medan införandet av AI-agenter (autonoma system som kan fatta beslut själva) går långsamt på grund av kompetensbrist.

Källor: Yle.fi
Läckta skärmdumpar – Anthropic jobbar på en Lovable-dödare

Anthropic utvecklar enligt läckta skärmdumpar en tjänst som påminner om kodgenereringsverktyget Lovable. Det skulle innebära att AI-jätten utmanar specialiserade verktyg för att automatiskt skapa webbappar och kod.

Källor: Breakit
Oracle integrerar Lucinitys AI-verktyg för finansiell brottslighet

Oracle har säkrat rättigheterna till Lucinitys AI-drivna utredningsverktyg för att bekämpa penningtvätt och finansiell brottslighet inom sin compliance-plattform. Integrationen ger banker tillgång till automatiserade utredningsflöden och AI-agenter som kan minska tiden för repetitiva uppgifter medan de förbättrar konsistensen i brottsutredningar.

SHOPLAB lanserar AI-agent för e-handel

Svenska SHOPLAB presenterar sin AI Agent som en del av sin e-handelsplattform, tillsammans med kampanjverktyg som påstås öka ROI med 40%. Företaget erbjuder en heltäckande lösning för onlinebutiker med allt från produkthantering till AI-drivna funktioner.

Källor: Shoplab.io

Färskbryggt AI varje morgon

15 minuter och en kopp kaffe, allt du behöver.