12 juni 2026

AI-agenter lär sig tänka innan de svarar

Forskare upptäcker att AI-agenter har en fundamental brist: de förstår inte sina egna verktyg. Samtidigt arbetar samma forskningsvärld febrilt på att ge AI-systemen bättre minne, frågeteknik och kunskapsgrafer. Det är som att bygga en Ferrari medan man upptäcker att föraren inte vet skillnaden på gas och broms.

Mänsklig översyn halverar AI-forskares misslyckanden

Forskare misslyckades i 72% av fallen när AI-agenter fick fritt spelrum i ekonomisk forskning. Men när människor behöll kontrollen över tre kritiska beslutspunkter sjönk misslyckandegraden till 16%. Det visar en studie på 280 forskningsprojekt som testade olika sätt att strukturera samarbetet mellan människor och AI.

Resultatet pekar på en genomgående trend i flera nya studier: AI-agenter behöver inte bara bättre modeller utan smartare arbetsfördelning. Ett annat team byggde minnessystem för AI-agenter baserat på kognitiv psykologi istället för enkel tidsbaserad lagring. Deras minnesfunktion behåller 77% av viktig information jämfört med 37% för vanliga metoder.

Medan forskare utvecklar sofistikerade system som Agents-K1 (som omvandlar 2,46 miljoner forskningsartiklar till kunskapsgrafer) visar andra studier grundläggande brister. När AI-agenter får välja verktyg från stora kataloger presterar de 50-64 procentenheter sämre på realistiska, tvetydiga frågor jämfört med idealiska testfall.

Mönstret är tydligt: dagens AI-agenter fungerar bra i kontrollerade miljöer men har svårt att hantera osäkerhet och komplexitet som människor tar för given. Det gäller allt från att komma ihåg relevant information till att förstå vilka verktyg som faktiskt löser ett problem.

För team som bygger AI-system betyder det här att designa för human-in-the-loop från början, inte som en eftertanke. Frågan är inte om AI kan ersätta mänskligt omdöme, utan var det gör störst skillnad att behålla det.

Källor:arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · Computer Sweden

Microsoft blockerar Claude Fable 5 medan Anthropic ber om ursäkt för dolda begränsningar

Claude Fable 5 hann knappt lanseras innan problemen började. Microsoft har blockat sina anställdas tillgång till Anthropics nyaste AI-modell efter att ha upptäckt att systemet nu sparar användardata i upp till två år när innehåll flaggas som problematiskt.

Företaget kallar det "säkerhetsåtgärder" men för Microsofts jurister låter det som en juridisk mardröm. När dina anställda matar in kunddata eller konfidentiell information i en AI-modell vill du veta exakt var den informationen hamnar och hur länge den stannar kvar. Anthropics nya policy gör den kalkylen betydligt mer komplicerad.

Samma vecka tvingades Anthropic att be om ursäkt för något ännu märkligare: de hade byggt in dolda begränsningar i Fable 5 som specifikt försvårar för forskare och konkurrenter att använda systemet. Företaget kallar det "invisible distillation guardrails" men i praktiken handlar det om att Fable ger sämre svar när den misstänker att någon försöker träna en konkurrerande AI-modell med hjälp av dess output.

Det hela blir extra ironiskt eftersom Anthropic under månader har varnat för att Mythos-familjen av modeller är för farlig för allmän användning. Nu visar det sig att deras försök att hantera riskerna skapar nya problem: företagskunder som flyr på grund av datapolicies och utvecklare som upptäcker att systemet medvetet saboterar deras arbete.

Anthropics svar är att de ska bli mer transparenta om när restriktionerna aktiveras, vilket i praktiken betyder att Fable kommer att avvisa ännu fler förfrågningar. Det låter som en lösning som gör problemet värre för alla inblandade.

Källor:Computer Sweden · The Verge AI

OpenAI planerar prissänkningar när Claude tar marknadsandelar

"OpenAI funderar på att kraftigt sänka sina API-priser efter att ha förlorat marknadsandelar till Anthropics Claude, som blivit populärt bland företagskunder som klagar över höga AI-kostnader."

Token-priserna kan snart rasa. OpenAI funderar på att kraftigt sänka sina API-priser efter att ha förlorat marknadsandelar till Anthropics Claude, som blivit populärt bland företagskunder som klagar över höga AI-kostnader.

Timingen är intressant. Anthropic släppte nyligen Claude Fable, och enligt rapporter "bygger alla med den". Det här är inte bara om prestanda längre – det handlar om vem som kan leverera användbar AI till rätt pris.

För utvecklare och produktteam betyder det här potentiellt mycket lägre infrastrukturkostnader. Om OpenAI verkligen sänker priserna ordentligt kan det ändra kalkylen för AI-funktioner som tidigare varit för dyra att köra i produktion. Samtidigt riskerar båda företagen att pressa sina marginaler hårt när de pumpar in miljardbelopp i träningsdatorer.

Det ironiska är att båda bolagen förbereder börsnoteringar där lönsamhet kommer vara avgörande. Ett priskrig precis nu känns som att spela poker med andras pengar – vilket tekniskt sett är exakt vad de gör med sina investerares kapital.

Marknaden verkar ha bestämt att AI-tjänster är för dyra just nu. Claude har visat att man kan vinna kunder genom att vara mer kostnadseffektiv, inte bara smartare. Nu får vi se om OpenAI väljer att försvara sina marginaler eller sina marknadsandelar. Historien visar att de sällan väljer det förstnämnda.

Källor:Computer Sweden · Ben's Bites · Di Digital

Dagens siffra

77%

En ny AI-minnesmodell behåller 77% av viktig information jämfört med bara 37% för enklare tidsbaserade metoder

Källa: arXiv

Snabbkollen

Google DeepMind oroar sig för miljontals AI-agenters samspel

Google DeepMind finansierar forskning om riskerna när miljontals AI-agenter börjar interagera med varandra online utan mänsklig övervakning. Enligt Rohin Shah, chef för företagets AGI-säkerhetsforskning, kan massutbredningen av autonoma agenter som kan följa instruktioner från andra agenter skapa oförutsägbara kedjereaktioner. Det handlar alltså inte bara om enskilda AI-system, utan om vad som händer när de börjar 'prata' med varandra i stor skala.

Källor: MIT Technology Review

Jeff Bezos Prometheus får 12 miljarder dollar för att bygga 'artificiell general ingenjör'

Jeff Bezos startup Prometheus värderas nu till 41 miljarder dollar efter en kapitalrunda på 12 miljarder dollar. Företaget utvecklar fysisk AI som ska automatisera tung ingenjörsvetenskap och läkemedelsdesign – alltså AI som inte bara tänker utan faktiskt kan påverka den fysiska världen.

Källor: TechCrunch AI

Forskare utvecklar ramverk för att bedöma AGI-påståenden

Forskare har skapat ett nytt ramverk för att utvärdera påståenden om artificiell generell intelligens (AGI), eftersom begreppet saknar enhetlig definition. Ramverket testades mot påståendet att nuvarande AI-system redan utgör AGI - endast prestationsbaserade definitioner stödde detta, medan andra mätmetoder inte gjorde det.

Källor: arXiv cs.AI

Forskare varnar för 'kognitiv kolonisering' av AI-system

En ny studie introducerar begreppet 'System 0' – AI-system som påverkar vårt tänkande innan vi ens börjar reflektera medvetet. Forskarna menar att dessa system kan bädda in externa intressen i våra tankeprocesser på sätt som är svåra att upptäcka, vilket de kallar 'kognitiv kolonisering'.

Källor: arXiv cs.AI

Styrning av agent-autonomi med automatisk granskning

Cursor introducerar Auto-review, ett system som låter AI-agenter granska sina egna kodförändringar innan de implementeras. Funktionen syftar till att balansera agent-autonomi med säkerhet genom att automatiskt flagga potentiellt problematiska ändringar för mänsklig kontroll.

Källor: Cursor Blog

Benchling bygger AI-agenter för vetenskaplig forskning

Biotech-plattformen Benchling använder AI-agenter för att påskynda vetenskaplig forskning, trots att dagens smartaste AI-modeller inte är tillräckligt bra för komplexa laboratorieuppgifter. Företaget kombinerar flera AI-modeller och utvecklar särskilda strategier för att verifiera att agenterna faktiskt levererar korrekta vetenskapliga resultat.

Källor: LangChain Blog

Var femte svensk känner AI-skam på jobbet

Var femte svensk skäms över att använda AI på jobbet, visar en ny undersökning från Advania/Norstat. Skammen är störst bland yngre medarbetare och de som jobbar kreativt eller med kundsupport – 16% skäms inför kollegor och 14% inför kunder. Advania menar att arbetsgivare måste skapa öppnare AI-kulturer för att inte missa produktivitetsvinster.

Källor: Computer Sweden

Tesla får godkännande för Full Self-Driving i Belgien och Danmark

Tesla har fått myndighetsgodkännande att aktivera sin Full Self-Driving-funktion i Belgien och Danmark, vilket markerar en expansion av den AI-drivna självkörningstekniken till nordiska marknader. Funktionen använder neurala nätverk och maskininlärning för att tolka trafikdata och styra bilen autonomt.

Källor: Dagens Industri

Varnade för säkerhetsbrister hos Elon Musks XAI – fick sparken

En tidigare säkerhetschef på Elon Musks AI-företag XAI fick sparken efter att ha varnat för säkerhetsbrister i chattbotten Grok. Personen i fråga hävdar att företaget försökte kringgå EU:s säkerhetsregler och pekar ut en annan grundare än Musk som ansvarig för problemen.

Källor: Breakit

Miljardregn över tyskt robotbolag – backas av Nvidia

Tyska AI-startupen Neura har fått miljardfinansiering med Nvidia som en av investerarna för att utveckla humanoida robotar. Företaget blir nu ett av Europas högst värderade AI-bolag, vilket visar på det växande intresset för robotik kombinerat med artificiell intelligens.

Källor: Breakit

Deezer lanserar verktyg för att identifiera AI-musik på Spotify och Apple Music

Musikstreamingtjänsten Deezer har utvecklat ett verktyg som kan skanna spellistor från konkurrenter som Spotify och Apple Music för att identifiera AI-genererad musik. Verktyget kommer som svar på den växande mängden AI-skapad musik som dyker upp på streamingplattformarna, även om Deezer inte specificerat exakt hur tekniken fungerar.

Källor: TechCrunch AI

Claude Fable är envist proaktiv

Utan tillgång till den fullständiga artikeln kan jag inte ge en meningsfull sammanfattning av innehållet om Claude Fable's proaktiva beteende.

Källor: Simon Willison

DoorDash lanserar AI-chatbot för matbeställningar med text och bilder

DoorDash har lanserat Ask DoorDash, en AI-chatbot som låter användare beställa mat genom att skriva naturliga kommandar eller ladda upp bilder istället för att scrolla genom restauranger. Funktionen gör det möjligt att söka efter mat med fraser som "något kryddigt till lunch" och få personliga rekommendationer.

Källor: TechCrunch AI

Seattle stoppar nya datacenter efter AI-boom

Seattle har infört ett ettårigt förbud mot nya datacenter efter att AI-boomen lett till enorma satsningar som hotar stadens elnät. De fem ansökta datacentren skulle förbruka en tredjedel av all tillgänglig el i staden, vilket politiker anser orimligt.

Källor: Computer Sweden

Ny lag ska låta amerikaner stämma myndigheter som trycker på AI-företag

Amerikanska senatorer har presenterat JAWBONE Act, en lag som låter medborgare stämma myndighetspersoner som olagligt försöker tvinga sociala medier-, AI- eller tv-företag att censurera inlägg. Lagen kräver också större transparens kring hur myndigheter kommunicerar med dessa plattformar, även om censuren aldrig genomförs.

Källor: The Verge AI

Spac-ägare valde bort Einride

Einride fick en kall dusch när bara 2 procent av investerarna i spac-bolaget Legato valde att stanna kvar som ägare efter noteringen. Det betyder att det självkörande lastbilsföretaget går miste om merparten av de 1,7 miljarder kronor de hade hoppats få från spac-kassan.

Källor: Di Digital

Svenska robotbolaget Staer utvalt – joinar prestigefylld grupp

Malmöbaserade robotbolaget Staer har blivit utvalt till Googles prestigefyllda acceleratorprogram. Det ger det svenska företaget tillgång till resurser och nätverk från teknikjätten för att utveckla sina robotlösningar vidare.

Källor: Breakit

Vad tyckte du om dagens digest?

AI-agenter lär sig tänka innan de svarar

Mänsklig översyn halverar AI-forskares misslyckanden

Microsoft blockerar Claude Fable 5 medan Anthropic ber om ursäkt för dolda begränsningar

OpenAI planerar prissänkningar när Claude tar marknadsandelar

Trumps Truth Social-karusell fick Wall Street att snurra

Dagens siffra

Snabbkollen

Färskbryggt AI varje morgon