1 juli 2026

AI:n som inte klarar jobbet – än

AI-branschen är bra på att sälja potential och dålig på att redovisa begränsningar – men just nu läcker det från båda håll. En serie nya tester och benchmarks målar upp en mer nyanserad bild av vad dagens AI-agenter faktiskt klarar när de sätts på verkliga uppgifter, och svaret är konsekvent: betydligt mindre än marknadsföringen antyder. Frågan är vad det betyder för alla de system som redan är på väg att driftsättas.

AI producerade 166 forskningsartiklar — och avslöjade sina egna svagheter

"Det finns en viss ironi i att ett AI-system designat för att göra forskning självständigt också producerar den tydligaste kartan över var AI-forskning faktiskt haltar."

Det finns en viss ironi i att ett AI-system designat för att göra forskning självständigt också producerar den tydligaste kartan över var AI-forskning faktiskt haltar.

FARS (Fully Automated Research System) kör hela cykeln: idégenerering, experimentplanering, genomförande och artikelskrivning, utan att en människa rör tangentbordet. I sin första publika körning skapade systemet 166 artiklar inom 67 AI/ML-ämnesområden. Av dem granskades 140 av frivilliga recensenter. Betygen var hyfsat godkända, men bristerna var systematiska: för smala experiment, metodproblem och en del frågor kring forskningsetik.

Det är exakt den typen av skalfelbild som är svår att se när AI-forskning presenteras som utvalda framgångsexempel. Nu finns den i bulk.

Samtidigt visar två andra papers vart den här rörelsen är på väg. En agent som börjar från axiom och slutledningsregler hittar tiotusentals matematiska teorem helt på egen hand, och kan sedan mata dem som ledtrådar till vanliga LLM:er för att förbättra deras bevisförmåga. En annan agent samarbetar med en motpart för att stegvis förbättra certifierade gränsvärden i klassiska optimeringsproblem. Siffrorna är blygsamma (1,28 till 1,2937), men de är matematiskt bevisade, inte uppskattade.

Det gemensamma temat: AI-agenter börjar leverera verifierbara resultat, inte bara plausibla svar. Det är en kvalitativ skillnad som ofta drunknar i hype.

På säkerhetssidan finns en påminnelse som är värd att ta på allvar om man bygger agentsystem med externt minne. Forskare visade att det räcker att plantera vilseledande information i en agents minneslagring för att styra dess framtida svar, även när frågorna i sig är helt korrekta. Attackytan är alltså inte bara prompten, utan allt systemet redan har lärt sig om dig eller din kontext.

För den som bygger med agenter just nu är kombinationen av FARS-resultaten och minnessårbarheten en användbar dubbelläsning: AI-forskningssystem skalas, men kvalitetskontroll och minnessäkerhet är fortfarande olösta problem med produktionsrelevans.

Källor:arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · LangChain Blog · arXiv cs.AI · arXiv cs.AI

Anthropic bygger Claude Science – vill göra för forskning vad Claude Code gjort för kod

Anthropic presenterade Claude Science på ett slutet event för läkemedels- och bioteknikbranschen, och pitchen är bekant för alla som följt Claude Code: ge modellen en kortfattad instruktion, och låt den sköta resten självständigt. Skillnaden är att "resten" nu inkluderar databaser, beräkningspipelines och GPU-tunga analyser snarare än pull requests.

NVIDIAs BioNeMo Agent Toolkit är inbyggt från dag ett, vilket betyder att hela stacken, från hårdvara till modell, paketeras ihop för laboratorieforskning. Det är inte ett slumpmässigt partnerskap. NVIDIA har byggt GPU-accelererade ramverk för life sciences i över ett decennium, och att baka in det direkt i arbetsytan snarare än att låta forskare sätta ihop pusslet själva är precis vad som skiljer ett verktyg från ett arbetsflöde.

Anthropics strategi är tydlig: konkurrensen på modellnivå hårdnar, så värdet ska skapas i workflow-lagret. Claude Science är inte en ny modell, det är en ny inramning av hur AI används i praktiken. Det är samma logik som drev Claude Code från "bra kodassistent" till ett verktyg folk faktiskt lämnar igång över natten.

Samtidigt lanseras Claude Sonnet 5, positionerad som ett billigare alternativ för agentdriven automatisering. Prispress är nu ett lika tydligt konkurrensmedel som benchmarks, och Sonnet 5 verkar vara optimerad för volymen av anrop som uppstår när AI:n driver hela arbetsflöden snarare än enstaka frågor.

Vad är faktiskt nytt här? Inte att AI kan hjälpa forskare, det har laboratorier experimenterat med länge. Det nya är att Anthropic sätter ihop infrastrukturen, partnerskapen och prissättningen i ett paket riktat mot en bransch med konkreta, mätbara arbetsflöden. Medicinsk bildanalys är fortfarande svårt, HealthAgentBench visar att bästa agenten klarar 42 procent av sjukvårdsuppgifterna, men forskningstungt arbete som att bygga modeller från patientdata ser mer lovande ut. Det är förmodligen inte en slump att det är just den typen av uppgifter Claude Science siktar mot.

Källor:arXiv cs.AI · arXiv cs.AI · MIT Technology Review · Simon Willison · TechCrunch AI · arXiv cs.AI · arXiv cs.AI · arXiv cs.AI · NVIDIA AI Blog · TechCrunch AI · TechCrunch AI · arXiv cs.AI · Dagens Industri · MIT Technology Review · Dagens Industri

Fransk miljardkapital till Lidköping – Airon bygger europeisk beräkningskraft

Det är inte ofta Lidköping dyker upp i diskussioner om europeisk AI-infrastruktur, men här är vi. Svenska Airon har säkrat en investering på flera miljarder kronor från en fransk infrastrukturfond, med pengarna öronmärkta för två datacenter i den västgötska staden.

Valet av en infrastrukturfond som partner är det intressanta beslutet att titta på. Vd Robert Lidberg är tydlig med att kapitalet täcker den här fasen, men att fler sajter kräver mer pengar. Infrastrukturfonder söker stabila, långa kassaflöden, precis vad ett välbelagt datacenter genererar. Det är en annan typ av ägare än en VC, och signalerar att Airon bygger för driftsintäkter snarare än en exit om tre år.

Timing-mässigt är det svårt att missa kontexten. Europa har pratat länge om digital suveränitet och kontroll över kritisk infrastruktur. Nu börjar pengarna faktiskt röra sig i den riktningen, delvis för att AI-träning och inferens är extremt beräkningstunga och efterfrågan på kapacitet utanför amerikanska hyperscalers faktiskt finns.

Frankrike som kapitalkälla är också värt att notera. Landet har drivit en aktiv strategi för att investera i europeisk tech-infrastruktur, och en infrastrukturfond med franskt kapital som flödar norrut till svenska datacenter passar den berättelsen.

För den som bygger produkter med tung beräkningsbehov, tränar modeller eller behöver prata om dataresidens med europeiska kunder: utbudet av icke-amerikanska alternativ med seriös kapacitet växer faktiskt. Det är inte längre bara en politisk önskelista.

Källor:Di Digital · Breakit

Högsta domstolen till Trump: Nej, du kan inte avskaffa födelsemedborgarskap med ett dekret

Trump undertecknade ordern redan under sin första dag tillbaka i Vita huset, med titeln "Protecting the Meaning and Value of American Citizenship". Det tog ungefär fem månader för Högsta domstolen att konstatera att ett presidentdekret inte trumfar ett konstitutionellt tillägg som har stått sedan Rekonstruktionstiden.

Resultatet: 6–3. Tre domare ville gå med Trump. Sex ville inte.

Födelsemedborgarskapet är inskrivet i 14:e tillägget, ratificerat 1868 för att garantera medborgarskap åt barn till tidigare slavar. Formuleringen är enkel: den som föds på amerikansk mark och lyder under dess jurisdiktion är amerikansk medborgare. Trump argumenterade att "subject to the jurisdiction thereof" lämnar tolkningsutrymme nog för en omdefiniering via dekret. Domstolen håller inte med.

Det intressanta här är inte utfallet i sig, det var ganska förutsebart för konstitutionsrättsjurister, utan hastigheten och taktiken. Att underteckna ett dekret som direkt utmanar ett konstitutionellt tillägg under dag ett signalerar antingen att man faktiskt trodde det kunde fungera, eller att man ville ha kampen mer än resultatet. Ingen av de tolkningarna är särskilt betryggande.

För alla som följer hur administrationen testar gränserna för exekutiv makt: det här är nu ytterligare ett prejudikat i rad som etablerar att verkställighetsordrar inte kan skriva om konstitutionen. Domstolen, trots att tre av dess konservativa ledamöter utsågs under Trumps första period, höll linjen.

Trump har inte kommenterat beslutet på ett sätt som antyder att han accepterar det som slutgiltigt.

Källor:Dagens Industri · The Verge AI

Dagens siffra

42%

Så stor andel av sjukvårdsuppgifter som det bästa AI-systemet (Codex GPT-5.5) klarar i det nya testet HealthAgentBench – trots att AI ofta beskrivs som redo för kliniska arbetsflöden.

Källa: arXiv

Snabbkollen

AI-agenter misslyckas med att hjälpa användare förstå vad de faktiskt vill ha

Forskare pekar på ett grundläggande problem med AI-agenter: de utgår från att användaren redan vet vad de vill ha, men i verkligheten behöver folk ofta hjälp att bygga upp sina preferenser från grunden. I ett nytt benchmark-test (CoShop) klarade de fem bästa AI-modellerna inte mer än 56% träffsäkerhet på shoppingrekommendationer efter fem konversationsrundor – inte för att de inte kunde hitta rätt produkter, utan för att de misslyckades med att lära användaren vad den egentligen sökte.

Källor: arXiv cs.AI

Meituan tränar biljonparametersmodell helt på kinesiska chip

Kinesiska matleveransjätten Meituan har lanserat LongCat-2.0, en språkmodell med en biljon parametrar som tränats på 50 000 kinesisktillverkade AI-chip – utan ett enda amerikanskt. Det är intressant just nu eftersom USA:s exportrestriktioner tvingat fram just den här typen av inhemsk teknikutveckling, och det verkar fungera: bolaget hävdar att modellen matchar GPT-5.5 och Claude Opus i vissa kodningstester, dock utan oberoende verifiering. Modellen släpps som öppen källkod och klarar upp till en miljon tokens i kontext (hur mycket text den kan hantera på en gång).

Källor: Computer Sweden

Nytt träningsramverk lär AI-agenter att återhämta sig efter misstag

Forskare presenterar ReGRPO, ett ramverk som tränar AI-agenter att reflektera över sina egna fel och korrigera sig – istället för att bara lära sig av lyckade exempel. Kärnan är så kallade 'Reflection-of-Thought'-triplets som kategoriserar feltyp, bevis och åtgärdsplan, vilket ger agenten mer nyanserad återkoppling än traditionell förstärkningsinlärning (RL) brukar erbjuda. På benchmarken GTA och GAIA slår metoden befintliga öppna modeller – det intressanta är att felfunktion och återhämtning äntligen behandlas som förstklassiga träningssignaler.

Källor: arXiv cs.AI

ScarfBench: Nytt verktyg för att testa AI-agenter inom Java-migrering

Hugging Face har lanserat ScarfBench, ett benchmark (ett standardiserat test för att mäta prestanda) som utvärderar hur väl AI-agenter klarar av att migrera äldre Java-ramverk i företagsmiljöer. Det intressanta här är att just kodmigrering i stora kodbaser är ett av de mer realistiska och värdefulla användningsområdena för AI-agenter – långt ifrån de enklare demoscenarier de ofta testas på.

Källor: Hugging Face Blog

Tre sätt att förbättra AI-agenters synförmåga med syntetisk träningsdata

NVIDIA beskriver hur man kan träna upp visuella AI-agenter – system som tolkar videoflöden från exempelvis fabriksgolv – genom att använda syntetiskt genererad data från deras Omniverse-plattform istället för att samla in dyr verklig data. Tre konkreta arbetsflöden presenteras för att finjustera modellernas träffsäkerhet. Det intressanta här är att behovet av syntetisk data speglar en bredare utmaning i branschen: verklig märkt träningsdata är dyrt och svårt att skala.

Källor: NVIDIA AI Blog

Cursor lanserar mobilapp för AI-kodning

Cursor, ett av de mest använda AI-kodningsverktygen, släpper nu en iOS-app i publik beta för betalande användare. Via appen kan du starta och övervaka kodningsagenter, ge instruktioner via röst eller text, och godkänna pull requests – allt från mobilen. Praktiskt för den som vill hålla koll på en pågående kodningsprocess utan att sitta vid datorn.

Källor: Computer Sweden

Så använder folk AI-chatbotar – ny data från webbtrafik

OECD har analyserat webbtrafik för att kartlägga hur människor faktiskt använder generativa AI-chatbotar i vardagen – inte bara vad de säger att de gör. Det intressanta här är skillnaden mellan perception och verklighet: webbtrafiken avslöjar användningsmönster som enkätstudier ofta missar.

Källor: OECD AI Observatory

Nytt ramverk för att granska AI-system löpande – utan full insyn

Forskare har utvecklat en metod för att löpande granska om AI-system behandlar olika grupper rättvist, även när granskaren bara kan ställa frågor till modellen utan att se dess inre. Metoden avgör automatiskt när tillräckligt många bevis samlats in för att dra slutsats om regelefterlevnad eller brott. Intressant nog visar resultaten att mer detaljerade svar från modellen hjälper mycket i vissa fall – men knappt alls när modellens beteende ligger nära gränsen för vad som är acceptabelt.

Källor: arXiv cs.AI

NotebookLM kan nu summera dina anteckningar som 60-sekunders TikTok-klipp

Google uppdaterar sin forskningsassistent NotebookLM med en ny funktion som genererar 60-sekunders vertikala AI-videor – samma format som TikTok – baserade på material du laddat upp. Funktionen rullas ut till prenumeranter på Google AI Ultra och Pro, och bygger vidare på NotebookLMs befintliga förmåga att skapa AI-poddar och visuella förklaringar. Det roliga exempelklippet Google visar handlar om Australiens misslyckade krig mot emuer, vilket säger en del om ambitionsnivån.

Källor: The Verge AI

Google lanserar snabbare och billigare bildgenerator

Google uppdaterar sin bildgenerator Nano Banana 2 Lite för att göra den snabbare och mer kostnadseffektiv för användare som skapar AI-genererat innehåll. Artikeln ger inga specifika siffror kring hastighets- eller prisförbättringar, vilket gör det svårt att bedöma hur stor skillnaden faktiskt är.

Källor: TechCrunch AI

Ny attack visar varför AI-styrda webbläsare är en riskabel idé

Forskare har hittat ett sätt att lura AI-webbläsare att följa förbjudna instruktioner – det räcker med att övertyga språkmodellen om att 2 + 2 = 5 för att bryta ner dess säkerhetsspärrar. Attacken är ett så kallat prompt injection-angrepp (där skadliga instruktioner smugglas in i text som AI:n läser) och understryker hur skört det är att låta en AI agera autonomt i webbläsaren på dina vägnar.

Källor: Ars Technica

Nvidia-utmanaren Etched värderas till 50 miljarder kronor med miljarder i bokade ordrar

Etched, ett bolag som tillverkar specialiserade AI-chips (processorer optimerade enbart för inferens – alltså när AI-modeller används, inte tränas), uppger att de redan har kontrakt på en miljard dollar i försäljning. Värderingen landade på 5 miljarder dollar, vilket signalerar att marknaden börjar ta Nvidias utmanare på allvar.

Källor: TechCrunch AI

Anthropic återlanserar AI-modellen Claude Fable 5 efter exportkontrollstopp

Anthropic får grönt ljus att ta tillbaka sin konsumentmodell Claude Fable 5 online, efter att USA:s handelsdepartement lyft exportkontrollerna som tvingade bolaget att stänga ner modellen i början av juni. Återlanseringen börjar imorgon – en lösning som kom fram efter flera veckors förhandlingar med Trump-administrationen.

Källor: The Verge AI

NVIDIA hävdar lägst kostnad per token med sin mjukvarustapel för AI-inferens

NVIDIA argumenterar för att deras samlade mjukvarustapel – optimerad ihop med deras egna GPU:er, CPU:er och nätverk – ger lägst kostnad per token (alltså priset för varje textenhet som en AI-modell genererar). I takt med att fler företag går från AI-pilotprojekt till storskalig produktion har just detta mått, kostnad per token, blivit den viktigaste faktorn snarare än råprestanda. Det är i praktiken en marknadsföringspjäs från NVIDIA, men den speglar en verklig branschförändring: köpbesluten handlar nu om driftekonomi, inte chipspecar.

Källor: NVIDIA AI Blog

Lokal AI tar mark – utan molnet

Ahmad Osman, efter två workshop-sessioner på AIEWF, argumenterar för att lokal AI (modeller som körs direkt på din laptop eller telefon, utan molnanslutning) utvecklas snabbare än många tror. Från konsumentenheterna till företagsinfrastruktur börjar balansen tippa – vilket kan förändra hur organisationer tänker kring dataintegritet och kostnader.

Källor: Latent Space

Tidal stänger av intäkter för helt AI-genererad musik

Musikstreamingtjänsten Tidal inför från 15 juli 2026 regler som innebär att musik som bedöms vara 100 procent AI-genererad inte längre får tjäna royalties eller säljas på plattformen. Låtarna får dessutom en särskild AI-symbol, och spår som utger sig för att vara skapade av riktiga artister tas bort automatiskt. Det är ett tydligt ställningstagande i en bransch där gränsen mellan mänsklig och maskinell kreativitet blivit allt svårare att dra.

Källor: Computer Sweden

Grundarbråk skakar AI-enhörningen Librar

Svenska AI-bolaget Librar, som värderades till 1,1 miljarder kronor bara månader efter starten, befinner sig i turbulens efter att grundaren Jonathan Görtz lämnat både vd-rollen och bolaget. Avgången kom strax efter att Niklas Adalberths Norrsken investerade 40 miljoner kronor – och Görtz själv förklarar det med 'olika visioner för vad bolaget skulle bli', vilket sällan är ett gott tecken.

Källor: Breakit

Tendavo tar in 10 miljoner för AI-driven upphandlingshjälp

Stockholmsbolaget Tendavo använder AI för att skriva anbud åt företag i offentliga upphandlingar, och tar nu in sina första externa pengar – 10 miljoner kronor. Det är en rätt smal nisch, men offentlig upphandling är notoriskt tidskrävande och regelkrånglig, så behovet är reellt.

Källor: Breakit

NVIDIA-ingenjören som bygger infrastrukturen bakom moderna robotar

Jaiveer Singh leder teamet på NVIDIA som utvecklar mjukvaruverktygen som gör det möjligt för robotar att faktiskt fungera utanför demonstrationsgolvet – tänk kameravyer, hårdvarugränssnitt och de lager av kod som sällan syns men alltid krävs. Det intressanta här är inte roboten i sig, utan att det stora jobbet just nu handlar om att bygga plattformar som snabbar upp andra utvecklare.

Källor: NVIDIA AI Blog

Vad tyckte du om dagens digest?

AI:n som inte klarar jobbet – än

AI producerade 166 forskningsartiklar — och avslöjade sina egna svagheter

Anthropic bygger Claude Science – vill göra för forskning vad Claude Code gjort för kod

Fransk miljardkapital till Lidköping – Airon bygger europeisk beräkningskraft

Högsta domstolen till Trump: Nej, du kan inte avskaffa födelsemedborgarskap med ett dekret

Dagens siffra

Snabbkollen

Färskbryggt AI varje morgon