AI-agenter misslyckas med att hjälpa användare förstå vad de faktiskt vill ha Forskare pekar på ett grundläggande problem med AI-agenter: de utgår från att användaren redan vet vad de vill ha, men i verkligheten behöver folk ofta hjälp att bygga upp sina preferenser från grunden. I ett nytt benchmark-test (CoShop) klarade de fem bästa AI-modellerna inte mer än 56% träffsäkerhet på shoppingrekommendationer efter fem konversationsrundor – inte för att de inte kunde hitta rätt produkter, utan för att de misslyckades med att lära användaren vad den egentligen sökte.
Meituan tränar biljonparametersmodell helt på kinesiska chip Kinesiska matleveransjätten Meituan har lanserat LongCat-2.0, en språkmodell med en biljon parametrar som tränats på 50 000 kinesisktillverkade AI-chip – utan ett enda amerikanskt. Det är intressant just nu eftersom USA:s exportrestriktioner tvingat fram just den här typen av inhemsk teknikutveckling, och det verkar fungera: bolaget hävdar att modellen matchar GPT-5.5 och Claude Opus i vissa kodningstester, dock utan oberoende verifiering. Modellen släpps som öppen källkod och klarar upp till en miljon tokens i kontext (hur mycket text den kan hantera på en gång).
Nytt träningsramverk lär AI-agenter att återhämta sig efter misstag Forskare presenterar ReGRPO, ett ramverk som tränar AI-agenter att reflektera över sina egna fel och korrigera sig – istället för att bara lära sig av lyckade exempel. Kärnan är så kallade 'Reflection-of-Thought'-triplets som kategoriserar feltyp, bevis och åtgärdsplan, vilket ger agenten mer nyanserad återkoppling än traditionell förstärkningsinlärning (RL) brukar erbjuda. På benchmarken GTA och GAIA slår metoden befintliga öppna modeller – det intressanta är att felfunktion och återhämtning äntligen behandlas som förstklassiga träningssignaler.
ScarfBench: Nytt verktyg för att testa AI-agenter inom Java-migrering Hugging Face har lanserat ScarfBench, ett benchmark (ett standardiserat test för att mäta prestanda) som utvärderar hur väl AI-agenter klarar av att migrera äldre Java-ramverk i företagsmiljöer. Det intressanta här är att just kodmigrering i stora kodbaser är ett av de mer realistiska och värdefulla användningsområdena för AI-agenter – långt ifrån de enklare demoscenarier de ofta testas på.
Tre sätt att förbättra AI-agenters synförmåga med syntetisk träningsdata NVIDIA beskriver hur man kan träna upp visuella AI-agenter – system som tolkar videoflöden från exempelvis fabriksgolv – genom att använda syntetiskt genererad data från deras Omniverse-plattform istället för att samla in dyr verklig data. Tre konkreta arbetsflöden presenteras för att finjustera modellernas träffsäkerhet. Det intressanta här är att behovet av syntetisk data speglar en bredare utmaning i branschen: verklig märkt träningsdata är dyrt och svårt att skala.
Cursor lanserar mobilapp för AI-kodning Cursor, ett av de mest använda AI-kodningsverktygen, släpper nu en iOS-app i publik beta för betalande användare. Via appen kan du starta och övervaka kodningsagenter, ge instruktioner via röst eller text, och godkänna pull requests – allt från mobilen. Praktiskt för den som vill hålla koll på en pågående kodningsprocess utan att sitta vid datorn.
Så använder folk AI-chatbotar – ny data från webbtrafik OECD har analyserat webbtrafik för att kartlägga hur människor faktiskt använder generativa AI-chatbotar i vardagen – inte bara vad de säger att de gör. Det intressanta här är skillnaden mellan perception och verklighet: webbtrafiken avslöjar användningsmönster som enkätstudier ofta missar.
Nytt ramverk för att granska AI-system löpande – utan full insyn Forskare har utvecklat en metod för att löpande granska om AI-system behandlar olika grupper rättvist, även när granskaren bara kan ställa frågor till modellen utan att se dess inre. Metoden avgör automatiskt när tillräckligt många bevis samlats in för att dra slutsats om regelefterlevnad eller brott. Intressant nog visar resultaten att mer detaljerade svar från modellen hjälper mycket i vissa fall – men knappt alls när modellens beteende ligger nära gränsen för vad som är acceptabelt.
NotebookLM kan nu summera dina anteckningar som 60-sekunders TikTok-klipp Google uppdaterar sin forskningsassistent NotebookLM med en ny funktion som genererar 60-sekunders vertikala AI-videor – samma format som TikTok – baserade på material du laddat upp. Funktionen rullas ut till prenumeranter på Google AI Ultra och Pro, och bygger vidare på NotebookLMs befintliga förmåga att skapa AI-poddar och visuella förklaringar. Det roliga exempelklippet Google visar handlar om Australiens misslyckade krig mot emuer, vilket säger en del om ambitionsnivån.
Google lanserar snabbare och billigare bildgenerator Google uppdaterar sin bildgenerator Nano Banana 2 Lite för att göra den snabbare och mer kostnadseffektiv för användare som skapar AI-genererat innehåll. Artikeln ger inga specifika siffror kring hastighets- eller prisförbättringar, vilket gör det svårt att bedöma hur stor skillnaden faktiskt är.
Ny attack visar varför AI-styrda webbläsare är en riskabel idé Forskare har hittat ett sätt att lura AI-webbläsare att följa förbjudna instruktioner – det räcker med att övertyga språkmodellen om att 2 + 2 = 5 för att bryta ner dess säkerhetsspärrar. Attacken är ett så kallat prompt injection-angrepp (där skadliga instruktioner smugglas in i text som AI:n läser) och understryker hur skört det är att låta en AI agera autonomt i webbläsaren på dina vägnar.
Anthropic återlanserar AI-modellen Claude Fable 5 efter exportkontrollstopp Anthropic får grönt ljus att ta tillbaka sin konsumentmodell Claude Fable 5 online, efter att USA:s handelsdepartement lyft exportkontrollerna som tvingade bolaget att stänga ner modellen i början av juni. Återlanseringen börjar imorgon – en lösning som kom fram efter flera veckors förhandlingar med Trump-administrationen.
NVIDIA hävdar lägst kostnad per token med sin mjukvarustapel för AI-inferens NVIDIA argumenterar för att deras samlade mjukvarustapel – optimerad ihop med deras egna GPU:er, CPU:er och nätverk – ger lägst kostnad per token (alltså priset för varje textenhet som en AI-modell genererar). I takt med att fler företag går från AI-pilotprojekt till storskalig produktion har just detta mått, kostnad per token, blivit den viktigaste faktorn snarare än råprestanda. Det är i praktiken en marknadsföringspjäs från NVIDIA, men den speglar en verklig branschförändring: köpbesluten handlar nu om driftekonomi, inte chipspecar.
Lokal AI tar mark – utan molnet Ahmad Osman, efter två workshop-sessioner på AIEWF, argumenterar för att lokal AI (modeller som körs direkt på din laptop eller telefon, utan molnanslutning) utvecklas snabbare än många tror. Från konsumentenheterna till företagsinfrastruktur börjar balansen tippa – vilket kan förändra hur organisationer tänker kring dataintegritet och kostnader.
Tidal stänger av intäkter för helt AI-genererad musik Musikstreamingtjänsten Tidal inför från 15 juli 2026 regler som innebär att musik som bedöms vara 100 procent AI-genererad inte längre får tjäna royalties eller säljas på plattformen. Låtarna får dessutom en särskild AI-symbol, och spår som utger sig för att vara skapade av riktiga artister tas bort automatiskt. Det är ett tydligt ställningstagande i en bransch där gränsen mellan mänsklig och maskinell kreativitet blivit allt svårare att dra.
Grundarbråk skakar AI-enhörningen Librar Svenska AI-bolaget Librar, som värderades till 1,1 miljarder kronor bara månader efter starten, befinner sig i turbulens efter att grundaren Jonathan Görtz lämnat både vd-rollen och bolaget. Avgången kom strax efter att Niklas Adalberths Norrsken investerade 40 miljoner kronor – och Görtz själv förklarar det med 'olika visioner för vad bolaget skulle bli', vilket sällan är ett gott tecken.
Tendavo tar in 10 miljoner för AI-driven upphandlingshjälp Stockholmsbolaget Tendavo använder AI för att skriva anbud åt företag i offentliga upphandlingar, och tar nu in sina första externa pengar – 10 miljoner kronor. Det är en rätt smal nisch, men offentlig upphandling är notoriskt tidskrävande och regelkrånglig, så behovet är reellt.
NVIDIA-ingenjören som bygger infrastrukturen bakom moderna robotar Jaiveer Singh leder teamet på NVIDIA som utvecklar mjukvaruverktygen som gör det möjligt för robotar att faktiskt fungera utanför demonstrationsgolvet – tänk kameravyer, hårdvarugränssnitt och de lager av kod som sällan syns men alltid krävs. Det intressanta här är inte roboten i sig, utan att det stora jobbet just nu handlar om att bygga plattformar som snabbar upp andra utvecklare.