Patronus AI samlar in 500 miljoner kronor för att stresstesta AI-agenter Patronus AI, grundat av tidigare Meta-forskare, har tagit in 50 miljoner dollar för att bygga simulerade testmiljöer där AI-agenter utsätts för verkliga scenarion innan de driftsätts. Tanken är enkel men viktig: innan en AI-agent släpps lös i skarp miljö bör den testas ordentligt – något som visat sig vara ett hett område just nu, enligt bolagets investerare.
Nytt ramverk för att tolka vad AI-system egentligen 'tror' och 'vill' Forskare föreslår ett filosofiskt ramverk för att avgöra om verktyg inom mekanistisk interpretabilitet (tekniker som försöker läsa av vad som händer inuti en AI-modell) faktiskt mäter det de påstår sig mäta – nämligen en modells mål och övertygelser. Poängen är att man inte kan mäta tro och önskan separat, de hänger ihop och måste tolkas som ett helt system. Det är relevant för AI-säkerhet: utan en sådan grund är det svårt att veta om vi verkligen förstår – eller kan lita på – ett systems beteende.
Hur bra är vi egentligen på att testa multimodala AI-modeller? Forskare pekar på ett växande glapp: multimodala AI-modeller (som kan hantera text, bild, ljud och video samtidigt) utvecklas snabbare än verktygen för att utvärdera dem. De flesta befintliga tester mäter uppgifter isolerat och missar om modellen faktiskt förstår hur modaliteterna hänger ihop – exempelvis rumslig och tidsmässig sammanhang eller fysisk världsförståelse. Det är lite som att bedöma en tolks förmåga genom att bara testa varje språk separat, aldrig i faktisk konversation.
Nytt ramverk vill göra medicinsk AI ansvarsfull över tid Forskare föreslår 'Clinical Harness', en arkitektur för att registrera, styra och övervaka AI-förmågor inom sjukvården – istället för dagens isolerade modeller som saknar kontinuitet. Tanken är att AI-verktyg ska kunna följas och regleras under hela patientens vårdprocess, med osteoporos som konkret exempel. Det är i grunden ett styrningsproblem snarare än ett tekniskt: vem är ansvarig när AI:n fattar kliniska beslut över tid?
OpenAIs kodverktyg används dramatiskt mer internt OpenAI rapporterar att den interna användningen av Codex – deras AI-verktyg för kodgenerering – har exploderat sedan november 2025: forskarteamet genererar 56 gånger mer output, kundsupport 32 gånger mer, och ingenjörerna 27 gånger mer. Det intressanta här är inte bara siffrorna utan vad de antyder – att AI-assisterade arbetsflöden faktiskt har förändrat hur folk jobber på riktigt, inte bara i demos.
Kör en vLLM-server på Hugging Face med ett enda kommando Hugging Face har lanserat stöd för att köra vLLM (ett verktyg för att snabbt servera AI-modeller) direkt via deras HF Jobs-tjänst – med ett enda terminalkommando. Det gör det betydligt enklare att sätta upp en egen inferensserver (alltså en server som svarar på AI-förfrågningar) utan att behöva hantera komplex infrastruktur. Smidigt för utvecklare som vill testa eller driftsätta öppna modeller utan krångel.
Vem bär ansvaret när AI gör fel? Simon Willison dyker ner i frågan om juridiskt ansvar när AI-system orsakar skada – ett område som fortfarande saknar tydliga svar. Kärnfrågan är om ansvaret ska ligga hos utvecklarna, företagen som driftsätter modellerna, eller slutanvändarna, och hur befintlig lagstiftning överhuvudtaget passar på teknik som ingen riktigt förutsåg.
Anthropic anklagar Alibaba för massiv AI-kopiering via 25 000 fejkkonton Anthropic hävdar i ett brev till den amerikanska senaten att Alibaba genomfört den hittills största kända destilleringsattacken (där en svagare AI tränas på svar från en starkare för att kopiera dess förmågor) mot företaget. Mellan april och juni ska operatörer kopplade till Alibaba ha gjort hela 28,8 miljoner interaktioner med Anthropics modeller via cirka 25 000 bedrägliga konton. Alibaba har inte kommenterat anklagelserna.
Läkare vill ha bromsarna på när AI skriver ut recept Amerikansk lagstiftning (H.R. 238) och en pilotprojekt i Utah börjar ge AI rätt att självständigt skriva ut mediciner – men en enkät med 136 förskrivande läkare visar att de inte accepterar det utan tydliga säkerhetsventiler. Läkarna krävde att systemet ska kunna kommunicera sin egen osäkerhet (om den beror på kunskapsluckor hos modellen eller på genuint medicinskt svåra fall) och eskalera till en människa när trösklarna överskrids. Slutsatsen är lite ironisk: ett AI-system som uppfyller dessa krav skulle i praktiken fungera som ett välövervakat beslutsstöd snarare än en autonom agent.
Speldata som träningsläger för AI-agenter: startup säkrar 320 miljoner dollar General Intuition har tagit in 320 miljoner dollar på en ovanlig idé: att träna AI på miljontals timmar av speldata från spel som Fortnite, i hopp om att det ska ge AI mer intuitivt beslutsfattande. Tanken är att spelarnas snabba, situationsanpassade val är ett bättre råmaterial än traditionella dataset – ungefär som att låta AI:n lära sig av mänsklig reflex snarare än mänsklig logik.
Startup satsar på att träna AI-agenter med miljontals timmars gameplay General Intuition har tagit in 320 miljoner dollar för att träna AI på speldata – tanken är att det enorma flödet av beslutsfattande i actionspel kan lära AI att reagera mer intuitivt, ungefär som människor gör. Det är ett intressant experiment: spel erbjuder täta, väldefinierade feedback-loopar som traditionella träningsdata sällan matchar.
LangChain juni 2026: nya verktyg för AI-agenter och felsökning LangChain har uppdaterat sin plattform LangSmith med bland annat en 'on-call copilot' för att sortera systemlarm automatiskt samt röstbaserad felsökning av AI-agenter (program som självständigt utför uppgifter). Uppdateringen inkluderar även så kallade Deep Agents Rubrics – ett ramverk för att utvärdera hur väl agenter presterar – plus stöd för att programmatiskt skapa underagenter. Det är i grunden en verktygslådeuppdatering för utvecklare som bygger agentbaserade system, men röstfelsökning och larmhantering pekar på att LangChain siktar mot mer driftkritisk användning.
Före detta AI-chef på Databricks vill sänka AI:s energiförbrukning med 1 000 gånger Databricks tidigare AI-chef har lanserat Un-0, ett system för bildgenerering som påstås kunna minska AI:s energiåtgång med hela 1 000 gånger jämfört med konventionella metoder. Systemet är det första konkreta beviset på att tekniken faktiskt kan matcha traditionella AI-modeller – och om siffrorna stämmer är det här ett sällsynt fall där energieffektivitet och prestanda går hand i hand.
OpenAIs första egna AI-chip får namnet Jalapeño OpenAI presenterar sitt första egenutvecklade AI-chip, framtaget i samarbete med halvledartillverkaren Broadcom, och det ska heta Jalapeño. Det är ett tydligt steg mot att minska beroendet av Nvidia, som idag dominerar marknaden för AI-träningshårdvara. Namnvalet är lite oväntat – men kanske passande för ett bolag som vill sätta lite hetta i chipbranschen.
Hur AI förändrar arbetsmarknaden En diskussion om AI:s påverkan på arbetsmarknaden med reporter Henrik Ek, Leonard Schreij från juridik-AI-bolaget Legora och chefekonom Susanne Spector på Danske Bank. Artikeln saknar tillräckligt med detaljer för att sammanfatta specifika slutsatser, men ämnet – hur AI-vågen omformar vilka jobb som finns och vad de kräver – är en av de mest omtalade frågorna just nu.
Rapport: Utvecklare klarar sig bättre än väntat i AI-eran Trots att AI pekas ut som orsak till uppsägningar i techbranschen visar en ny rapport från riskkapitalbolaget Signalfire att utvecklare faktiskt håller ställningen. Hos tolv av världens största techbolag stod utvecklare för 55 procent av alla nyanställningar 2025, jämfört med 46 procent 2019 – och rekryteringen av utvecklare minskade bara med 11 procent mot branschsnittet på 25 procent under toppåret 2019. Rapporten bygger på karriärdata från över 80 miljoner företag, så det är inte en liten datamängd.