Ny benchmark testar om AI-agenter kan designa sina egna förstärkningsinlärningspipelines Forskare har lanserat Agent²RL-Bench, ett test som mäter om stora språkmodeller kan bygga kompletta RL-system (reinforcement learning) för att förbättra AI-modeller. Resultaten visar stora skillnader mellan uppgifter - på ALFWorld förbättrades prestandan från 6% till 93%, medan andra uppgifter knappt påverkades alls. Det här är intressant eftersom det visar att AI-agenter ännu inte är redo att ersätta mänskliga ML-ingenjörer i alla sammanhang.
MEMENTO lär AI-modeller att komprimera sitt eget minne Forskare har utvecklat MEMENTO, en teknik som lär stora språkmodeller att komprimera sina egna tankeprocesser till korta sammanfattningar istället för att komma ihåg allt. Metoden minskar minneskraven med 2,5 gånger och ökar hastigheten med 75% samtidigt som modellerna behåller sin noggrannhet på matematik och kodning.
Anthropic släpper Claude-tillägg för Microsoft Word Anthropic lanserar nu en betaversion av Claude för Microsoft Word efter tidigare släpp för Excel och PowerPoint i februari. Tillägget låter användare ställa frågor om dokument, skapa sammanfattningar och spåra ändringar – riktat främst mot företagsanvändare som journalister och jurister. Just nu kräver det Claude Team eller Enterprise-prenumeration.
AI-agenter hjälper life science-labb att fatta beslut Life science-labb genererar enorma mängder data från utrustning och miljöövervakning, men har svårt att omvandla signalerna till snabba beslut. Agentiska AI-system kan resonera i sammanhang, prioritera vad som är viktigt och föreslå nästa steg - en förskjutning från reaktiva varningar till operativt beslutsstöd.
Qlucore lanserar AI-baserat test för akut myeloisk leukemi Det svenska företaget Qlucore lanserar ett AI-baserat test som kan klassificera nio olika molekylära subtyper av akut myeloisk leukemi från en enda sekvensering. Testet kan också upptäcka över 38 genfusioner och mäta MECOM-genuttryck, vilket tidigare krävde flera separata analyser – något som kan förbättra både hastighet och kostnadseffektivitet för laboratorier.
AI:s blinda fläck i EU-reglering En ny analys från Kommerskollegium visar att EU:s AI-regler missar ett kritiskt område: kollektiva samhällsrisker från lagliga AI-system som formar beteenden och marknader i stor skala. Medan nuvarande regelverk fokuserar på tekniska risker och individuell skada, faller kumulativa effekter från AI-drivna rekommendationer och rankningar utanför regelverket. Detta skapar en regulatorisk blind fläck som påverkar konkurrens och internationell handel.
Stanford-rapport visar växande klyfta mellan AI-experter och allmänheten Stanfords senaste AI Index visar att klyftan växer mellan experter och allmänheten när det gäller AI, där vanliga människor känner allt större oro för jobb, sjukvård och ekonomin. Intressant nog verkar de som arbetar med AI ha en helt annan bild av teknologins påverkan än de som faktiskt kommer att påverkas av den.
AI Integrity: Ett nytt ramverk för verifierbar AI-styrning Forskare föreslår "AI Integrity" som ett nytt sätt att styra AI-system genom att verifiera själva resonemangsprocessen istället för bara slutresultatet. De introducerar ett fyrskiktigt "Authority Stack" som spårar hur AI-system går från värderingar till data, plus mätvärden för att upptäcka när denna process blir korrumperad. Tanken är att göra AI:s beslutsfattande transparent och kontrollerbart, oavsett vilka värderingar systemet har från början.
Första studien visar klimatfotavtrycket av AI-forskning Forskare har för första gången kartlagt den totala miljöpåverkan från att utveckla en AI-modell - från experimentstadium till färdig produkt. När de analyserade skapandet av Moshi (en 7 miljarder parameter språkmodell) upptäckte de att de flesta studier bara rapporterar energiförbrukningen för slutgiltig träning, men missar alla misslyckade experiment och utvecklingsfaser som ofta står för majoriteten av beräkningskraften.
Microsoft utvecklar ytterligare en OpenClaw-liknande agent Microsoft arbetar på en ny AI-agent liknande OpenClaw, som ett tillägg till sina tidigare agenter Cowork och Copilot Tasks som kan utföra uppgifter åt användare. Företaget fortsätter bygga ut sitt utbud av automatiserade AI-assistenter som kan hantera mer komplexa arbetsflöden.
Rezolve Ai lanserar handelsspecialiserade AI-modeller i Microsoft Foundry Rezolve Ai har gjort sina brainpowa™-modeller tillgängliga i Microsoft Foundry, vilket gör dem till en av få leverantörer bredvid OpenAI och Anthropic i plattformen. Modellerna är specialbyggda för e-handel och hjälper företag att skapa 'commerce copilots' som kan identifiera köpintentioner och orkestrera verktygsanrop i realtid på Azure.
AI-användning når 50% bland amerikanska anställda För första gången använder hälften av amerikanska anställda AI på jobbet minst några gånger om året, enligt Gallup. 13% använder AI dagligen och företag som implementerat AI rapporterar mer omorganisering och personalförändringar än andra. Det verkar som AI börjar omforma arbetsplatser, även om genomgripande förändringar i hur arbete utförs fortfarande är begränsade.
Färre än 20% av nordiska företagsledare ser AI öka omsättningen Endast 18% av nordiska företagsledare tror att AI har ökat deras omsättning, visar Deloittes undersökning bland 170 chefer från Sverige, Finland, Danmark och Norge. Däremot menar nästan 80% att AI förbättrat effektiviteten, medan införandet av AI-agenter (autonoma system som kan fatta beslut själva) går långsamt på grund av kompetensbrist.
Oracle integrerar Lucinitys AI-verktyg för finansiell brottslighet Oracle har säkrat rättigheterna till Lucinitys AI-drivna utredningsverktyg för att bekämpa penningtvätt och finansiell brottslighet inom sin compliance-plattform. Integrationen ger banker tillgång till automatiserade utredningsflöden och AI-agenter som kan minska tiden för repetitiva uppgifter medan de förbättrar konsistensen i brottsutredningar.
SHOPLAB lanserar AI-agent för e-handel Svenska SHOPLAB presenterar sin AI Agent som en del av sin e-handelsplattform, tillsammans med kampanjverktyg som påstås öka ROI med 40%. Företaget erbjuder en heltäckande lösning för onlinebutiker med allt från produkthantering till AI-drivna funktioner.