Nytt test mäter AI:s noggrannhet i medicinska röntgenrapporter
Forskare har skapat CT-FineBench, ett test som granskar hur exakta AI-genererade röntgenrapporter verkligen är genom att ställa specifika frågor om diagnostiska detaljer. Tidigare mätmetoder har bara jämfört ordval, men det nya testet korrelerar bättre med läkares bedömningar och är känsligare för faktafel som kan påverka patientvård.
Djupdykning
AI-system som ska generera medicinska rapporter från CT-bilder har länge bedömts med verktyg som fungerar ungefär som att kolla stavning istället för att kontrollera om diagnosen stämmer. Forskare har nu skapat CT-FineBench, ett test som faktiskt kollar om AI:n förstår vad den tittar på – genom att ställa specifika frågor om tumörers storlek, placering och utseende istället för att bara räkna hur många ord som matchar mellan AI:ns rapport och läkarens. Det är skillnaden mellan att fråga "nämnde du njurarna?" och "hur stor är cystan på vänster njure och har den oregelbundna kanter?" Benchmarken bygger på att förvandla läkarrapporter till frågor och svar, vilket låter AI-systemet bli utfrågat som en student på tentamen. När man testade det visade sig att AI-modeller som såg bra ut enligt gamla mått faktiskt hade allvarliga brister i klinisk noggrannhet – de kunde skriva medicinskt klingande text utan att förstå vad de egentligen rapporterade om.