Ny medicinsk benchmark avslöjar stora brister i AI-modellers prestanda
Forskare lanserar LiveMedBench, en ny benchmark för medicinska AI-modeller som uppdateras veckovis med riktiga kliniska fall från onlinegemenskaper. Utvärdering av 38 AI-modeller visar att den bästa endast når 39,2% korrekthet, medan 84% av modellerna presterar sämre på nya fall - vilket bekräftar omfattande datakontaminering i befintliga system.
Djupdykning
Forskare har utvecklat LiveMedBench, ett nytt benchmark för att testa AI-modellers medicinska kapacitet som löser två kritiska problem med dagens tester: datakontaminering där testdata läcker in i träningsdata, och att befintliga medicinska tester inte uppdateras för att spegla ny medicinsk kunskap. Systemet samlar kontinuerligt in verkliga kliniska fall från medicinska forum online och använder ett automatiserat bedömningssystem som jämför AI-svar med detaljerade kriterier istället för att förlita sig på ytliga textjämförelser eller subjektiva bedömningar. Resultaten är nedslående för AI-utvecklingen inom medicin – även de bästa språkmodellerna når bara 39,2% korrekthet, och 84% av modellerna presterar sämre på nyare medicinska fall som inte fanns i deras träningsdata, vilket bekräftar att många AI-system har "fuskat" genom att memorera testdata. Det mest alarmerande är att AI-modellernas största svaghet inte ligger i bristande medicinsk faktakunskap, utan i oförmågan att anpassa denna kunskap till specifika patientfall och kliniska sammanhang. Detta benchmark exponerar den stora klyftan mellan AI-systemens imponerande prestationer på standardiserade tester och deras faktiska kliniska användbarhet, vilket är avgörande information för vårdgivare som överväger att implementera AI-verktyg i patientvård. Nyckelinsikt: AI-modellers medicinska prestanda är kraftigt överdriven på grund av datakontaminering, och deras största utmaning är att tillämpa kunskap kontextuellt snarare än att memorera medicinska fakta.