Medicinsk AI-modeller testade för ögonsjukvård - Meerkat-7B presterade bäst

arXiv cs.AI

Fyra medicinska AI-modeller under 10 miljarder parametrar testades på 180 ögonläkarfrågor från patienter. Meerkat-7B fick högsta betyg av läkare medan MedLLaMA3-v20 hade 25,5 procent felaktigt innehåll. GPT-4-Turbo visade stark överensstämmelse med läkarbedömningar med Spearman-korrelation på 0,80.

Djupdykning

Studien utvärderar fyra specialiserade medicinska språkmodeller för ögonsjukvård och visar på både löften och utmaningar för AI-driven patientrådgivning. Meerkat-7B presterade bäst medan MedLLaMA3-v20 hade allvarliga problem med hallucinationer och felaktig medicinsk information i en fjärdedel av svaren. Intressant är att GPT-4-Turbo kunde bedöma svarens kvalitet nästan lika bra som läkare, vilket öppnar för automatiserad kvalitetskontroll av AI-medicinska system. Detta är särskilt relevant eftersom mindre modeller (under 10 miljarder parametrar) kan köras mer kostnadseffektivt i sjukvårdsmiljöer. Studien understryker att även om AI-verktyg kan vara användbara för grundläggande patientinformation, krävs fortsatt noggrann övervakning och hybridlösningar där både AI och läkare deltar i kvalitetssäkringen. Nyckelinsikt: Medicinska AI-modeller visar potential för patientrådgivning men kräver fortfarande strikta säkerhetskontroller för att undvika farliga felaktigheter.