Stora AI-modeller missar de viktigaste kliniska besluten

arXiv cs.AI

Forskare testade GPT, Claude och Gemini på fem svåra medicinska scenarion skrivna av läkare – och fann ett oroande mönster: modellerna klarar de enkla, lågriskfrågor bra (80–90% rätt) men misslyckas med de kritiska besluten som faktiskt spelar roll, där träffbilden bara är 32–42%. Hela 52% av de mest kritiska kriterierna klarades av ingen enda modell, vilket antyder att AI-assistenter i vården kan ge en falsk känsla av trygghet.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 2 av 206 ▶