Stora AI-modeller missar de viktigaste kliniska besluten
arXiv cs.AI
Forskare testade GPT, Claude och Gemini på fem svåra medicinska scenarion skrivna av läkare – och fann ett oroande mönster: modellerna klarar de enkla, lågriskfrågor bra (80–90% rätt) men misslyckas med de kritiska besluten som faktiskt spelar roll, där träffbilden bara är 32–42%. Hela 52% av de mest kritiska kriterierna klarades av ingen enda modell, vilket antyder att AI-assistenter i vården kan ge en falsk känsla av trygghet.