Studie avslöjar betydande bias hos AI-modeller i finansiell riskbedömning

arXiv cs.AI

Forskare testade fem stora AI-modeller som bedömare av handlarrisker inom betalningar och fann betydande skillnader i självskattning - GPT-5.1 och Claude 4.5 Sonnet underskattar sina prestationer med 0,33 respektive 0,31 poäng, medan Gemini-2.5 Pro och Grok 4 överskattar med 0,77 och 0,71 poäng. AI-modellerna gav i genomsnitt 0,46 poäng högre betyg än mänskliga experter inom betalningsbranschen.

Djupdykning

Denna forskning visar att stora språkmodeller (LLM:er) som används för att bedöma kreditrisker inom betalningsbranschen uppvisar systematiska bias och varierande tillförlitlighet, vilket är kritiskt för finansiella institutioner. Studien avslöjar att olika AI-modeller som GPT, Claude, Gemini och Grok bedömer samma handlarrisker mycket olika - där vissa modeller (GPT och Claude) underskattar risker medan andra (Gemini och Grok) överskattar dem. När modellerna får anonymiserade data minskar dessa bias med över 25 procent, vilket tyder på att AI-system kan påverkas av irrelevanta faktorer som modellnamn eller ursprung. För svenska fintech-företag och banker som överväger att implementera AI-driven riskbedömning innebär detta att man måste utveckla robusta kontrollsystem och använda flera modeller parallellt för att undvika kostsamma felbedömningar. Nyckelinsikt: AI-modeller för finansiell riskbedömning kräver aktiv bias-övervakning och multi-modell-validering för att säkerställa tillförlitliga beslut i verkliga betalningsflöden.