Forskare visar att transformers egentligen är bayesianska nätverk

arXiv cs.AI

Ny forskning bevisar matematiskt att transformer-arkitekturen (grunden för ChatGPT och liknande modeller) faktiskt implementerar bayesiansk sannolikhetsberäkning. Studien visar att varje lager i en transformer motsvarar en runda av 'belief propagation' och förklarar varför hallucineringar är strukturella problem som inte går att lösa enbart genom skalning.

Djupdykning

Forskare har just knäckt en av AI:s största gåtor genom att bevisa att transformers – arkitekturen bakom ChatGPT och andra språkmodeller – i själva verket är Bayesianska nätverk i förklädnad. Detta är enormt eftersom det förklarar varför transformers fungerar så bra: varje lager utför en runda av "belief propagation", en klassisk algoritm för att uppdatera sannolikheter baserat på ny information. Upptäckten visar också att attention-mekanismen fungerar som AND-operationer medan feed-forward-nätverken agerar som OR-operationer, vilket skapar en perfekt struktur för probabilistisk resonering. Mest intressant är kanske slutsatsen att "hallucineringar" inte är något som kan fixas med större modeller – de är en strukturell konsekvens av att operera utan definierade koncept, vilket betyder att AI-system fundamentalt behöver förankring i verkligheten för att vara pålitliga. Nyckelinsikt: Transformers är inte mystiska svarta lådor utan implementerar klassisk probabilistisk resonering, vilket både förklarar deras styrkor och avslöjar grundläggande begränsningar som inte kan lösas enbart genom skalning.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 1 av 15 ▶