Forskare tränar transformer att fungera som universell dator

arXiv cs.AI

Forskare har lyckats träna en liten transformer-modell att köra program i MicroPy, ett förenklat men beräkningsmässigt komplett programmeringsspråk. Modellen lärde sig att exekvera kod steg för steg och kunde efter träning på slumpmässiga program generalisera till riktiga algoritmer som binär addition och SAT-lösning. Resultatet visar att standardtransformers i teorin kan fungera som universella datorer.

Djupdykning

Forskare har lyckats träna en transformer-modell att fungera som en universell dator genom att köra program i MicroPy, ett förenklat men fullständigt programmeringsspråk. Det häpnadsväckande är att modellen lärde sig detta från helt slumpmässiga, meningslösa program – men kunde sedan generalisera till riktiga uppgifter som binär aritmetik och till och med SAT-problemlösning (ett klassiskt datavetenskap-problem där man försöker hitta värden som gör logiska uttryck sanna). Det här visar att transformers inte bara är språkmodeller som memorerar mönster, utan faktiskt kan utveckla något som liknar genuine beräkningsförmågor. Eftersom MicroPy är "Turing-komplett" – det vill säga kan uttrycka vilken beräkning som helst – betyder resultaten att en standard transformer i teorin kan lära sig att utföra alla möjliga beräkningar. Istället för att bygga specialiserade AI-system för olika uppgifter kanske vi bara behöver träna större transformers på rätt sätt. Det är som att upptäcka att din smartphone inte bara kan ringa – den kan faktiskt bli vilken maskin som helst om man bara programmerar den rätt.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 1 av 18 ▶