Ny tokeniseringsmetod förbättrar AI-modeller för brusiga dataset
Forskare har utvecklat QA-Token, en kvalitetsmedveten tokeniseringsmetod som förbättrar AI-modellers prestanda på brusiga verkliga data. Metoden visade 6,7 procentenheter förbättring inom genomik och 30% förbättring av Sharpe-kvoten inom finans. Vid storskalig träning på 1,7 biljoner baspar uppnådde metoden 94,53 MCC i patogendetektering samtidigt som antalet tokens minskade med 15%.
Djupdykning
Forskare från flera institutioner har utvecklat QA-Token, en ny metod för tokenisering som tar hänsyn till datakvalitet vid bearbetning av verkliga, brusiga dataset för träning av stora AI-modeller. Traditionella tokeniseringsmetoder som BPE (Byte Pair Encoding) behandlar all data lika, vilket begränsar prestandan när modeller tränas på data av varierande kvalitet från verkliga källor som genomsekvenser eller finansiella tidsserier. Den nya metoden använder förstärkningsinlärning och bilevel-optimering för att samtidigt optimera vokabulärens konstruktion och modellens slutprestanda, vilket resulterar i betydande förbättringar inom flera domäner. Inom genomik uppnåddes 6,7 procentenheter bättre F1-score för variant-identifiering, medan finansiella modeller visade 30% förbättring av Sharpe-kvoten jämfört med standardmetoder. Detta är särskilt viktigt eftersom allt mer AI-utveckling bygger på verkliga, operfekta dataset snarare än curerade forskningsdataset, och metoden kan hantera enorma datamängder - från petabaser genomdata till terabytes finansiell data - utan att påverka inferenshastigheten. Genombrott som detta möjliggör träning av mer robusta foundation models som kan prestera bättre i verkliga tillämpningar där data naturligt innehåller brus och kvalitetsvariationer. Nyckelinsikt: QA-Token visar hur kvalitetsmedveten tokenisering kan låsa upp värdet i stora, brusiga dataset för AI-träning utan att påverka modellernas körhastighet.