Forskare upptäcker att vissa lager i AI-modeller försämrar prestandan

arXiv cs.AI

Forskare har visat att vissa lager i förtränade vision-språkmodeller faktiskt försämrar prestandan för nedströmsuppgifter, och att selektiv avstängning av dessa lager kan förbättra resultaten med upp till 16,6% på Qwen-VL-modellen. De introducerar TaLo, en träningsfri metod som dynamiskt identifierar och kringgår störande lager vid testtid.

Djupdykning

Forskare har upptäckt att vissa lager i förtränade vision-språkmodeller (VLM) faktiskt försämrar prestandan på specifika uppgifter, vilket utmanar den traditionella synen att alla lager bidrar positivt. Genom systematiska experiment där de "stänger av" enskilda lager visar studien att det finns uppgiftsspecifika störande lager som kan identifieras och förbigås för att förbättra modellens prestanda. Den mest praktiska upptäckten är metoden TaLo som automatiskt identifierar och hoppar över de mest störande lagren för varje uppgift utan att behöva träna om modellen, vilket resulterade i upp till 16,6% förbättring på vissa benchmarks. Detta avslöjar en oanad modularitet i stora språkmodeller och erbjuder ett enkelt sätt att optimera prestanda utan kostsamma omträningar. Forskningen öppnar nya möjligheter för att förstå och förbättra AI-modellers interna arkitektur på ett resurssmart sätt. Nyckelinsikt: Upptäckten att vissa lager i AI-modeller aktivt motverkar prestanda visar att "mer är inte alltid bättre" och att selektiv aktivering kan låsa upp dolda kapaciteter utan extra träning.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 35 av 94 ▶