xAI:s Grok Imagine byggdes på bara 3 månader
Ethan He, som ledde utvecklingen av xAI:s bildgenereringsmodell Grok Imagine, berättar hur teamet lyckades bygga modellen på rekordsnabba tre månader. Han diskuterar också varför video-AI-modeller kommer bli nästa stora steg och skillnaden mellan videogenereringsmodeller och världsmodeller (modeller som förstår hur världen fungerar).
Djupdykning
xAI:s Ethan He har lett utvecklingen av Grok Imagine på bara tre månader, vilket visar hur snabbt AI-företag nu kan leverera konkurrensdugliga bildgenereringsmodeller när de väl bestämt sig. Det mest intressanta är dock hans fokus på "video agent models" – AI-system som inte bara genererar videor utan kan agera i dem, förstå sekvenser och fatta beslut baserat på visuell information över tid. Medan alla pratar om ChatGPT och bildgeneratorer missar många att nästa stora språng troligen handlar om AI som förstår och navigerar i visuella miljöer. Video agents skulle kunna revolutionera allt från robotik till speldesign genom att ge AI rumslig intelligens och temporalt minne – förmågan att komma ihåg vad som hänt tidigare i en sekvens. Det som gör Grok Imagine "undervärderat", som He påstår, är förmodligen inte bara bildkvaliteten utan hur xAI positionerar det som en komponent i ett större ekosystem av multimodala agenter.