Google släpper DiffusionGemma för bildgenerering

Simon Willison

Google har lanserat DiffusionGemma, en öppen modell som kombinerar text-till-bild-generering med språkmodellen Gemma. Modellen är byggd på diffusionsteknologi (samma teknik som driver Stable Diffusion) och kan både generera bilder från textbeskrivningar och svara på frågor om visuellt innehåll.

Djupdykning

Google släppte precis DiffusionGemma, en ny bildgenereringsmodell som kombinerar deras Gemma-språkmodell med diffusionsteknologi. Det som gör den särskild är att den kan förstå komplexa textbeskrivningar mycket bättre än tidigare modeller - tänk "en katt som spelar schack i regnbågsljus" istället för bara "katt". Medan de flesta fokuserar på att modellen är "öppen källkod", är det verkliga tricket att Google använder sin språkförståelse-expertis för att lösa bildgenereringens största problem: att AI:n faktiskt förstår vad du menar. De flesta bildmodeller översätter text till bilder som en Google Translate - funktionellt men ofta tokigt. DiffusionGemma läser mellan raderna. Det här signalerar att nästa våg av AI-verktyg kommer handla mindre om råa prestanda och mer om subtil förståelse. När alla kan skapa bilder kommer differentieringen ligga i hur väl AI:n tolkar dina intentioner, inte hur snabbt den renderar pixlar.