Google DeepMind lanserar Gemma 4 12B - en multimodal AI-modell

Google DeepMind

Google DeepMind har släppt Gemma 4 12B, en AI-modell med 12 miljarder parametrar som kan hantera både text och bilder utan separata encoder-komponenter. Modellen är del av Gemma-familjen och använder en förenklad arkitektur som gör den mer effektiv att träna och köra.

Djupdykning

Google släpper nu Gemma 4 12B, en ny AI-modell som kan hantera både text och bilder utan de separata "encoder"-komponenter som vanligtvis behövs för att omvandla bilder till data som språkmodeller förstår. Det låter tekniskt, men det verkliga genomslaget ligger i att modellen är kompakt nog att köras lokalt på vanliga datorer medan den fortfarande presterar på nivå med mycket större modeller. Det som de flesta missar är att detta inte bara handlar om bättre prestanda per parameter - det handlar om att demokratisera multimodal AI. När företag kan köra sofistikerade bild-och-text-modeller på egen hårdvara istället för att betala per API-anrop till molntjänster, förändras ekonomin för AI-integration helt. Samtidigt visar Googles timing att de försöker etablera en mobil ekosystem-strategi likt Android - ge bort grundtekniken gratis för att dominera standarderna. Den enhetliga arkitekturen betyder också att modellen kan tränas mer effektivt och utvecklas snabbare än system med separata komponenter, vilket kan ge Google ett försprång när AI-modeller blir allt mer integrerade i vardagsapplikationer.