Google представи Gemini Omni – нов AI модел за създаване и редакция на видео
Google представи Gemini Omni – ново поколение мултимодален AI модел, който комбинира способността на Gemini да разсъждава с възможности за създаване на съдържание. Първият модел от семейството е Gemini Omni Flash, като първоначалният акцент е върху генерирането и редактирането на видео.
Според Google Gemini Omni може да работи с различни типове входни данни, включително изображения, аудио, видео и текст, за да създава видеа, базирани на контекст и знания за реалния свят. Компанията позиционира модела като следваща стъпка след развитието на Gemini в областта на изображението и редакцията, като сега фокусът се премества към по-сложни визуални сцени и видеоразказ.
Една от основните функции е редакцията чрез естествен език. Потребителят може да подава последователни инструкции, а моделът да запазва контекста на сцената, героите, движението и стила. Това означава, че едно видео може да бъде променяно поетапно – например чрез добавяне на ефекти, промяна на обекти, трансформиране на средата или преработване на конкретно действие, без процесът да започва отначало.
Google акцентира и върху способността на Gemini Omni да създава по-реалистични сцени чрез по-добро разбиране на физика, движение, гравитация, кинетична енергия и флуидна динамика. Компанията дава примери с генериране на сцени с движещи се обекти, визуални обяснения и кратки образователни клипове, включително такива, които представят сложни теми в по-достъпен визуален формат.
Gemini Omni ще може да използва и референтни материали. Потребителите ще могат да комбинират текст, изображения, видео и аудио, за да създават единен резултат с определен стил, движение или ефект. В началото аудио референциите ще са ограничени основно до глас, като Google посочва, че други типове аудио вход ще бъдат добавени по-късно.
Компанията представя и възможност за създаване на видеа с личен дигитален аватар. Функцията Avatars ще позволява генериране на съдържание, което изглежда и звучи като самия потребител, но Google подчертава, че работи по този тип инструменти с допълнителен фокус върху безопасността и отговорното използване. Отделно, всички видеа, създадени с Omni, ще включват невидим SynthID дигитален воден знак, който ще може да се проверява през Gemini приложението, Gemini в Chrome и Google Search.
Gemini Omni Flash вече започва да достига до абонатите на Google AI Plus, Pro и Ultra в световен мащаб чрез Gemini приложението и Google Flow. Моделът ще бъде наличен и без допълнително заплащане за потребителите на YouTube Shorts и YouTube Create App от тази седмица. За разработчици и корпоративни клиенти достъпът през API се очаква през следващите седмици.
Премиерата идва в момент, в който големите технологични компании ускоряват развитието на генеративното видео. С Gemini Omni Google не просто добавя още един инструмент за създаване на клипове, а се опитва да обедини редакция, контекст, последователни инструкции и мултимодални входове в един по-цялостен творчески процес.
