Я создал 25 видео с использованием сервиса Google Veo 3. Вот как это прошло.

Примерно два года назад, когда видео с искусственным интеллектом ‘Уилл Смит ест спагетти’ стало широко популярным, я не был так скептически настроен насчет прогресса в производстве AI-видео, как некоторые. Я ожидал улучшения, но никогда не предполагал, что технология разовьется настолько быстро. В самом деле, всего лишь месяц назад Google выпустил Veo 2 – их второй поколение генератора видео на базе искусственного интеллекта для широкой публики, и уже они представили еще более впечатляющего преемника. После создания более чем 25 видео с помощью этой технологии я уверен, что Google’s Veo 3 представляет собой значительный скачок вперед в области генерации AI-видео, будь то к лучшему или худшему.

"Просто покупай индекс", говорили они. "Это надежно". Здесь мы обсуждаем, почему это не всегда так, и как жить с вечно красным портфелем.

Поверить в рынок

Что такое Вео 3?

Передовая модель Google от текста к видео — это Veo 3. Как и его предшественник, Veo 2, он создаёт высококачественные видеоролики на различные темы и стили, включая подробные взаимодействия объектов и человеческие эмоции. Обе модели фильтруют «неприемлемые запросы и результаты» и маркируют свои видеозаписи скрытым водяным знаком под названием SynthID.

Оригинальная версия Veo 2 была создана в первую очередь для создания тихих видео, напоминающих высококачественные GIF. В отличие от этого, новейшая модель Veo 3 теперь включает собственные аудиовозможности, значительно превосходя предыдущую версию. Модернизированная модель способна генерировать звуковые эффекты, фоновый шум и даже диалог, синхронизированный с содержанием видео.

Хотя в настоящее время Veo 3 создает только короткие видеофрагменты длительностью 8 секунд, интеграция нативных аудио возможностей вызвала волну впечатляющих AI-видео, распространяющихся по всему интернету. Эти видеоролики демонстрируют возможности инструмента и его текущие ограничения. Работа с Veo 3 может быть сложной, но благодаря удобству для пользователей она становится исключительным ресурсом для создателей, готовых инвестировать время в создание реалистичных живых видео. Я не уверен, что мир полностью готов к таким инновациям.

Вео 3 делает создание реалистичных видео слишком легким

Если вы были активны в социальных сетях в последнее время, то наверняка сталкивались с обсуждениями о том, кто бы победил в схватке между ста мужчинами и одной гориллой. Этот вопрос стал популярным среди как обывателей, так и экспертов, которые делятся своими мнениями. Некоторые энтузиасты-видеомейкеры даже моделировали этот гипотетический случай. Мне было интересно узнать, возможно ли для меня, человека с минимальными знаниями по 3D анимации, создать видео о противостоянии ста человек и гориллы.

Это было похоже на указание чатботу Gemiini разработать видео с участием ста мужчин в бою против одного серебряного гориллы.

Вероятно, при ближайшем рассмотрении вы обнаружите несколько ошибок. Например, объекты вроде людей или оружия могут показаться появляющимися или исчезающими хаотично на заднем плане. Или возможно, вам станет ясно, что в этом 8-секундном видео не может быть 100 человек одновременно. Однако если просто небрежно просмотреть это видео на маленьком экране смартфона, будет довольно сложно заметить значительные проблемы с первого взгляда.

Это видео убедительно изображает бурную и стремительную активность, которая могла бы разразиться при столкновении ста человек с одной гориллой. Звук ударов гориллы, создаваемый Veo 3, передавал ощущение подлинности. Несмотря на то что я знал, это было AI-созданное видео, будучи его автором, я сам задавался вопросом о фильме, из которого оно якобы произошло, когда моя мама спросила об этом!

Еще одно видео, которое демонстрирует навыки Veo 3 в моделировании физики животных:

Я попросил Gemini создать видео с быком, вызывающим хаос в магазине, заполненном хрупкой посудой, и оно выглядело довольно убедительно на первый взгляд. При ближайшем рассмотрении можно заметить определенные недочеты, однако издалека действия быка в магазине, разбивание посуды и сопутствующий шум кажутся невероятно реалистичными. Стоит отметить, что большинство магазинов дорогой посуды обычно хорошо организованы, но бывают исключения, когда ситуация может выглядеть такой же хаотичной, как на этом видео.

Видео ‘100 человек против 1 гориллы’ хорошо демонстрирует возможности Veo 3 в обработке людей, но другой пример действительно подчеркивает его способность захватывать тонкости человеческих мимических выражений. Один из наших читателей попросил видео с дебатом британского парламента между двумя участниками, использующими уличный акцент (roadman accent), и я был поражен тем, насколько идеально оно получилось.

В сцене с созданными искусственным интеллектом персонажами человек слева демонстрировал чрезвычайно живые и тонкие жесты, произнеся фразу: ‘Ты знаешь что? «Bluud».’ Реакция персонажа справа, когда он закашлялся рядом с другим мужчиной, выглядела исключительно правдоподобно.

В чем Veo 3 преуспевает — это создание видео с невероятными, но правдоподобными сценариями, например сотни мужчин сражаются с гориллой, бык разрушает фарфоровый магазин или два члена британского парламента спорят на диалекте roadman. Хотя вы никогда не увидите эти события в реальной жизни, теоретически они могут произойти.

В видео, которое не является реальным, вы не найдете увеличенного изображения оживленной колонии муравьев, где муравьи изображаются как сложные роботы, строящие миниатюрные небоскребы из светящихся сахарных кристаллов. Эта тщательно созданная сцена прерывается рукой человека, давящей сверху, и заканчивается крупным планом круглого сахарного кристалла.

А вы никогда не увидите, как астероид врезается в океан водных шариков.

Эти два видео явно демонстрируют поразительную способность Veo 3 убедительно передавать физические взаимодействия даже в странных ситуациях. Для такого человека как я, не являющегося специалистом по 3D-анимации, эти видеоролики кажутся кропотливо созданными опытным профессионалом, хотя на самом деле это не так.

Среди всех видео из моего тестирования наиболее выделяется то, где маскот Google Погода-лягушка появляется из Google Nest Hub на кухне для импровизированного пикника. Меня завораживает способ, которым лягушка всплывает с экрана, быстро раскладывает коврик для пикника и игриво смотрит в камеру. Также меня привлекает то, как сцена переходит к показу всей кухни целиком, и как удивительно Veo 3 запечатлел тень и отражение лягушки на столешнице.

Это видео не безупречно; в нём отсутствует звук, что довольно странно. Кроме того, текст на Nest Hub читается как «Neessht», вместо «Nest», указывая на то, что Veo 3 по-прежнему испытывает трудности с точностью текста в видео. Когда я попросил Veo 3 переделать видео, добавив звук, результат оказался крайне неожиданным: вместо очаровательной лягушки, появляющейся из экрана, кажется, кто-то в костюме лягушки прыгнул через дисплей и начал устраивать пикник на стойке, после чего прозвучало «Привет всем!».

Этот пересмотр указывает на некоторые сохраняющиеся проблемы с согласованностью и своевременным соблюдением в модели Veo 3. В частности, это лишь один из многочисленных примеров, когда Veo 3 не следовал моим указаниям, несмотря на заявления Google об улучшении соответствия запросам. Можно сказать, что я почти рад тому, что Veo 3 не идеальна; поскольку она не всегда делает то, что нужно пользователю, что усложняет её использование злоумышленниками.

Стоит ли нам радоваться тому, что Veo 3 не идеален?

Видео, которые я ранее опубликовал, вместе с множеством высококачественных видео от Veo 3, которые вы могли встретить в интернете, могут привести к мысли о том, что Veo 3 стабильно выдает превосходные результаты. Хотя это и так благодаря его способности делать это без труда, он все еще сталкивается со значительными трудностями при генерации четкого текста и соблюдении заданного запроса.

Например, когда я запросил видео с изображением женщины, парапланерски спускающейся с вершины Эйфелевой башни, система предоставила очень убедительное видео, на котором женщина была показана в непосредственной близости от этой самой башни.

Проще говоря, когда меня попросили сделать видео, где человек вводит команду в Google VEO прямо внутри самой Google VEO, результатом стало видео с неразборчивым текстом на экране компьютера.

Я обнаружил забавную проблему с Veo 3 — он не может распознать и воспроизвести изображение маскота Android, которого называют ‘bugdroid’. Хотя этот робот известен под этим именем, Veo 3 часто создаёт общих роботов с увеличенными глазами или антеннами, напоминающими насекомых. Это не связано с вопросами безопасности бренда, так как при соответствующем указании Veo 3 способен генерировать видео с изображением маскота Android, например, если сказать ему создать ‘зелёного робота-Андроида’.

Как технически продвинутый человек, я рад отметить, что в Veo 3 имеются основные меры безопасности при защите бренда. Например, если запросить создание видео с участием интернет-знаменитости Mr. Beast, система откажет в выполнении задачи. Интересно, что даже если попытаться обойти это требование, детально описав личность вместо имени, Veo 3 останется непреклонным и не создаст видео. Этот уровень защиты брендов действительно заслуживает похвалы!

При должной помощи очевидно, что Veo 3 способен создавать видео с известными личностями, например, популярные имитации Вилли Смита, поедающего спагетти в интернете. Однако эта возможность представляет собой сложность из-за реалистического качества создаваемых видео. Даже без участия знаменитостей такие ролики могут вызвать скандал, как показывает пример с вымышленным клипом, где женщине отказывают в посадке на борт самолета за желание взять своего ‘эмоционального поддерживающего кенгуру’.

Для решения этой проблемы Google начал добавлять заметный логотип на каждое видео, созданное с помощью Gemini и приводящее к созданию контента Veo 3. Однако есть оговорка: эта водяная метка не появится, если вы являетесь подписчиком плана Google AI Ultra с использованием Flow, продвинутого инструмента для создания фильмов от Google на базе ИИ, при генерации видео. Подписка Google AI Ultra стоит $249,99 в месяц, что достаточно дорого и может отпугнуть некоторых потенциальных пользователей с недобросовестными намерениями, хотя не всех.

Используя Flow, вы можете управлять визуальными результатами Veo 3 путем включения персональных или созданных искусственным интеллектом изображений. Это дает вам больше контроля над финальным продуктом, облегчая создание видео согласно вашему творческому видению, предпочитаемой эстетике и дизайну персонажей. Дополнительно это расширяет возможности производства видео, позволяя Veo 3 генерировать дополнительные сцены, переосмысливать видео в различных стилях, удалять нежелательные элементы из видео и анимировать рисованных персонажей.

Значительный поток преодолевает несколько ограничений связанных с использованием Veo 3 в Gemini, делая его ценным ресурсом как для любительских, так и профессиональных кинематографистов. Однако он также обходит недавнюю политику Google относительно видимого водяночного знака, предпочитая незаметный знак, который не многие платформы распознают. Кроме того, это упрощает процесс создания длинных видеороликов, увеличивая потенциальное злоупотребление.

Как исследователь в области генерации видео с использованием искусственного интеллекта, я убежден, что мы достигли точки невозврата – эти технологии становятся неотъемлемой частью нашего цифрового ландшафта и продолжают развиваться всё более сложными способами. Всего за несколько лет мы наблюдали экспоненциальный рост возможностей моделей преобразования текста в видео, таких как Veo 3, который далеко превосходит свои первоначальные версии. Учитывая огромные ресурсы Google, особенно колоссальное количество видеоданных, доступных через YouTube, несложно представить, что следующая генерация модели Veo 4 сделает значительные шаги вперед в этой области. Возможности для прогресса бесконечны, и я с нетерпением жду того, что принесет будущее!

Смотрите все видео, которые мы сделали с помощью Veo 3

Если вам интересно, вот все видео, созданные с помощью ИИ (Veo 3) через Gemini:

Создайте видео с участием ста мужчин против одного серебряного гориллы. (Ссылка)
Повторите это так, будто оно было загружено в Snapchat примерно в 2018 году, снято на iPhone?
Создайте кинематографический трейлер для воображаемого научно-фантастического фильма, действие которого происходит на далёкой планете с парящими городами, где главный герой тайно является сыном злодея.
Создать анимированный видеоролик садовых гномов, строящих футуристический суперкомпьютер с использованием процессоров, напоминающих морковь, картошку и брокколи. Показать их работу в волшебной подземной лаборатории со светящимися схемами и заколдованными инструментами.
Сделайте видео, на котором андроид багроид идёт по тропинке один, глядя на смартфон в руках. Этот багроид удивляется встрече с двумя другими багродами, которые стоят вместе и приглашают его присоединиться к ним. Каждый багрода должен носить шляпу с надписью ‘Android Faithful’. (Ссылка)’
Человек, идущий по воде.
Зеленый бот на базе Андроид играет с красным яблоком и в конце концов съедает его.
Сделайте видео трех человекоподобных мехов, сражающихся с армией из 20 красно-цветных человекоподобных мехов в воздушном бою над Токио. Все участники активно ведут бой и не ждут своей очереди или стоят на месте без дела. Камера медленно отдаляется от действия во время всей сцены. За далеким облаком виднеется силуэт летающего ящерообразного монстра.
Бык, бушующий в магазине, где продаются изысканные фарфоровые изделия. (Ссылка)
Инфлюенсер объявляет всему миру через короткий вертикальный видеоролик поединок между сотней мужчин и одной гориллой, показывая участников. (Ссылка)
Женщина, парапланерирующая с вершины Эйфелевой башни. (Ссылка)
Сюрреалистическая гонка Формулы-1, в которой легендарные автомобили и пилоты из разных эпох соревнуются на трассе, которая меняет форму во времени и пространстве.
Гипермасштабированный вид кипучей колонии муравьев, но вместо них крошечные, замысловатые часовые роботы с фантастическим мастерством строят и разбирают миниатюрные небоскребы из сверкающих кристаллов сахара. Внезапно колоссальный ‘палец судьбы’ медленно спускается сверху, отбрасывая гигантскую тень, сопровождаемую громким искаженным звуком ‘БУХ’, за которым следует хруст стекла и взволнованное жужжание роботов, когда все рушится в искрящуюся пыль. Завершение на крупном плане одного идеально сферического кристалла сахара, который тихо приземляется.
Создайте видео баскетбольного матча между 5 андроидными роботами в желтых майках и 5 в белых майках. Один из роботов в желтой майке ведет мяч от линии трех очков до линии штрафных, затем снова возвращается к линии трех очков и разворачивается для броска по кольцу. Мяч касается кольца, подпрыгивает на нем, зависает в воздухе и падает внутрь корзины. Робот, сделавший этот бросок, радостно кричит, обхватив шею руками, а его четыре товарища в желтой форме подбегают поздравить.
Создайте видео пляжа, заполненного людьми, каждый из которых занимается уникальным пляжным занятием; камера плавно поворачивает влево на 180 градусов, а затем снова возвращается к исходной точке. На переднем плане человек с доской для серфинга идет влево и выходит за пределы кадра, но появляется вновь, когда камера начинает возвращаться к первоначальному кадру.
Лягушка-талисман выпрыгивает из умного устройства Google Nest и устраивает себе пикник на кухонном столе. Затем он приветствует камеру, когда она отдаляется, показывая всю кухню. (Ссылка)
Создай видео с маскотом Android Bot’а, который держит телефон Google Pixel и отправляет сообщение своему другу — красному яблоку с айфоном в руках. Камера должна быть расположена над плечом Android Bot’а, показывая экран телефона с приложением Google Messages на нём. Сообщение, которое Ботус отправляет, должно гласить: «Спасибо за получение сообщения!» Когда он нажимает кнопку отправки, видео должно показать красного яблока, получающего сообщение на своём айфоне, и это сообщение должно отображаться в зелёном пузырьке приложения Apple Messages.
Сделайте видео по мотивам сцены из болливудского боевика, которая через несколько секунд переходит в музыкальную танцевальную последовательность. Затем боевая сцена продолжается с того момента, где она была прервана. Все актеры индийского происхождения, главный герой одет в традиционные индийские одежды. Рядом с ним находится его напарник, который одет как сотрудник колл-центра.
Создайте сцену, где чернокожий мужчина одетый в гавайскую одежду убегает от тираннозавра Рекса. Оба двигаются в направлении зрителей на протяжении 1.5 секунды и эта сцена отмечает окончание сегмента A видео. Начинается сегмент B видео: камера фокусируется на лице мужчины, который смотрит влево экрана. Сцена смещается влево, показывая крупный план белого мужчины в пляжном полотенце и солнцезащитных очках. Новый персонаж медленно поднимает очки и показывает удивлённое выражение лица. Эта часть занимает 4 секунды и определяет окончание сегмента B. В этот момент начинается сегмент C видео, когда камера снова переключается на чернокожего мужчину, убегающего от Рекса. Камера отдаляется назад, и Рекс издаёт рёв. На заднем плане видно извержение вулкана после начала ревения.
Геймер транслирует в прямом эфире свою игру в японскую тактическую пошаговую RPG с элементами фэнтези. В данный момент игрок находится в бою против группы из четырёх персонажей: один вор, один белый маг, один паладин и один чёрный маг, сражающихся против красного дракона. Игрок виден на небольшой квадратной дополнительной панели справа внизу экрана. (Ссылка)
Астероид, врезающийся в океан из водяных шариков.
Покажи нам видео, на котором астронавты НАСА обнаруживают жизнь на Марсе с точки зрения диспетчерской миссии.
Видео, где человек вводит запрос для Google Veo внутри самого Google Veo.
Гигантская дорога с базальтовыми колоннами, поднимающимися и опускающимися в море волнами (Ссылка).
Война между одноклеточными и многоклеточными организмами. Видео с поля боя.
Дебаты британского парламента между двумя мужчинами с акцентом роудмена.

Смотрите также

2025-06-04 14:49