Мои пять лучших демо-версий на конференции Google Iо Э, от роботов Gemini до виртуальных примерочных

Как аналитик оглядываюсь назад и только что закончил основное мероприятие Google I/O 2025 – прямую трансляцию основного выступления. Однако если вы знакомы с прошлыми мероприятиями I/O, то понимаете, что помимо стримов на YouTube происходит гораздо больше: демо-презентации, практические занятия, сессии вопросов и ответов, а также множество других активностей проходят в Shoreline Amphitheatre недалеко от штаб-квартиры Google в Маунтин-Вью.

🌊 Лови волну успеха! CryptoWave предлагает прогнозы, которые зарядят тебя энергией и оптимизмом.

Присоединиться в Телеграм

Мы кратко изложили ключевую речь Google I/O 2025 для вас, предоставив подробный анализ Android XR очков, Android Auto и Project Moohan. Если вам интересно узнать более детально о демонстрациях и опыте, показанных на конференции разработчиков в этом году, вот пять выдающихся моментов, которые привлекли мое внимание сегодня.

Управление роботами с помощью голоса при помощи Gemini.

Долгосрочная перспектива Google для системы Gemini заключается в ее развитии как универсального искусственного ассистента, при этом роботы являются неотъемлемой частью. Команда подразделения Gemini Robotics компании Google работает над обучением роботов навыкам, таким как понимание схвата, выполнение инструкций и внесение корректировок в режиме реального времени. Во время моего личного опыта работы с Gemini Robotics я смог контролировать два робота-манипулятора с помощью голосовых команд, легко манипулируя объектами без использования рук.

Демонстрация использует робота Gemini с камерой и двумя манипуляторными руками, а также применяет мультимодальные функции, включая прямые видеопотоки и голосовые команды для интуитивно понятного управления. Например, когда я устно приказал ему взять желтый кирпич, рука выполнила эту команду соответствующим образом.

Взаимодействие ощущалось динамичным, но имело определенные ограничения. Например, когда я пытался заставить Гемини вернуть желтую фигуру на предыдущее место, я обнаружил, что эта конкретная модель искусственного интеллекта не обладает возможностями памяти. Учитывая, что Gemini Robotics находится в экспериментальной стадии разработки, это не совсем неожиданно.

Я думаю, Google могла бы уделить больше внимания этим приложениям во время своего ключевого выступления. Искусственный интеллект Gemiini Robotix именно такого типа нам следует стремиться развивать. Нет причин, по которым ИИ должен замещать человеческую креативность, такую как искусство или музыку, но существует огромный потенциал для автоматизации рутинных задач в повседневной жизни с помощью Gemiini Robotics.

Примерять одежду с использованием режима Shop with AI

Как человек, который не любит примерять одежду в примерочных и считает также раздражающим возвращать плохо сидящие вещи из интернет-магазинов, я сначала испытывал сомнения, но был заинтригован введением Google режима покупок с помощью искусственного интеллекта. Эта инновационная функция использует уникальную модель генерации изображений, которая понимает, как различные ткани ложатся на фигуру и приспосабливаются к разным типам тела.

По сути, то, что вы ищете, это более реалистичное отображение того, как одежда или очки будут подходить и соответствовать вам, а не просто цифровое наложение с использованием дополненной реальности (AR). Например, будучи тем, кто часто примеряет очки виртуально через AR, я хочу видеть более точное отражение того, как они выглядели бы на моем лице, но зачастую результат оказывается недостаточно точным.

Я счастлив поделиться некоторыми захватывающими новостями о режиме Shop with AI! В отличие от других подобных сервисов, их виртуальный примерка захватывает полное изображение вас в течение нескольких секунд и затем использует передовой генеративный ИИ для накладывания одежды таким образом, что она выглядит поразительно реалистично. Ознакомьтесь с галереей ниже, где вы найдете готовый образ, оригинальную маркетинговую фотографию изделия и исходное фото меня, использованное для редактирования.

Это вряд ли будет абсолютно безупречным, но поверьте мне, эта виртуальная примерочная превосходит все те, с которыми я сталкивался ранее. Использование её существенно повысит мою уверенность при покупке вещей онлайн, особенно тех нарядов, которые выходят за пределы моего привычного стиля.

Создание Android-бота самого себя с использованием искусственного интеллекта от Google.

Многие демонстрации на Google I/O представляют собой увлекательные простые задачи, за которыми скрывается значительное количество технической работы. Одним из таких примеров является Androidify — инструмент, который превращает ваши фотографии в роботов Android. Для достижения результата ниже требуется сложный поток приложений Android и использование искусственного интеллекта вместе с обработкой изображений. Это показывает, как разработчики могут применять Google AI для добавления инновационных функций и инструментов в свои приложения.

Androidify начинает с захвата изображения человека, предпочтительно полного портрета. Затем он анализирует изображение и формулирует текстовый анализ, используя Firebase AI Logic SDK. После этого описание передается в специализированную модель Imagen, разработанную специально для создания Android-роботов. Далее происходит синтез изображения.

Преобразование реального изображения в персонализированного Android-бота требует значительных манипуляций с помощью искусственного интеллекта. Этот процесс даёт представление о том, как разработчики могут использовать инструменты вроде Imagen для внедрения инновационных функций. Захватывающим моментом является то, что Androidify является открытым исходным кодом. Для получения дополнительных сведений об этом интересном проекте ознакомьтесь подробнее здесь.

Создание музыки с помощью Lyria 2

Музыка не является моим предпочтительным способом интеграции ИИ, но демонстрация в Google I/O для Lyria 2 была весьма интересной. Для тех, кто не знаком с этим: Lyria Realtime использует генеративный искусственный интеллект для создания непрерывного потока музыки на основе пользовательских взаимодействий. По сути, разработчики могут использовать API для добавления кастомных саундтреков в свои приложения путем интеграции Lyria.

В ходе исследования на демонстрационной станции я испытал живое воплощение работы API Lyria в действии. Были огромные музыкальные регуляторы, напоминающие стулья, с помощью которых можно было изменять влияние каждого музыкального жанра на воспроизводимый звук просто вращая ручку. С каждым изменением жанров и их значимости звуковая дорожка трансформировалась динамично в режиме реального времени.

Особенность Lyria Realtime заключается в её функциональности в режиме реального времени. Как следует из названия, она работает без каких-либо задержек. Это позволяет пользователям быстро изменять генерацию музыки на лету, предоставляя немастерам беспрецедентный контроль над звуком.

Создание пользовательских видео с помощью Flow и Veo

В конечном итоге я использовал инструмент для создания фильмов Flow, искусственный интеллект, чтобы генерировать адаптированные видео сегменты с помощью моделей генерации видео Veo. В отличие от обычных генераторов видео, Flow предоставляет возможность авторам контента устанавливать последовательные и гармоничные темы и стили по всему их клипам. После того как клип создан, вы можете изменить атрибуты видео как «ингредиенты», используя эти изменения в качестве основы для дальнейшего генерирования.

Я поставил перед Veo 2 сложную задачу: «Создать комедийный видеоряд с игроком из Меты, который бьет домашний удар.» Признаюсь, задача не была полностью выполнена — в одном из видео игрок изображен с двумя головами и ни одно не показывает удара домашнего. Несмотря на недочеты Veo в этом случае, очевидно, что Flow является ценным инструментом.

Способность модифицировать, объединять и улучшать видео, созданные искусственным интеллектом, представляет собой значительный прогресс для Google. Уникальность контента, созданного AI, может вызывать трудности при создании единого повествования из нескольких клипов, однако Googleй Flow кажется успешно решает эту проблему.

Если вы нашли обсуждения искусственного интеллекта во время основного доклада менее увлекательными, я вас понимаю. Термин ‘Gemini’ упоминался внушительные 95 раз, а следом за ним на втором месте шёл термин ‘AI’, который был упомянут 92 раза. Однако позвольте заверить вас: что делает искусственный интеллект захватывающим – это не только его возможности, но и то, как он способен изменить способ выполнения задач и общения с вашими устройствами. Демонстрации на Google I/O 2025 были весьма эффективны в том, чтобы показать нам ‘как’ использовать эти технологии.

Смотрите также

2025-05-21 12:24