Встречайте более быструю модель Gemini, улучшенных агентов искусственного интеллекта и Imagen 3.

В рамках конференции Google I/O 2024 компания представляет несколько обновлений искусственного интеллекта, например, новую модель Gemini, известную как 1.5 Flash.
Gemini Nano для Android получает обновление и вскоре сможет обрабатывать изображения пользователей и «мультимодальность».
Компания также представила Veo (генерацию видео) и Imagen 3, которые рекламируются как генератор текста в изображение «самого высокого качества» от Google.

Как исследователь с опытом работы в области искусственного интеллекта и машинного обучения, я с нетерпением жду последних обновлений от Google на их мероприятии I/O 2024. Особого внимания заслуживают улучшения и новые функции модели искусственного интеллекта Gemini от Google.

"Просто покупай индекс", говорили они. "Это надежно". Здесь мы обсуждаем, почему это не всегда так, и как жить с вечно красным портфелем.

Поверить в рынок

На конференции Google I/O 2024 технологический гигант демонстрирует, как его модель искусственного интеллекта Gemini будет развиваться дальше с введением нового семейства и агентов искусственного интеллекта.

Как технический энтузиаст, я рад поделиться некоторыми новостями о последнем дополнении Google к экосистеме Gemini. В недавнем сообщении в блоге Google объявил о выпуске «Gemini 1.5 Flash». После успешного запуска версии 1.5 Pro в феврале стало ясно, что приложениям Google требуется «меньшая задержка и меньшие затраты для эффективной работы». Чтобы удовлетворить эту потребность, они представили Gemini 1.5 Flash — более легкую версию своего брата Pro, обладающую более высокой скоростью и большей эффективностью.

Google утверждает, что Flash способен выполнять огромное количество задач с высокой частотой и объемом. Он может похвастаться тем, что эта технология может эффективно обрабатывать большие объемы данных и давать результаты превосходного качества, несмотря на свой размер. Результаты тестирования показывают, что модель Flash 1.5 успешно применяется в различных приложениях, таких как суммирование, интерфейсы чата, описание изображений/видео, интеллектуальный анализ данных и обработка таблиц.

На этапе общедоступной предварительной версии Flash теперь согласуется с Pro, предлагая большее количество токенов — 1 миллион в AI Studio и Vertex AI из Google Cloud. Эта расширенная возможность особенно выгодна для разработчиков, использующих API, поскольку теперь у них есть доступ к большему количеству токенов — 2 миллионам.

Что касается модели 1.5 Pro, Google упомянул, что постоянно работает над улучшениями, причем последнее обновление сосредоточено на улучшении способности ИИ рассуждать и кодировать. Вскоре модель будет поддерживать тестирование изображений и видео для MMMU, AI2D, MathVista, ChartQA, DocVQA, InfographicVQA и EgoSchema. Это означает, что производительность ИИ в понимании и интерпретации этих типов данных будет оценена и потенциально улучшена благодаря этому обновлению.

Усовершенствованная модель Pro следующего поколения была улучшена для обработки более сложных и тонких инструкций. По данным Google, пользователи имеют возможность настраивать действия для конкретного продукта, такие как роли, форматы и стили, для модели 1.5 Pro. Для обработки звука используются Gemini API и студия AI, что позволяет модели 1.5 Pro предлагать пояснения к изображениям и видео, отправленным на эти платформы.

На мероприятии Google I/O было объявлено, что модель 1.5 Pro будет интегрирована как в приложения Gemini Advanced, так и в Workspace. Ранее на это намекали для Gmail и NotebookLM. Во время демонстрации нового приложения Google для создания заметок на базе искусственного интеллекта были продемонстрированы мультимодальные возможности 1.5 Pro. Теперь пользователи могут испытать искусственный интеллект, имитирующий разговоры, чтобы доставлять сложную информацию в более удобном формате.

Пользователи могут взаимодействовать с ИИ, задавая вопросы, которые затем генерируют соответствующие ответы. Кроме того, для тех, у кого есть любознательные дети, Gemini 1.5 Pro предлагает при необходимости объяснения, соответствующие их возрасту.

Обновления для Нано

Модель Google Gemini Nano для Android получит некоторые новые функции. Согласно объявлению, эта версия выйдет за рамки текстового ввода и вскоре сможет обрабатывать изображения. Сообщается, что Pixels лидирует в реализации этой мультимодальной функциональности, позволяя Nano «понимать мир так, как это делают люди – не только посредством текстового ввода, но также с помощью визуальных и слуховых сигналов».

Gemma, модель с открытым исходным кодом, использующая ту же технологию, что и модели Gemini, получает версию 2. Компания подчеркивает обновленную архитектуру Gemma 2, обеспечивающую «прорывную» производительность и эффективность, а также новые размеры. Джемма скоро выберет PaliGemma, языковую модель, вдохновленную PaLI-3.

Google придает большое значение своим агентам искусственного интеллекта в рамках стремления DeepMind быть подотчетным и приносить пользу обычным пользователям. Будущие универсальные модели искусственного интеллекта от компании предназначены для более эффективной обработки данных путем кодирования видеокадров. По данным Google, эти агенты обладают способностью объединять речь и видео для создания последовательной записи событий, что позволяет им собирать соответствующую информацию для дальнейшего использования.

Вклад DeepMind включает в себя интеграцию технологии распознавания речи Google в своих агентов, что повышает их способность расшифровывать контексты разговоров и ускоряет их ответы.

Новая волна генерации видео и изображений

Как исследователя, меня заинтриговали другие аспекты значительного обновления Gemini I/O 2024. С другой стороны, у нас есть Veo от Google и представленный Imagen 3. Согласно сообщениям, Veo может похвастаться «расширенным пониманием естественного языка и визуальной семантики». Более того, есть намеки на то, что модель генерации видео Imagen 3 будет способна создавать визуальные эффекты, которые точно соответствуют исходной концепции пользователя.

Говорят, что более быстрое понимание и уловление правильного тона также находятся в его рулевой рубке.

Согласно сообщениям, Veo считается новейшим проектом Google по созданию видео, основанным на существующих технологиях, таких как Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet и Lumiere. Начиная с 14 мая Google объявил, что Veo доступен ограниченному числу авторов на этапе частной предварительной версии. Чтобы получить доступ, заинтересованные авторы должны присоединиться к списку ожидания.

Однако Google добавляет, что планируется добавить Veo в YouTube Shorts и «другие продукты».

В своем дебюте Google называет Imagen 3 своей самой совершенной моделью преобразования текста в изображение. Сообщается, что эта новая модель обеспечивает повышенную детализацию, фотореализм и реалистичность изображения по сравнению со своей предшественницей. Imagen 3 способен более эффективно обрабатывать естественную речь и интерпретировать основной смысл подсказок. Кроме того, он не упускает из виду мелкие детали, которые часто включаются в более длинные инструкции.

14 мая 2023 года будет выпущена обновленная версия модели преобразования текста в изображение Google под названием Imagen 3, которая будет доступна ограниченному числу авторов через ImageFX. Заинтересованные лица могут записаться в список ожидания, чтобы потенциально получить доступ к этой эксклюзивной предварительной версии. Google намекает на будущую совместимость между Imagen 3 и Vertex AI, следуя той же схеме, что и его предшественник Imagen 2.

Смотрите также

2024-05-14 20:56