Gemini 1.5 Pro может делать для аудио то же, что предыдущие версии делали для текста

TLDR

  • Google объявил, что модель Gemini 1.5 Pro теперь доступна для публичной предварительной версии.
  • Компания добавила, что обновленная модель искусственного интеллекта поддерживает обработку звука.
  • Google утверждает, что эту технологию можно использовать для высококачественной транскрипции, анализа звонков и многого другого.

Модели Gemini AI от Google, обозначенные как Nano, Pro и Ultra, были сегментированы таким образом. В феврале компания представила обновление Gemini 1.5. Теперь подтверждено, что расширенная версия этого выпуска, Gemini 1.5 Pro, открыта для публичного тестирования и может похвастаться значительными новыми возможностями.

Google объявил, что последняя версия Gemini, а именно Gemini 1.5 Pro, может обрабатывать звук. Это обновление позволяет извлекать аудио как из видеофайлов, так и из произнесенных слов.

«Этот инструмент позволяет пользователям выполнять плавный анализ текста, изображений, видео и аудио. Он также предлагает возможности точной транскрипции, позволяя пользователям сканировать и изучать содержимое аудио и видео, например, путем поиска, анализа, и отвечать на вопросы во время звонков о прибылях и конференциях инвесторов».

Значительное обновление усилий Google по искусственному интеллекту

Ранее компания подчеркивала, что Gemini 1.5 Pro превзошел Gemini 1.0 Pro в 87% тестов и приблизился к возможностям Gemini 1.0 Ultra. Кроме того, они упомянули, что клиенты могут обрабатывать час видео, одиннадцать часов аудио, большие базы кода с более чем 30 000 строк кода или более 700 000 слов за один проход.

Gemini 1.5 Pro в первую очередь предназначен для пользователей Workspace, а не для обычных потребителей. Однако со временем он может стать доступен потребителям через помощника Gemini и других каналов. Кроме того, возможности устройства по обработке звука открывают путь к многочисленным потенциальным функциям в будущем.

В настоящее время Google предоставляет некоторые функции аудио на устройствах Pixel, включая транскрипцию в приложении Recorder (с использованием более старого искусственного интеллекта) и инструмент Audio Magic Eraser. Мы с нетерпением ждем возможности выяснить, повлияют ли расширенные звуковые возможности Gemini 1.5 Pro на будущие модели искусственного интеллекта, интегрированные в смартфоны, что потенциально приведет к созданию более сложных аудиофункций.

Смотрите также

2024-04-09 15:14