Gemini 1.5 Pro может делать для аудио то же, что предыдущие версии делали для текста

TLDR

Google объявил, что модель Gemini 1.5 Pro теперь доступна для публичной предварительной версии.
Компания добавила, что обновленная модель искусственного интеллекта поддерживает обработку звука.
Google утверждает, что эту технологию можно использовать для высококачественной транскрипции, анализа звонков и многого другого.

Модели Gemini AI от Google, обозначенные как Nano, Pro и Ultra, были сегментированы таким образом. В феврале компания представила обновление Gemini 1.5. Теперь подтверждено, что расширенная версия этого выпуска, Gemini 1.5 Pro, открыта для публичного тестирования и может похвастаться значительными новыми возможностями.

"Просто покупай индекс", говорили они. "Это надежно". Здесь мы обсуждаем, почему это не всегда так, и как жить с вечно красным портфелем.

Поверить в рынок

Google объявил, что последняя версия Gemini, а именно Gemini 1.5 Pro, может обрабатывать звук. Это обновление позволяет извлекать аудио как из видеофайлов, так и из произнесенных слов.

«Этот инструмент позволяет пользователям выполнять плавный анализ текста, изображений, видео и аудио. Он также предлагает возможности точной транскрипции, позволяя пользователям сканировать и изучать содержимое аудио и видео, например, путем поиска, анализа, и отвечать на вопросы во время звонков о прибылях и конференциях инвесторов».

Значительное обновление усилий Google по искусственному интеллекту

Ранее компания подчеркивала, что Gemini 1.5 Pro превзошел Gemini 1.0 Pro в 87% тестов и приблизился к возможностям Gemini 1.0 Ultra. Кроме того, они упомянули, что клиенты могут обрабатывать час видео, одиннадцать часов аудио, большие базы кода с более чем 30 000 строк кода или более 700 000 слов за один проход.

Gemini 1.5 Pro в первую очередь предназначен для пользователей Workspace, а не для обычных потребителей. Однако со временем он может стать доступен потребителям через помощника Gemini и других каналов. Кроме того, возможности устройства по обработке звука открывают путь к многочисленным потенциальным функциям в будущем.

В настоящее время Google предоставляет некоторые функции аудио на устройствах Pixel, включая транскрипцию в приложении Recorder (с использованием более старого искусственного интеллекта) и инструмент Audio Magic Eraser. Мы с нетерпением ждем возможности выяснить, повлияют ли расширенные звуковые возможности Gemini 1.5 Pro на будущие модели искусственного интеллекта, интегрированные в смартфоны, что потенциально приведет к созданию более сложных аудиофункций.

Смотрите также

2024-04-09 15:14