Так ли полезно расширенное контекстное окно Gemini, как мы думали?

Так ли полезно расширенное контекстное окно Gemini, как мы думали?

  • У моделей искусственного интеллекта есть проблемы с точностью, но модели, которые могут обрабатывать документы и информацию, предположительно, более надежны.
  • Gemini 1.5 Pro и Gemini 1.5 Flash, две лучшие модели искусственного интеллекта от Google, имеют расширенные контекстные окна, которые позволяют обрабатывать и анализировать больше данных.
  • Однако два новых исследования показали, что Близнецы не так уж хороши в анализе данных.

Как наблюдатель с опытом работы в области искусственного интеллекта и языкового моделирования я нахожу эти исследования моделей Google Gemini 1.5 Pro и 1.5 Flash весьма интригующими. Несмотря на то, что эти модели действительно имеют более широкие контекстные окна, чем многие другие решения, доступные на рынке, согласно недавним исследованиям, им, по-видимому, не хватает способности понимать и эффективно обрабатывать эти данные.


Новейшие модели искусственного интеллекта Google обладают большей способностью обрабатывать контекстные данные, чем любые основные конкуренты, однако недавние исследования ставят под сомнение их способность по-настоящему воспринимать информацию, которую они принимают. По данным TechCrunch, в то время как Gemini 1.5 Pro и Gemini 1.5 Flash теоретически могут работать с обширными окнами данных существует вероятность того, что они не смогут полностью понять смысл, стоящий за ними.

Один исследовательский проект продемонстрировал, что различные модели языка видения (VLM), такие как Gemini, значительно снижают эффективность при работе с более длинными визуальными контекстами. Другое исследование выявило удивительный результат: ни одна модель не превзошла базовый уровень случайной производительности.

Как языковой аналитик, я заметил, что такие модели, как Gemini 1.5 Pro, способны обрабатывать длинные контексты. Однако, как показывают результаты наших исследований, эти модели не могут по-настоящему «понимать» или «схватывать» контент, который они обрабатывают.

Большие языковые модели способны отвечать на конкретные запросы на основе данных обучения. Тем не менее, важной особенностью моделей ИИ является их способность работать с новой информацией для обработки запросов. Например, Gemini может использовать PDF-документ, видео или экран телефона Android, чтобы получить дополнительный контекст. Объединив эти внешние данные со своим внутренним набором данных, Gemini может генерировать ответы на запросы.

Контекстное окно — это измерение, которое указывает объем свежих данных, которые большая языковая модель (LLM) может обрабатывать одновременно. Модели Gemini 1.5 Pro и Gemini 1.5 Flash могут похвастаться особенно обширными контекстными окнами по сравнению со многими другими решениями AI на рынке. Первоначально стандартная версия Gemini 1.5 Pro имела емкость контекстного окна в 128 000 токенов. Некоторые разработчики даже имеют доступ к более крупному контекстному окну, вмещающему до 1 миллиона токенов.

На мероприятии Google I/O 2024 было объявлено, что модели Gemini 1.5 Pro и 1.5 Flash станут более доступными для публики благодаря большему контекстному окну в один миллион токенов. Для привилегированных разработчиков, использующих Google AI Studio и Vertex AI, была доступна версия 1.5 Pro с контекстным окном из двух миллионов токенов. Токен относится к минимальной единице данных; По оценкам Google, их контекстное окно в два миллиона токенов эквивалентно примерно двум часам видеоконтента, 22 часам аудиозаписей или полутора миллионам слов.

В ходе демонстраций перед выпуском Google продемонстрировала расширенные контекстные окна новой модели Gemini 1.5 Pro. Тем не менее, когда исследователи начали использовать настоящее устройство, выявились некоторые ограничения.

Что показали исследования

Так ли полезно расширенное контекстное окно Gemini, как мы думали?

Карпинска и ее соавторы заметили, что большинство моделей большого языка (LLM) превосходно справляются с задачами «иголки в стоге сена». В этих сценариях ожидается, что модели ИИ будут находить и извлекать конкретную информацию, разбросанную в большом объеме текста. Обычно эти данные составляют всего одно-два предложения. Однако, имея дело со сложными контекстами, включающими расширенные окна, специалистам LLM часто сложно полностью понять и точно интерпретировать информацию.

NoCha — это коллекция из 1001 пары слегка различающихся правдивых и ложных утверждений о недавно опубликованных английских художественных книгах. Исследователи представили этот набор данных, чтобы оценить возможности моделей искусственного интеллекта, таких как Gemini, в обработке текущей информации, а не полагаться на ранее приобретенные знания.

Как аналитик, я обнаружил поразительную разницу между большей частью парных сравнений в NoCha и тем, что предполагают существующие долгосрочные тесты. По мнению наших аннотаторов, для проверки большинства пар в NoCha необходимы глобальные рассуждения на протяжении всей книги. Эта задача кажется простой для читателей-людей, но она представляет собой серьезную проблему для всех десяти моделей языка с длинным контекстом, которые мы оценивали. Ни одна из моделей с открытой областью не превосходит случайную случайность, несмотря на их впечатляющие результаты в синтетических тестах. GPT-4o обеспечивает лучшую производительность среди этих моделей, достигая точности 55,8%.

Среди моделей большого языка (LLM) ни одна из них не преуспевает в задаче NoCha, в то время как люди доказали успех в этой области, получив за это награды ( ). Примечательно, что все модели с открытым весом уступают даже по сравнению со случайными результатами ( ). Однако стоит отметить, что #Claude-3.5-Sonnet, как сообщается, выделяется в других областях; тем не менее, его производительность на NoCha уступает #GPT-40, #Claude-3-Opus и #Gemini Pro 1.5. (Источник)

Как технический энтузиаст, я бы сказал это так: модели Gemini 1.5 Pro и Gemini 1.5 Flash показали худшие результаты в тесте NoCha: 48,1% и 34,2% соответственно. Хотя Gemini может похвастаться впечатляющим преимуществом контекстного окна, обе модели искусственного интеллекта Google не смогли затмить OpenAI и Claude в этой конкретной оценке. Проще говоря, возможно, было бы более эффективно полагаться на догадки, чем на ответы, полученные Gemini 1.5 Pro или Gemini 1.5 Flash во время теста NoCha.

Как энтузиаст технологий, я не могу не быть впечатлен выдающимися результатами людей в тесте NoCha, набравшими впечатляющие 97%. Это выходит далеко за рамки того, с чем может справиться любая языковая модель (LLM).

Что это значит для Близнецов?

Так ли полезно расширенное контекстное окно Gemini, как мы думали?

Хотя Gemini не смог обеспечить оптимальные результаты, он по-прежнему способен обрабатывать большие наборы данных и находить точные ответы, особенно когда запрос включает в себя единственный вопрос. Однако ему не хватает возможности идентифицировать всеобъемлющие темы, сюжеты или всеобъемлющие выводы, которые требуют обработки и интерпретации обширных данных.

Судя по большим ожиданиям Google от Project Gemini, он может разочаровывать. Компания topmob попыталась связаться с Google по поводу этих выводов в нерабочее время, но мы еще не получили ответа к моменту публикации. Мы доработаем статью, как только получим дополнительную информацию.

Как исследователь, исследующий текущие возможности искусственного интеллекта, я сталкивался с многочисленными исследованиями, которые подчеркивают, как продвинутые системы искусственного интеллекта, такие как Gemini, могут опережать скорость обработки данных человеком. Однако важно признать, что эти модели часто терпят неудачу, когда дело касается точности и глубины человеческого рассуждения. Таким образом, несмотря на свои впечатляющие возможности, системы искусственного интеллекта по-прежнему сталкиваются с серьезными проблемами, прежде чем они смогут превзойти сложные мыслительные процессы, уникальные для человека.

Смотрите также

2024-07-02 16:23