ИИ был обучен на более чем 139 000 сценариях фильмов и телепередач, включая «Симпсоны», «Во все тяжкие» и других, из самого неожиданного источника

Как давний писатель и любитель искусства, я должен выразить свою глубокую обеспокоенность по поводу тревожного использования генеративного искусственного интеллекта в творческих индустриях. Потратив десятилетия на оттачивание своего мастерства, мне неприятно видеть, что мои работы используются этими передовыми системами без моего согласия или признания.

"Просто покупай индекс", говорили они. "Это надежно". Здесь мы обсуждаем, почему это не всегда так, и как жить с вечно красным портфелем.

Поверить в рынок

С самого начала генеративный ИИ столкнулся с проблемами в творческих секторах из-за опасений, что он может вытеснить работу, традиционно выполняемую людьми. Хотя некоторые выступают за эти технологии, расширяющаяся группа художников, писателей, актеров, режиссеров и других лиц, связанных с этими областями, выражает обеспокоенность – они утверждают, что их интеллектуальная собственность используется не по назначению или крадется.

Проще говоря, правовой статус авторских прав и искусственного интеллекта, особенно когда речь идет о чат-ботах и моделях изучения языка (LLM), остается неясным, поскольку их создатели утверждают, что все используемые данные получены из открытых источников и, следовательно, законны в соответствии с принципами добросовестного использования. Однако эта точка зрения, похоже, упускает из виду некоторые сложности практического применения.

Алекс Рейснер из Atlantic недавно опубликовал шокирующий отчет о том, как дипломированные специалисты обучались более чем 139 000 сценариям для кино и телевидения.

Было подтверждено, что многочисленные системы искусственного интеллекта были обучены с использованием контента из тысяч телевизионных шоу и фильмов, причем более 53 000 фильмов и 85 000 сериалов являются частью их учебных материалов.

Этот сборник диалогов, используемый такими известными корпорациями, как Apple и Meta, включает в себя строки из популярных телесериалов, таких как «Симпсоны», «Клан Сопрано», «Во все тяжкие», а также фильмов, номинированных на премию «Лучший фильм» в период с 1950 года. и 2016.

Данные включают в себя устные диалоги из реальных гала-концертов, таких как «Золотой глобус» и «Оскар», среди прочих. Этот огромный кладезь материала позволяет искусственному интеллекту убедительно изображать персонажей или создавать целые постановки, не требуя большой команды сценаристов.

Для тех, кто тщательно изучил эту технологию, очевидно, что современный генеративный ИИ функционирует в первую очередь как продвинутый инструмент перефразирования. Ему не хватает способности самостоятельно достигать результатов; вместо этого он полагается на сбор информации, будь то для создания текста или изображения.

Именно люди, которых ИИ хочет заменить, являются его жизненной силой. Но, вероятно, это тема для другого разговора. Давайте вернемся к рассматриваемой теме: очевидно, что работы, упомянутые в исходных отчетах как удаленные ИИ, защищены авторским правом, так как же технологическим компаниям удается избежать удаления всего этого диалога? Ну…

Данные для обучения ИИ берутся не из обычных текстов, а из файлов субтитров, доступных на OpenSubtitles.org. Эти субтитры собираются с помощью специализированного программного обеспечения из различных источников, таких как DVD, Blu-ray и платформы потокового вещания в Интернете.

Интересно отметить, что субтитры могут быть полезны для ИИ, поскольку они представляют собой разговорную речь, помогая системам ИИ, таким как чат-боты, развивать общение, более близкое к человеческому. Данные такого типа особенно полезны, поскольку хорошо продуманный диалог не встречается в типичных ресурсах по обучению ИИ, таких как научные тексты или новостные статьи.

Исследования показывают, что такие компании, как Anthropic, Meta, Apple и Nvidia, использовали субтитры для обучения своих систем искусственного интеллекта, включая конкурента ChatGPT Claude и такие модели, как OPT и NeMo Megatron.

Помимо Salesforce, Bloomberg и EleutherAI, другие организации приняли аналогичные заголовки для создания более сотни моделей искусственного интеллекта с открытым исходным кодом. Примечательно, что эти модели, способные соответствовать человеческим навыкам письма, были созданы без явного согласия первоначальных авторов.

Естественно, компании не захотели комментировать эти выводы.

OpenSubtitles может загрузить кто угодно, но содержимое может быть не сразу понятно. Это 14-гигабайтный файл, содержащий диалог, в котором не указано, кто говорит и из какого фильма или телешоу он взят. Файлы отдельных фильмов и шоу распределены по 446 612 отдельным файлам, каждая папка помечена идентификационными номерами IMDb.

Как страстный энтузиаст, я глубоко погрузился в эту огромную сокровищницу мультимедийного контента. Что интересно, мне удалось выделить около 139 000 различных названий фильмов, тщательно проанализировав различные версии фильмов и эпизодов. Чтобы еще больше обогатить свое понимание, я использовал дополнительные данные из OpenSubtitles, которые помогли мне классифицировать и связать информацию об актерах и режиссерах, что сделало эту коллекцию еще более интригующей!

Действительно, законы об авторском праве продолжают существовать в несколько неоднозначном состоянии. Вполне вероятно, что субтитры могут рассматриваться как производные произведения и, таким образом, получать охрану. Однако суды еще не вынесли официального решения по этому поводу.

Для полного понимания оригинального исследования (включая конкретные данные) я настоятельно рекомендую ознакомиться с подробным отчетом, автором которого является Алекс Рейснер.

Смотрите также

2024-11-26 12:44