Я наконец-то получил доступ к Sora от OpenAI, но мне трудно его освоить.

Как опытный создатель контента и мастер слов с многолетним опытом работы за плечами, я должен признать, что погружение в мир видео, созданных искусственным интеллектом, было не чем иным, как интригой — и немного сложной задачей. Sora, видеогенератор от OpenAI, безусловно, возбудил мое любопытство, но он также заставил меня почесать голову больше раз, чем мне хотелось бы сосчитать.

После нескольких месяцев ожидания это наконец произошло — OpenAI запустила свой видеогенератор Sora. Или, по крайней мере, он открыл доступ к инструменту только для того, чтобы весь Интернет одновременно подключился к нему, вынудив OpenAI притормозить при создании учетной записи. Благодаря небольшому терпению и решимости я прошел через список ожидания, и теперь у меня есть возможность генерировать практически все, что я могу придумать — в некоторых четко определенных пределах.

Для энтузиаста технологий погружение в Сора было волнующим путешествием, наполненным трепетом и вызовом. Это устройство обладает достаточной мощностью, но есть один аспект, который требует сложного обучения — создание идеальных подсказок для видеороликов, которыми я доволен. Дело не в том, что мне не нравится Сора или я не восхищаюсь ее способностями, просто мне сложно освоить правильные команды. Я уверен, что это просто вопрос практики, но позвольте мне поделиться своим первым опытом работы с этим замечательным инструментом:

Создание видео у вас под рукой?

Для начала давайте обсудим, как использовать Sora, в частности, переход к этому надежному инструменту для создания видео. Несмотря на то, что он создан OpenAI, только участники ChatGPT Plus или Pro могут инициировать его использование. Однако вы не найдете Sora в основном интерфейсе ChatGPT. Вместо этого перейдите прямо на веб-сайт Sora (sora.com). По прибытии вас встретит галерея избранных клипов, которые действительно расширяют границы.

На мой взгляд, они установили сложный ориентир. Я просмотрел несколько из них, изучил их подсказки, заметил, насколько безупречно они работают, и предположил, что смогу добиться того же. Учитывая, что наши запросы будут обрабатываться той же версией DALL-E 3, что и их, я подумал, что мои должны выглядеть не менее впечатляюще, не так ли? Однако все не так просто. Конечно, вводить подсказки не составляет труда, но определить, на что Сора реагирует наиболее эффективно, может быть немного сложно.

Создавать видео так же просто, как напечатать то, что вы хотите увидеть… или, по крайней мере, так кажется на бумаге.

Прежде чем углубляться в проблемы, позвольте мне уточнить, что Sora, в отличие от таких платформ, как Google Pixel Studio или базовые генераторы изображений, не позволяет вам использовать ее постоянно — по крайней мере, для участников ChatGPT Plus, которые платят 20 долларов в месяц.

Вместо этого вам будет предоставлен пул из 1000 кредитов, которые вы сможете использовать для создания видео в соответствии с вашими предпочтениями. Каждая настройка, которую вы вносите в подсказку, например соотношение сторон, продолжительность или разрешение, будет потреблять определенное количество этих кредитов, пока они не будут исчерпаны в течение месяца. Стоимость новых видео может варьироваться от 20 до 2000 кредитов, и здесь вы можете найти подробную таблицу с подробным описанием затрат, которую мне хотелось бы найти раньше, чтобы не тратить 260 кредитов примерно за 20 минут. Будучи участником Plus, вы можете создавать только одно видео за раз с максимальным разрешением 720p.

Если вы выберете подписку ChatGPT Pro, вы столкнетесь с меньшими ограничениями на использование, но стоимость будет значительно выше — 200 долларов в месяц. Вместо получения 1000 кредитов вы получите колоссальные 10 000 кредитов за приоритетное создание видео, после чего ограничений нет — однако создание этих видео может занять немного больше времени — OpenAI называет их «расслабленными видео». Кроме того, участники Pro могут создавать до пяти видеороликов одновременно, повышать их качество до 1080p и увеличивать продолжительность их воспроизведения до 20 секунд.

К сожалению, все типы подписок ChatGPT в настоящее время не включают звук в видео Соры. Поэтому вам нужно будет загрузить отснятый материал и добавить музыку или звуковые эффекты после того, как вы доведете до совершенства визуальные эффекты. OpenAI упомянула, что планирует в будущем включить поддержку звука в Sora; это просто функция, которая сейчас недоступна.

Насколько это может быть сложно?

Как технический энтузиаст, вы можете подумать, что использовать Sora для создания видео так же просто, как ввести приглашение, выбрать настройки в нижнем меню и дождаться создания видео. Хотя это и правда, не все так просто, когда дело доходит до создания чего-то действительно впечатляющего, что могло бы украсить динамичный избранный канал Соры.

Чтобы сэкономить ежемесячное количество токенов, я сразу же связался с коллегой Митжей после получения доступа к Sora, поскольку мы обсуждали потенциальное использование платформы. Учитывая наши прошлые разговоры о быстром доступе, я подумал, что у него могут быть творческие предложения по созданию контента прямо сейчас. Удивительно, но его первоначальная идея была такой, о которой я даже не подумал: видео, в котором десять зебр в костюмах танцуют под мелодию Майкла Джексона в Сиднейском оперном театре, жуя равиоли с песто. Хотя это может показаться странным, но если Сора может управлять такими сложными деталями, то это, несомненно, первоклассная технология.

Сора готов выполнить практически все, о чем вы попросите, но вы должны это правильно описать.

Найдя идею забавной, я отправил ее на рассмотрение Соре и стал ждать результата. По сути, в финальной части многие детали были исправлены. Например, на нем была изображена группа зебр в костюмах возле Сиднейского оперного театра, каждая из которых несла зеленые тарелки. Однако количество зебр варьировалось от восьми до примерно 12, не было никакого намека на то, что это была мелодия Майкла Джексона, а равиоли с песто представляли собой просто зеленое блюдо – оно было почти точным, но не соответствовало действительности. Еще больше беспокоит то, что я увеличил стоимость видео до 100 жетонов в ожидании десятисекундного клипа, в котором будет больше танцев. К сожалению, этого не произошло.

Однако с тех пор я узнал, что инструмент «Раскадровка» Соры необходим практически для всего, что связано со сложным движением. Он позволяет перетаскивать клипы по пяти- или десятисекундной временной шкале, помогая Соре разбить действие и плавно переходить из одного направления в другое. Итак, пытаясь привлечь немного больше активности к моим друзьям-зебрам, я прыгнул в раскадровку и разделил танцы и равиоли песто на два отдельных действия, распределенных по пятисекундному клипу, а затем использовал ChatGPT, чтобы ударить мое описание — еще одна встроенная функция раскадровки.

Позвольте мне попробовать это еще раз… Это дало некоторые результаты, но не совсем так, как ожидалось. Если быть точным, мне удалось запечатлеть зебр, стоящих у Сиднейского оперного театра, но они, похоже, не интересовались танцами и, что удивительно, начали есть равиоли человеческими руками, когда их попросили. Боюсь, это не совсем то, что вы имели в виду. Избранный канал.

Я также экспериментировал с различными стилями подсказок, например, с изображением макаронных пингвинов, скользящих на айсбергах в океан, или с изображением разумного ломтика тоста, выскакивающего из тостера, в манере Pixar. Интересно, что полученные истории оказались вполне последовательными. Сора справляется с некоторыми аспектами каждой подсказки исключительно, но очень важно найти правильный баланс в описании сцены. Если описание будет слишком сложным, Сора может смешать разные элементы вместе. С другой стороны, если описание слишком скудное, конечный продукт может оказаться скучным.

Несмотря на то, что я до сих пор исследовал возможности Соры, похоже, мне предстоит открыть еще больше — особенно в области редактирования. Этот универсальный инструмент предназначен не только для создания видео; он также может перерабатывать, комбинировать и объединять клипы для дальнейшего развития идей, связывать видео вместе или удалять разделы, которые не подходят друг другу. Тем не менее, я по-прежнему стремлюсь создать видео, требующее минимальных доработок при первоначальном создании.

Если оставить в стороне трудности, я с нетерпением жду будущего

Выражаясь своими словами как восторженного пользователя, мое первое пребывание в Соре было чем-то вроде смеси, наполненной как триумфами, так и невзгодами. Признаюсь, аспект генерации видео пока не безупречен, но я не готов возлагать вину только на OpenAI. В конце концов, это мой дебют в области создания видео из текста, поэтому неудивительно, что я столкнулся с трудностями в поиске идеального баланса деталей. До сих пор я либо перекармливал Сору информацией, либо недостаточно ее предоставлял, а это говорит о том, что найти идеальную подсказку можно всего лишь в двух шагах.

Что действительно выделяется, так это потенциал, который я увидел в Соре. Как участник ChatGPT Plus, я поражен тем, насколько быстро я могу создавать видео. Я верю, что при дальнейшем обучении они станут еще быстрее. Однако я пока не совсем готов использовать быстрые клипы, созданные Сорой, поскольку некоторые из них все еще демонстрируют странные проблемы, такие как появление человеческих рук на моих зебрах. Тем не менее, клипы, попавшие в избранную коллекцию Соры, вселяют в меня уверенность, что, попрактиковавшись и научившись запрашивать соответствующие компоненты, я смогу преодолеть эти первоначальные проблемы.

Сора меня впечатлил, но мне еще многому предстоит научиться.

Кроме того, я не удивлюсь, если возможности OpenAI по обработке подсказок и созданию контента также расширятся. На данный момент, когда участник ChatGPT Plus исчерпывает свои 1000 кредитов, это все, к чему он имеет доступ, пока его расчетный период не будет продлен, без возможности приобретения дополнительных кредитов в промежуточный период. Аналогичным образом, любые неиспользованные кредиты одного месяца не могут быть перенесены на следующий, поэтому важно эффективно управлять расходами и сбережениями, чтобы гарантировать, что они не закончатся в течение месяца.

Как исследователь, если бы у меня был выбор, я бы хотел возместить некоторые из менее практичных расходов, которые я понес на этом пути. К сожалению, это недоступный вариант. Вместо этого я буду называть это инвестициями в знания и просто потрачу немного больше времени на совершенствование своих методов подсказок, прежде чем отправлять их Соре. Возможно, когда-нибудь из моей работы выйдет что-то действительно замечательное.

Смотрите также

2024-12-16 18:18