Я протестировал необычный генератор изображений Google и быстро обнаружил его ограничения.

Как опытный цифровой художник и энтузиаст технологий с более чем двадцатилетним опытом, я имел удовольствие стать свидетелем эволюции инструментов на основе искусственного интеллекта, которые произвели революцию в творческой сфере. Google Imagen 3 — один из таких инструментов, который в равной степени впечатлил и озадачил меня.

🌊 Лови волну успеха! CryptoWave предлагает прогнозы, которые зарядят тебя энергией и оптимизмом.

Присоединиться в Телеграм

Как энтузиаст, я использую генератор изображений Google на базе искусственного интеллекта, представленный на их конференции разработчиков систем ввода-вывода в мае, с момента его ограниченного выпуска в США в августе. Недавно он стал доступен всем пользователям Gemini. Хотя этот инструмент, несомненно, впечатляет, мой личный опыт выявил несколько ограничений, которые несколько ухудшают общее впечатление от пользователя.

Вот где Imagen 3 борется

Следует иметь в виду, что бесплатная учетная запись Gemini не позволяет создавать изображения с участием людей. Это ограничение применимо не только к созданию изображений известных личностей, поскольку большинство инструментов для создания изображений в любом случае не поддерживают это. Вместо этого, если вы запросите изображение типа «два случайных танцующих человека», оно не даст никаких результатов из-за этого ограничения. К вашему сведению, ChatGPT также придерживается того же правила в своей бесплатной версии.

Вы можете создавать изображения людей, если обновитесь до Gemini Advanced.

С подпиской Gemini Advanced вы сможете создавать изображения обычных людей. Я попробовал, и это немного случайно. Он может создавать изображения настолько реалистичные, что их легко можно принять за профессиональную фотографию, но иногда результаты оказываются неудовлетворительными. Посмотрите на примеры ниже. Тот, что слева, невероятно реалистичен, создается впечатление, что его запечатлел опытный фотограф. С другой стороны, правое изображение больше похоже на мультфильм. Несмотря на то, что инструмент несколько раз просил сделать фотографию более реалистичной, внесенные изменения были незначительными.

Что касается опытных фотографов, позвольте мне остановиться на выводах Imagen 3. Несмотря на то, что он неизменно обеспечивает изображения профессионального качества — будь то люди, животные или объекты — они всегда выглядят отполированными и тщательно отредактированными. Этот уровень совершенства впечатляет, но иногда может быть предпочтительнее более непринужденный и менее тщательно отредактированный вид. Возможность создавать изображения с более непринужденной эстетикой могла бы стать привлекательным дополнением к возможностям Imagen 3.

Иногда я обнаруживаю, что самые аутентичные фотографии — это те, которые были сделаны спонтанно, без особых раздумий, когда освещение было неидеальным и люди не осознавали, что их фотографируют. Такие моменты может оказаться сложной задачей для ИИ, такого как Imagine 3, хотя важно отметить, что это обычная проблема среди большинства генераторов изображений ИИ.

Это подводит меня к третьей серьезной проблеме Imagen — редактированию созданных изображений. Если я создаю забавное изображение кота в шляпе и ест мороженое, а затем хочу отредактировать его с помощью дополнительной подсказки, Imagen 3 создаст совершенно новое изображение в Gemini. Так, например, если мне нравится созданное изображение, но я просто хочу изменить цвет шляпы с черного на синий, инструмент вообще сгенерирует новое изображение и изменит цвет шляпы вместо того, чтобы просто изменить цвет шляпы и оставить ее. все остальное как есть. Конечно, новое изображение выглядит относительно похожим на старое при использовании правильной подсказки, но оно все равно не то же самое, что не идеально. Это делает невозможным идеальное редактирование изображения, особенно с несколькими подсказками, которые каждый раз создают новое изображение. Посмотрите пример ниже и убедитесь сами.

Одна из проблем заключается в том, что я не могу настроить соотношение сторон изображений. По умолчанию они создаются с квадратным соотношением сторон (1:1) и не могут быть изменены. Когда я прошу инструмент переключить его на формат 16:9, Gemini утверждает, что может это сделать, но вместо этого генерирует изображение с тем же соотношением сторон. Однако похоже, что эта проблема может быть решена в ближайшее время, поскольку в настоящее время разрабатывается функционал по изменению соотношения сторон.

Если оставить в стороне ограничения, Imagen 3 великолепен.

Чтобы прояснить ситуацию, я не собираюсь критиковать продвинутый создатель изображений с искусственным интеллектом от Google, Imagen 3. Вместо этого я хочу поделиться некоторыми ограничениями, с которыми я столкнулся во время тестирования, чтобы вы лучше поняли его возможности. Несмотря на эти ограничения, я должен сказать, что Imagen 3 — действительно впечатляющий инструмент. Я также пробовал различных конкурентов, и каждый генератор изображений на базе искусственного интеллекта имеет свои сильные и слабые стороны. Однако с точки зрения качества Imagen 3 выделяется среди лучших, что я видел. Мой коллега Кэлвин согласен с этой оценкой; когда он сравнил его с другими инструментами, он обнаружил, что Imagen 3 превосходит его по производительности.

Мы все еще находимся на ранних стадиях создания контента, генерируемого ИИ.

Когда Изображение 3 работает точно, результаты впечатляют. Независимо от того, являются ли это изображениями животных, городов, людей или других объектов, они получаются хорошо, хотя вы можете заметить слегка отредактированный внешний вид из-за стиля, напоминающего фотошоп. Поверьте мне, но я советую вам просмотреть галерею ниже для проверки. Помните, что мы все еще находимся на ранних стадиях создания контента, генерируемого искусственным интеллектом, поэтому подумайте о возможностях, которые эта технология может иметь всего через несколько лет!

Другие ограничения, о которых следует знать

Во время тестирования я столкнулся с неожиданными ограничениями этого инструмента, такими как невозможность для бесплатного пользователя создавать изображения людей, о чем ранее не упоминалось. Однако важно отметить, что существуют и другие ограничения, все из которых Google подробно описал на своем веб-сайте. Было бы полезно просмотреть эти ограничения перед использованием инструмента.

Изображение 3, независимо от того, является ли это бесплатным или платным планом, будет воздерживаться от создания изображений, которые будут сочтены неуместными. Сюда входит визуальный контент, связанный с насилием, домогательствами, откровенно сексуальным контентом, дискриминацией и аналогичными темами. Кроме того, Изображение 3 не будет создавать изображения, пропагандирующие рискованные действия или содержащие фактически неверную информацию, которая потенциально может поставить под угрозу чью-либо безопасность.

Все эти ограничения являются общими для основных инструментов генерации изображений ИИ, за исключением инструмента Grok, который использует FLUX.1.

Смотрите также

2024-11-06 17:18