Janus Pro от DeepSeek: неудачная попытка создания изображений

Среди ажиотажа вокруг DeepSeek, пионера в области ИИ, я взволнован тем, что китайская компания активизировала свою игру, представив свою первоначальную модель генерации изображений. Названная Janus Pro, это их интерпретация всеобъемлющей языковой модели, которая сочетает в себе мультимодальное понимание и создание изображений, стоя плечом к плечу с такими устоявшимися моделями, как Stable Diffusion, Imagen 3 от Google и DALL-E 3 от OpenAI.

DeepSeek представляет угрозу для опытных игроков, но сможет ли Janus Pro составить ему конкуренцию?

DeepSeek выделяется благодаря своей экономически эффективной подготовке и доступности, при этом обеспечивая производительность и точность, сопоставимые с OpenAI. Проще говоря, если модель сможет работать так же хорошо или лучше, чем сегодняшние ведущие генераторы изображений ИИ, она может стать серьезным вызовом для текущих усилий таких компаний, как Adobe и других лидеров отрасли.

По мере того, как использование контента, созданного с помощью ИИ, становится все более распространенным, растет спрос на модели изображений, которые могут сбалансировать креативность с реалистичной точностью. Вопрос в том: соответствует ли Janus Pro этим ожиданиям?

Создание фреймворка тестирования

Я решил сравнить Janus Pro с пятью ведущими моделями генерации изображений: Stable Diffusion, DALL-E 3 от OpenAI, Imagen 3 от Google, Meta AI и Adobe Firefly.

Для справедливости в сравнении я предоставил идентичные подсказки для всех шести моделей генерации изображений и выбрал начальный вывод, а не лучшие показатели. Хотя это не очень технический метод оценки, я стремился смоделировать опыт среднего пользователя.

Пользователи часто вводят запрос и надеются на почти безупречный ответ сразу же. Чтобы имитировать типичное взаимодействие с пользователем, я сосредоточился на первоначальных, неотцензурированных результатах вывода во время тестирования.

Насколько хорошо ИИ может генерировать фотореалистичные изображения?

В своей первоначальной оценке я стремился оценить, как различные модели генерации изображений справляются с созданием реалистичного изображения. Я разработал определенный сценарий, сосредоточился на условиях освещения и оценил их способность воспроизводить животное, в частности, пухлого рыжего кота. Вот пересмотренный запрос: Высокореалистичное изображение, изображающее пухлого рыжего кота, преследующего клубок пряжи в залитом солнцем саду.

Знаете, создание фотореалистичных изображений — сложная задача для ИИ, потому что ему нужно правильно передать все мелкие детали, например, откуда падает свет, как текстуры выглядят вблизи и выглядят ли вещи трехмерными или нет. Мне было очень интересно посмотреть, насколько хорошо модели смогут сделать мех кошки реалистичным, как они справятся с солнечным светом в садовой обстановке и смогут ли они сделать пряжу динамичной и осязаемой.

При беглом взгляде становится ясно, что Janus Pro имеет больше сходства с первоначальной версией модели Dall-E text-to-image, чем с любыми последующими релизами. Выходные данные имеют заметно низкое разрешение и не особенно фотореалистичны. Напротив, Stable Diffusion значительно близок к фотореалистичной подсказке, однако его слишком большой хвост намекает на его искусственное происхождение.

Третье место занимает Adobe Firefly, изображение на котором практически неотличимо от тщательно отредактированной фотографии — пока вы не сфокусируетесь на лице. Остальные претенденты, Imagen 3, Dall E и Meta AI, достойны уважения, но я бы не стал называть их изображения фотореалистичными.

Тестирование способности ИИ улавливать разнообразие и детали

Для второго раунда тестирования я решил усложнить задачу. Системам ИИ часто бывает сложно воспроизводить естественно выглядящие лица, руки и широкий спектр людей. Чтобы еще больше усложнить задачу для существующих моделей генерации изображений, я предоставил сложные инструкции об обстановке и условиях освещения. В этом случае мои инструкции были особенно подробными, поскольку модели ИИ работают лучше с точными инструкциями: Групповое селфи с участием студентов колледжа разных культур, наслаждающихся обедом за пределами горнолыжного курорта, демонстрирующее отдельные лица — как мужские, так и женские, представляющие разные этнические группы — зимой в полдень, под частично облачным небом с голубыми оттенками.

Здесь мы столкнулись с множеством препятствий: от точного изображения различных оттенков кожи до создания реалистичных выражений лица и избежания каких-либо искажений при изображении рук.

Janus Pro снова сильно отстает от других моделей генерации изображений. На самом деле, это вообще не конкурент. Несмотря на сверхъестественную ИИ-ность, видимую во всех снимках, Stable Diffusion, Adobe Firefly и Imagen 3 бросили здесь серьезный вызов, настолько серьезный, что я вынес его на обсуждение в канале Android Authority Slack. Лично я склоняюсь здесь к результатам Imagen 3.

Тест на креативность

Чтобы оценить эффективность моделей генерации изображений в творческих проектах для моей итоговой оценки, я решил бросить им вызов, попросив их разработать нового персонажа мультфильма, напоминающего традиционных персонажей Диснея. Вот как я описал задачу: разработать уникальную фигурку мультфильма, которая несет в себе атмосферу классического шарма Диснея, с большими глазами и причудливыми, магическими чертами.

Я стремился к уникальному дизайну, воплощающему очарование персонажей в стиле Диснея, избегая при этом чрезмерного подражательного подхода, с помощью выразительных глаз, творческих деталей и живых размеров.

Если бы Иероним Босх изобразил персонажей Диснея, его работа могла бы напоминать работу Януса Про. Напротив, Stable Diffusion явно создал изображение, напоминающее более молодую Эльзу из Frozen. Однако, учитывая его способность точно выполнять задачу, я бы сказал, что Stable Diffusion выходит победителем в этом случае.

Если бы Иероним Босх решил нарисовать персонажей Диснея, у него наверняка получилось бы что-то вроде картины Janus Pro.

Другие модели генерации изображений не полностью отражают стиль Disney, но я бы сказал, что результаты Meta AI были больше похожи на результаты Pixar. Тем не менее, за исключением Janus, все эти модели могут функционировать как основа для исследования идей.

Является ли Janus Pro серьезным конкурентом в области генерации изображений?

Я предпочитаю традиционное искусство моделям генерации изображений, потому что им, кажется, не хватает подлинных эмоций и оригинальности, которые привносят настоящие художники. Тем не менее, эти модели могут оказаться полезными для быстрой концептуализации, мозгового штурма новых идей или предоставления базовых визуальных эффектов для акцентирования внимания на моменте во время презентации.

По сути, различные инструменты часто используются экспертами по маркетингу для создания контента социальных сетей и быстрого визуального дизайна, педагогами для инновационных планов уроков и дизайнерами игр для первоначальных идей по окружению и персонажам. Однако вопрос о том, могут ли эти модели полностью заменить творчество человека-художника, все еще остается предметом обсуждения.

Janus Pro знаменует выход Deepseek на рынок генерации изображений, но компании еще предстоит пройти долгий путь, прежде чем она сможет конкурировать с лидерами отрасли.

Janus Pro может стать первым шагом DeepSeek в сфере создания изображений, однако очевидно, что предстоит еще многое сделать, прежде чем он сможет напрямую сравниться с такими устоявшимися моделями, как Stable Diffusion, Adobe Firefly и Imagen 3.

Несмотря на трудности с созданием реалистичных изображений, сложных лицевых аранжировок и инновационных подсказок, его присутствие подчеркивает растущую интенсивность инноваций в области ИИ. Поскольку технологии продолжают развиваться, интересно рассуждать о том, куда могут направиться модели генерации изображений. Станет ли Janus Pro когда-нибудь грозным конкурентом?

Смотрите также

2025-01-30 17:18