Генератор преобразования текста в изображение ИИ

Время чтения: 11 минуты Прочту позже

Недавно OpenAI выпустили генератор преобразования текста в изображение DALL · E 2 для тестирования. И это настоящая магия. По сути, все, что вам нужно сделать — это описать то, что вы хотите увидеть на естественном языке. И модель ИИ будет использовать свои нейронные сети для генерации некоторых изображений. Как волшебное зеркало.

Если бы вы могли увидеть что угодно в мире, что угодно, что бы это было? Как и любой здравомыслящий человек, я сразу понял, чего хочу. Мне не нужно было думать об этом дважды. Потому что в глубине души мы знаем, что все хотим это увидеть. Моя мысль была такой: Клеопатра и Марк Антоний создают рок-группу. Вот что придумал искусственный интеллект DALL · E 2:

Потрясающе! Конечно, некоторые изображения, созданные ИИ, немного не корректны. Возможно, вы заметили, что тексты, сгенерированные вдоль изображений, являются чистой тарабарщиной. Но при небольшой доработке изображения, созданные DALL · E 2 от OpenAI, могут легко оказаться на обложке дебютного альбома Марка и Клео.

Теперь это поднимает несколько важных вопросов. Если я был тем, кто придумал идею, делает ли это меня автором? Станет ли написание подсказок какой-то новой формой искусства? Так ли люди будут создавать произведения искусства, изображения и фильмы в будущем? И если да, значит ли это, что мы все станем художниками? Или искусственный интеллект станет своего рода высшей творческой силой, а люди станут просто кураторами того, что он создает?

Лично я не могу дождаться, когда эта технология станет более зрелой и общедоступной. До сих пор навигация внутри AI dreams была очень увлекательным занятием. Но что думают другие?

Генератор преобразования текста в изображение: возможности и опасности

Мы провели опрос и спросили интернет-пользователей, художников и энтузиастов ИИ об их мнении о взаимосвязи между ИИ и искусством. Мы также показали им подборку изображений и спросили, могут ли они решить, была ли картина или фотография сгенерированы искусственным интеллектом.

Некоторые изображения, созданные с помощью OpenAI, были признаны более достоверными, чем настоящие картины (!)

Оказалось, что за сюрреалистическую картину 80-х годов 68% опрошенных проголосовали как написанную человеком. В то же время картина, созданная с помощью DALL · E 2, была оценена 73% из них как произведение искусства, созданное человеком.

И вот что еще мы выяснили.

Почти 67% считают, что изображения, созданные искусственным интеллектом, являются формой искусства.
Только 9% респондентов сказали, что легко решить, были ли изображения сгенерированы ИИ или созданы художниками (спойлер: большинство из них все еще допускали ошибки).
По мнению респондентов нашего опроса, самые большие плюсы генеративной технологии ИИ — это простота концептуализации идей и помощь в поиске вдохновения
Многие респонденты обеспокоены неправильным использованием ИИ для создания достоверных подделок.
Некоторые респонденты обеспокоены обучением моделей ИИ на данных, которые увековечат наши предубеждения.

Очень интересно, что более половины респондентов были обмануты и приняли изображение, созданное ИИ, за настоящую картину. Однако с некоторыми примерами задача была проще. Изображения, созданные с помощью популярного сейчас приложения Craiyon (ранее известного как DALL · E mini, хотя и не одобренного или связанного с проектом OpenAI), никого не обманули, и подавляющее большинство респондентов признали их искусственным интеллектом.

Легко понять, почему.

Будет ли конкретное изображение, созданное искусственным интеллектом, выглядеть убедительно для нас, зависит от многих факторов. К ним относятся сложность сцены и неоднозначность подсказок, а также тип модели ИИ, выбранной для создания изображения.

Генератор преобразования текста в изображение: технология

Технология преобразования текста в изображение ИИ потенциально может быть использована для:

Создания иллюстраций и концепт-артов.
Создания дизайна персонажей мультфильмов.
Создания макетов анимации и комиксов.
Создания реалистичных матовых картин и фонов.
Разработки логотипов и обложек книг.
Создания стоковых и товарных фотографий.
Идеи мозгового штурма для любых работ, связанных с изобразительным искусством.
Подготовки визуализаций скульптур, архитектуры и дизайна интерьера.

Итак, профессиональные художники останутся без работы? Не обязательно. Тем не менее, люди, выполняющие задачи, упомянутые выше, как часть своей работы, должны следить за инструментами преобразования текста в изображение ИИ. Некоторые из них вскоре смогут использовать ИИ, чтобы упростить и ускорить свою работу.

Но это также означает, что скоро появится новое поколение художников и дизайнеров, у которых радикально иной подход к творческому процессу. Проектирование и создание эскизов вручную, а также рендеринг изображений могут стать менее актуальными, чем сейчас. С другой стороны, умение описывать генеративным моделям ИИ то, что вы хотите видеть, может стать востребованным навыком на рынке труда.

Эта технология настолько мощная, что может трансформировать всю известную нам креативную индустрию. Но это также значительно усложняет проблему авторства. В конце концов, модели ИИ используют существующие работы для обучения!

Станет ли новым стандартом фраза типа «это изображение подпадает под действие законов об авторском праве и не может использоваться для обучения моделей ИИ»? Это также может принять противоположный оборот, и создание высококачественных рисунков и картин исключительно с целью обучения моделей ИИ различным стилям станет новой прибыльной отраслью. Затем пользователи будут использовать ИИ для создания изображений и платить художникам лицензионные сборы за заимствование их стиля.

Давайте рассмотрим еще несколько примеров фотографий и иллюстраций преобразования текста в изображение с помощью искусственного интеллекта, чтобы понять, с чем именно мы имеем дело.

Примеры изображений, созданных с помощью DALL · E 2 и других генеративных ИИ

С точки зрения пользователя, создавать изображения с помощью генераторов ИИ чрезвычайно просто. Вы просто вводите подсказку — описание того, что вы хотите отобразить на картинке, и нажимаете кнопку. Генератор преобразования текста в изображение позаботится обо всем остальном, создавая изображение или набор изображений, которые отображают подсказку.

Некоторые из популярных генераторов искусственного интеллекта используют серверы Discord, куда вы можете отправить свое приглашение в виде обычного массажа. Вы можете просто использовать команду в специальном канале, и через некоторое время бот Discord сгенерирует изображение и опубликует его. Вот несколько интересных изображений, созданных ИИ.

1. Кошки, играющие на скрипках и крошечных виолончелях

Проверка того, сможет ли искусственный интеллект создать кошку, была одним из основных тестов ИИ в эксперименте, который мы проводили некоторое время назад. Технология, которую мы использовали ранее, не очень хорошо справлялась с созданием кошки в естественной позе.

Однако, прежде чем мы узнали об этом, появились новые инструменты, которые могут обрабатывать типичные изображения, а также более сложные сцены.

Кошки не имеют привычки играть на музыкальных инструментах (а если и имеют, то обычно делают это не очень хорошо). Такая необычная сцена должна быть сложной для генеративных моделей ИИ, потому что, вероятно, в наборах данных для обучения было не слишком много эталонных фотографий кошек, играющих на виолончелях.

Давайте посмотрим, как выглядит кошка, играющая на виолончели, согласно приложению Craiyon.

Теперь DALL · E 2 от OpenAI справился с этой задачей намного лучше.

Вопрос в том, действительно ли кошки играют на этих инструментах, все еще остается спорным. Но, конечно, созданные изображения намного лучшего качества. У ИИ также есть некоторые трудности с отображением правильной формы инструментов.

Эти проблемы становятся еще более очевидными, когда вы пытаетесь поместить кошку внутрь инструмента. Поскольку скрипка слишком мала, чтобы вместить кошку, давайте заменим инструмент на гитару.

Ни одна кошка не пострадала во время проведения этих экспериментов с ИИ. Давайте попробуем несколько вариантов с собаками.

2. Илон Маск и щенки

Большинство общедоступных генераторов преобразования текста в изображение не очень хорошо интерпретируют сложные подсказки. Предположим, мы хотели создать карикатуру для статьи об Илоне Маске и криптовалюте. Если мы хотим создать изображение Илона верхом на собаке Шиба-ину, то карандаша будет недостаточно.

Это вроде как работает. Но разрешение слишком низкое, чтобы определить, Элон ли это Маск. Давайте попробуем другую подсказку.

Хотя рендеринг не самый лучший, мы на самом деле получаем довольно хорошее изображение Илона Маска.

Теперь давайте попробуем использовать DALL · E 2 с неоклассической картиной маслом, изображающей Илона Маска в костюме Наполеона верхом на большой собаке Шиба-ину на поле боя.

Я знаю, о чем вы думаете. Этот парень не похож на Илона. И вы абсолютно правы. Если и есть что-то, чего этот ИИ не делает, так это изображает известных людей. Но это так задумано. Алгоритм изменяет черты лица, чтобы пользователи не создавали глубоко поддельные изображения с существующими людьми.

Гомер Симпсон будет выглядеть как Гомер Симпсон, но Борис Джонсон на самом деле не будет похож на себя. Вот почему DALL · E mini может быть намного лучше для создания мемов типа «Гордон Рэмси бросает стейк в Большой адронный коллайдер».

3. Аниме-мультфильмы и игровые персонажи

Очевидно, что некоторые приложения намного лучше интерпретируют подсказки, чем другие. Создание аниме-мальчика, держащего ежа Соника, как кота, сбило с толку большинство движков преобразования текста в изображение ИИ.

Вот результаты, полученные с помощью Discord с приложением Midjourney AI.

Это явный беспорядок. Нога Соника становится рукой аниме-мальчика. Они выглядят так, как будто они случайно использовали камеру телепортации вместе и были объединены.

Давайте посмотрим, справится ли OpenAI DALL · E 2 с этой задачей.

Все еще существует некоторая путаница в том, кто есть кто, и такие качества, как колючие синие волосы, смешиваются между обоими персонажами. Не говоря уже о коте. Однако в целом результаты намного лучше.

4. Куклы, связанные крючком, и фарфоровые фигурки персонажей мультфильмов

DALL · E 2 на удивление хорошо имитирует текстуры и материалы. Он может создавать реалистичные изображения предметов, сделанных из металла, дерева, грязи, глины или ткани. Он также может создавать более креативные и необычные комбинации, например, животных из стекла или персонажей из еды, например, картофельных миньонов.

Вот несколько кукол, связанных крючком, изображающих персонажей из популярного мультфильма.

А вот несколько фарфоровых статуэток в стиле позднего барокко, изображающих персонажа из другого популярного мультсериала.

Возможно, фарфор должен быть немного более блестящим. Это своего рода вещь, с которой мы можем экспериментировать и настраивать, добавляя дополнительные описания к нашим подсказкам преобразования текста в изображение с помощью искусственного интеллекта. Некоторые из последующих примеров покажут более подробные и точные описания.

5. Животные панк-рока, созданные с помощью искусственного интеллекта

Музыка, похоже, является основной темой наших экспериментов с ИИ. Давайте попробуем несколько подсказок, в которых используются культовые образы и наряды. Чтобы немного расшевелить ситуацию, мы создадим изображения животных с помощью искусственного интеллекта.

Интенсивная модная фотография формата F1.4 с высоким разрешением 50 мм, изображающая панк-рок-обезьяну в кожаной куртке, с шипастым воротником и ирокезом.

И вот как технология представила панк-гиену.

Низкая глубина фокусировки и определенное фокусное расстояние создают очень специфический тип фотографии. Однако мы также можем экспериментировать с различными техниками рисования.

Вот несколько акриловых иллюстраций, показывающих панк-рок-кошечек, созданных с помощью DALL · E 2.

Они выглядят довольно круто. Было бы чрезвычайно легко превратить их в коллекцию торговых карточек или NFT. Однако политика в отношении контента OpenAI прямо запрещает использовать DALL · E 2 для создания произведений искусства NFT. Каковы прочие правила использования генератора DALL-E 2?

Вы не можете создавать изображения, содержащие насилие, наготу или другие оскорбительные или тревожные визуальные элементы. Этот тип контента был исключен из обучающих данных, и вы также можете быть забанены за использование определенных слов. Например, вы не можете использовать слово смерть в своих подсказках. Даже если слово является частью фиксированного выражения или общего имени. Именно по этой причине вы не можете генерировать изображения из подсказки типа «Винни-Пух в стиле обложки дэт-металлического альбома». Вместо этого вы должны сменить его на хэви-метал или блэк-метал.

Винни-Пух в стиле обложки блэк-металлического альбома.

Теперь давайте вернемся к нашим любимым животным.

6. Кошки ходят в спортзал

Возможно, вы видели вирусную фотографию безволосого кота, похожего на бодибилдера. Попытка воссоздать похожее изображение через генератор преобразования текста в изображение ИИ была очень сложной. По какой-то причине такие вещи, как чрезвычайно сильный и очень мускулистый, не сработали так хорошо.

Хотя изображения выглядят довольно убедительно, а приложение OpenAI получило подсказку про спортзал, кошки по-прежнему выглядят тощими. Точная настройка подсказки привела к некоторым интересным результатам.

Но это все еще не совсем то, что вы ожидаете.

Интересно, что приложение Midjourney генерировало больше превосходных изображений. Хотя этих существ уже трудно назвать кошками.

Результаты несколько тревожат, но также и очень интригуют. Midjourney иногда может создавать изображения, которые выглядят гораздо более художественно и необычно. Экспериментирование с различными подсказками, безусловно, является средством художественного выражения в данном случае.

До сих пор мы использовали несколько разных приложений. Однако давайте попробуем назвать их по очереди. И узнайте, как создавать свои собственные художественные работы с помощью инструментов преобразования текста в изображение.

Лучшие приложения для преобразования текста в изображение и генераторы изображений ИИ

Человек, который хочет познакомиться с решениями ИИ для создания изображений, может быстро почувствовать себя дезориентированным. Прежде всего, почему так много ошибок? Какой из них настоящий?

DALL · E mini (теперь переименованный в Craiyon) — самое популярное и вирусное приложение на данный момент. Если вы видели причудливые мемы в социальных сетях, показывающие такие вещи, как «Спасение рядового Райана с помощью маппетов», они, вероятно, были сделаны с помощью DALL · E mini. DALL ·E FLOW — еще один проект, позаимствовавший название.

Вы знали? Название DALL · E является отсылкой к WALL · E, симпатичному роботу из анимационного фильма Pixar, и Сальвадору Дали, художнику-сюрреалисту.

DALL · E 2 — это официальное приложение, разработанное OpenAI. Он дает наилучшие результаты, но доступ к нему ограничен. Вы можете присоединиться к списку ожидания, но на получение приглашения могут уйти месяцы.

Итак, лучшие и наиболее широко используемые инструменты ИИ для создания изображений прямо сейчас:

DALL·E 2 (OpenAI)
Midjourney
DALL · E FLOW
DALL·E mini

Вот как они сравниваются друг с другом

1. DALL · E 2 (автор OpenAI)

Современное решение для создания рендеринга текста в изображение с помощью ИИ. Вы можете отправлять запросы для получения нескольких результатов. Затем вы можете выбрать свой любимый вариант и создать дополнительные его варианты. Для создания вариантов вы также можете загрузить любое собственное изображение.

2. Midjourney

Midjourney — это приложение преобразования текста в изображение на основе подписки, которое работает через сервер Discord. Вы можете получить к нему доступ, чтобы просматривать изображения, созданные другими пользователями, или отправлять свои собственные запросы через сообщения. Весь процесс интуитивно понятен. Вы можете создать около 200 изображений примерно за 10 долларов, что кажется справедливой ценой. Только подумайте об этом: вы можете получить новый классный дизайн плаката за 5 центов!

3. ПОТОК DALL · E

Это решение преобразования текста в изображение ИИ может генерировать очень интересные результаты, и оно совершенно бесплатно. К сожалению, оно немного сложнее в использовании, потому что вам нужно самостоятельно инициализировать процесс с помощью записной книжки Colab. Это означает нажатие нескольких кнопок, изменение команды с помощью вашей подсказки и ее выполнение — все это чрезвычайно просто сделать, но может выглядеть устрашающе.

4. DALL·E mini

DALL-E mini не был создан OpenAI. Это название используется различными проектами, которые хотят воспользоваться его популярностью. Этот инструмент самый простой в использовании и самый популярный среди пользователей. Вам просто нужно зайти на веб-сайт, ввести запрос, и примерно через 1 минуту вы сможете увидеть свои результаты. И, честно говоря, они могут быть довольно забавными.

5. Imagen (от Google)

Кроме того, Google работает над собственным передовым решением для преобразования текста в изображение с использованием моделей машинного обучения и распространения. Однако в настоящее время получить доступ к этому приложению или опробовать его из первых рук сложнее всего. По сообщениям, он создает изображения, которые могут конкурировать с DALL · E 2.

Но даже когда вы получите в свои руки одно из приложений, описанных выше, вам, вероятно, пригодятся некоторые советы. Обычно существуют ограничения по времени и поколению, поэтому имеет смысл с самого начала создавать более качественные подсказки для генеративного ИИ. Если вы можете пробовать только несколько подсказок в день, вы должны стараться учитывать каждую из них.

Генератор преобразования текста в изображение: как написать текстовые подсказки

На самом деле нет никаких конкретных правил о том, как создавать эффективные подсказки для ИИ. Различные генеративные модели ИИ фокусируются на разных частях текста. Результаты могут быть совершенно непредсказуемыми, поэтому лучше поэкспериментировать самостоятельно.

Мы можем переставить части ваших описаний и использовать их как взаимозаменяемые. Кроме того, упоминая что-то несколько раз, мы можем сделать больший акцент на конкретном интересующем нас аспекте.

Наиболее универсальная формула для создания подробных и описательных подсказок будет выглядеть примерно так:

Вот пример:

Выглядит довольно реалистично, не так ли?

Искусство, созданное искусственным интеллектом: заключение

Очевидно, что инструменты преобразования текста в изображение становятся все более популярными, и на то есть веские причины. Это может быть очень весело, и у них также есть потенциал для получения действительно отличных результатов.

Скорость, с которой развивается ИИ, может быть ошеломляющей. Но вместо того, чтобы беспокоиться, вероятно, лучше сосредоточиться на том, как мы можем использовать генеративный ИИ для повышения нашего творчества.

К счастью, пока не нужно беспокоиться о смерти искусства. Генератор преобразования текста в изображение ИИ становится все лучше и лучше в создании реалистичных изображений. Но им еще предстоит пройти долгий путь, прежде чем они смогут создавать произведения искусства, способные соперничать с созданными людьми.

Если вы не хотите погружаться в сложный мир компьютерных технологий, а просто хотите бота или сайт для бизнеса, заполняйте нашу форму на сайте или пишите нам в Телеграм.

Оригинал статьи опубликован на сайте tidio на английском языке. Мы перевели и адаптировали ее для вас:)

871