«DALL-E» OpenAI генерирует изображения из текстовых описаний

Искусственный интеллект в некоторых вещах очень хорош - он даже приближается к возможностям людей, когда дело доходит до распознавания объектов и создания текста. А как насчет искусства? OpenAI разработал новую нейронную сеть под названием DALL-E (это как Дали, отсылающий к любимому роботу Pixar WALL-E). Все, что вам нужно сделать, это дать DALL-E несколько инструкций, и он может нарисовать для вас изображение. Иногда визуализация немного лучше, чем рисование пальцами, но иногда это потрясающе точные изображения.

В последнее время OpenAI выпускает новости для своих нейронных сетей GPT, которые иногда называют «генераторами фейковых новостей» из-за того, насколько хорошо они могут придумывать ложь для поддержки вводимого текста. GPT3 показал, что большие нейронные сети могут выполнять сложные лингвистические задачи. Команда хотела посмотреть, насколько хорошо такой ИИ может перемещаться между текстом и изображениями. Как и GPT3, DALL-E поддерживает «рассуждение с нулевым выстрелом», позволяя генерировать ответ из описания и подсказки без какого-либо дополнительного обучения. В отличие от GPT, DALL-E - это языковая модель-трансформер, которая может принимать как текст, так и изображения в качестве входных данных. DALL-E не требует точных значений и инструкций, как движок 3D-рендеринга; его прошлое обучение позволяет ему заполнять пробелы, чтобы добавить детали, которые не указаны в запросе.

Показательный пример: ниже вы можете увидеть некоторых пингвинов в рождественских свитерах, играющих на гитаре. Не нужно говорить, что у пингвина есть шляпа Санты - DALL-E просто придумывает эту деталь самостоятельно в нескольких визуализациях.

DALL-E также лучше понимает объекты в контексте по сравнению с другими художниками AI. Например, вы можете попросить DALL-E сфотографировать телефон или пылесос за определенный период времени, и он поймет, как эти объекты изменились. Ну хотя бы в целом. На некоторых изображениях кнопки не в том месте или они имеют причудливую форму. Но все это рендерится с нуля в AI.

Эта причудливая полоса помогает ДАЛЛ-И увлекательным образом сочетать несколько концепций. Когда его просят объединить улитку и арфу, он предлагает несколько умных вариаций на эту тему. С помощью более простых инструкций, таких как «нарисуйте смайлик из влюбленного авокадо», вы получите несколько хитрых и довольно очаровательных вариантов, которые Unicode следует рассмотреть для добавления в официальный список смайлов.

Команда также показала, что DALL-E может сочетать текстовые инструкции и визуальную подсказку. Вы можете скормить ему изображение и попросить изменить это же изображение. Например, вы можете показать ДАЛЛ-И кота и попросить его набросок. Вы также можете попросить DALL-E добавить кошке солнцезащитные очки или сделать ее другого цвета.

В OpenAI есть страница, на которой вы можете поиграть с некоторыми из наиболее интересных входных значений. Модель все еще довольно ограничена, но это только начало. OpenAI планирует изучить, как DALL-E может повлиять на экономику (добавить иллюстраторов к списку рабочих мест, которым угрожает ИИ), и изучить возможность предвзятости в результатах.