OpenAI «DALL-E» генерує зображення з текстових описів

Штучний інтелект дуже добре попрацював у деяких справах - він навіть наближається до можливостей людей, коли йдеться про розпізнавання об’єктів та створення тексту. А як щодо мистецтва? OpenAI розробив нову нейронну мережу під назвою DALL-E (це як Далі, що киває улюбленому роботу Pixar WALL-E). Все, що вам потрібно зробити, - це дати DALL-E деякі вказівки, і він може намалювати для вас зображення. Іноді візуалізація трохи краща за малювання пальцями, але інколи це вражаюче точні зображення.

Останнім часом OpenAI публікує новини для своїх нейромереж GPT, яких іноді називають «генераторами фейкових новин» через те, наскільки добре вони можуть вигадувати брехню для підтримки вхідного тексту. GPT3 показав, що великі нейронні мережі можуть виконувати складні лінгвістичні завдання. Команда хотіла побачити, наскільки такий ШІ може переміщатися між текстом та зображеннями. Як і GPT3, DALL-E підтримує "міркування з нульовим пострілом", дозволяючи йому генерувати відповідь з опису та репліки без будь-якого додаткового навчання. На відміну від GPT, DALL-E - це модель мови-трансформера, яка може приймати як текст, так і зображення як вхідні дані. DALL-E не потребує точних значень та інструкцій, як механізм 3D-рендерингу; попереднє навчання дозволяє заповнювати пропуски, щоб додати деталі, не зазначені у запиті.

Приклад: Дивіться нижче кілька пінгвінів-малюків, які носять різдвяні светри та грають на гітарі. Не потрібно говорити, що пінгвін має капелюх Діда Мороза - DALL-E просто придумує цю деталь самостійно в декількох візуалізаціях.

DALL-E також краще розуміє об'єкти в контексті порівняно з іншими художниками ШІ. Наприклад, ви можете попросити DALL-E фотографії телефону або пилососа за певний проміжок часу, і він зрозуміє, як змінилися ці предмети. Ну, принаймні загалом. На деяких із зображень будуть кнопки в неправильному місці або химерна форма. Але всі вони відображаються з нуля в ШІ.

Ця химерна смуга допомагає DALL-E захоплювати різні концепції захоплюючими способами. Коли його просять об’єднати равлика та арфу, він пропонує кілька розумних варіацій на тему. Завдяки більш простим інструкціям, таким як «намалювати смайлик з авокадо, що розбивається», ви отримуєте кілька хитрих і досить чарівних варіантів, які Unicode повинен розглянути, додаючи до офіційного списку смайлів.

Команда також показала, що DALL-E може поєднувати текстові інструкції та візуальне підказку. Ви можете подати це зображення та попросити модифікації того самого зображення. Наприклад, ви можете показати коту DALL-E і попросити ескіз кота. Ви також можете попросити DALL-E додати сонцезахисні окуляри до кота або зробити його іншим кольором.

У OpenAI є сторінка, де ви можете пограти з деякими більш цікавими вхідними значеннями. Модель все ще досить обмежена, але це лише початок. OpenAI планує вивчити, як DALL-E може вплинути на економіку (додайте ілюстраторів до списку робочих місць, яким загрожує ШІ), і можливість упередженості результатів.

Читати далі

Intel детально описує стратегію XPU, запускає новий серверний графічний процесор, OneAPI Gold

OpenAI «DALL-E» генерує зображення з текстових описів

Читати далі

Intel детально описує стратегію XPU, запускає новий серверний графічний процесор, OneAPI Gold

Mojo Vision детально описує свій перший розумний контактний об'єктив

AI може розблокувати секрети таємничого рукопису Войніча

Витік Microsoft Email описує подвійний екран "Andromeda" пристрою