DeepMind создает AI, который восстанавливает 3D-объекты с одной фотографии

DeepMind создает AI, который восстанавливает 3D-объекты с одной фотографии

В течение последних лет подразделение DeepMind компании Google участвовало в самых крутых прорывах AI в искусстве, от перехитрительных игроков Go Go до разработки более реалистичного синтеза речи. Теперь DeepMind стремится улучшить способ понимания машин и моделировать 3D-пространства. Исследователи DeepMind AI создали нейронную сеть, которая может предсказать, какое пространство будет выглядеть после просмотра одного или нескольких изображений, даже если видны только части комнаты.

В основе этого проекта лежит задача упростить обучение нейронных сетей. Как правило, вы должны заставить людей маркировать данные, которые вы используете для обучения нейронной сети. После подачи данных в узлах в сети вычисляют вес и подачу вперед в большее количество узлов. В конце концов, выход системы должен соответствовать тому, что вы ввели. Конечно, сначала это не будет, поэтому вам нужно настроить сеть, пока она не будет обучена. Новая генерирующая сеть запросов DeepMind (GQN) может учиться на немедленных входах и применять свои знания для новых ситуаций.

Команда создала 3D-виртуальные пространства из векторов, а затем создавала однокадровые изображения из них для анализа системы. GQN на самом деле две нейронные сети - есть сеть, которая учится на изображениях, а вторая - создает новые перспективы. Команда смоделировала виртуальную руку робота, блок-подобный стол и простой лабиринт.

После обучения GQN на миллионах изображений система может создавать точные представления объекта или комнаты только с одним неподвижным изображением. Это похоже на то, как работает ваш мозг. Если вы видите стену посреди комнаты, вы, вероятно, предположите, как выглядит другая сторона, и где она расположена по сравнению с другими предметами, которые вы видите.

GQN использует ограниченные данные для восстановления всей комнаты.
GQN использует ограниченные данные для восстановления всей комнаты.

DeepMind считает, что такая технология может быть жизненно важна в таких областях, как автомобили с самостоятельным вождением, где система может не иметь всей доступной информации о предстоящих дорожных условиях. Однако, возможно, он может прогнозировать с высокой степенью точности, исходя из того, что он знает.

Изображения, показанные в GQN, очень просты по сравнению с реальным миром, и все еще потребовалось несколько месяцев, чтобы получить скорость сети на текущем оборудовании. Может потребоваться еще несколько поколений усовершенствований обработки, прежде чем такая система может приблизиться к пониманию и прогнозированию компоновки сложной ситуации в реальном мире.