Исследователи Стэнфорда строят AI непосредственно в оптику камеры
До недавнего времени камеры были предназначены исключительно для создания изображений для людей - для развлечения, для искусства и для документирования истории. С быстрым ростом роботов, а также различными другими видами машин и транспортных средств, которые необходимо наблюдать и учиться в своей среде, многие камеры предназначены для задач машинного зрения. Некоторые из наиболее заметных из них, такие как автономные транспортные средства, в значительной степени полагаются на распознавание объектов, что почти повсеместно означает, что нейронные сети обучаются обычно обнаруженным объектам. Одним из ограничений на развертывание машинного зрения во многих встроенных системах, включая электромобили, является необходимая вычислительная и электрическая мощность. Поэтому имеет смысл переосмыслить дизайн камеры и рассмотреть, какая идеальная архитектура камеры для конкретного приложения, а не просто перепрофилировать существующие модели камер.
В этом духе команда из Стэнфордского университета во главе с доцентом Гордоном Ветцштейном и аспиранткой Джули Чанг построила прототип системы, которая перемещает первый слой нейронной сети распознавания объектов непосредственно в оптику камеры. Это означает, что первая часть требуемого вывода практически не требует времени и силы. Хотя их текущий прототип ограничен и громоздкий, он указывает путь для некоторых новых подходов к созданию решений с более низкой производительностью, более высокой производительностью, выводами в IoT, транспортных средствах и других встроенных приложениях. Исследование сильно опирается на AI, визуализацию и оптику, поэтому мы не можем подробно описать всю систему в одной статье. Но мы рассмотрим основные моменты и некоторые прорывы, которые делают этот прототип настолько интригующим.
Базовое распознавание объектов, стиль нейронной сети
В большинстве современных систем распознавания объектов используется многослойная нейронная сеть. Современные системы часто включают в себя десятки слоев, но можно встретить простые тестовые комплекты, такие как MNIST, QuickDraw Google и CIFAR-10, только с одним или двумя уровнями. Однако в глубине сети первый слой или слои обычно являются слоями свертки. Свертка - это процесс передачи матрицы (называемой ядром) над изображением, умножения ее в каждом месте и суммирования результата для создания матрицы активации. Проще говоря, процесс выделяет области изображения, похожие на шаблон ядра. Типичные системы включают в себя несколько ядер, каждый из которых отражает функцию, найденную в исследуемых объектах. По мере обучения сети эти ядра должны выглядеть как эти функции, поэтому полученные карты активации помогут более поздним уровням сети распознавать определенные объекты, которые включают в себя различные примеры функций.
Более поздние слои сети часто полностью подключены, которые проще вычислять, чем слои свертки. Гибридная оптическая цифровая камера Stanford не относится к этим, но вместо этого модели заменяют вычислительно дорогостоящий начальный слой свертки на оптическую альтернативу, которую команда называет слоем opt-conv. Нет никакого удобного способа с традиционной оптикой выполнить свертку, пусть многократные свертки, на изображении. Однако, если изображение сначала превращается в его эквивалент частоты с использованием преобразования Фурье, внезапная внезапная свертка становится возможной - поскольку умножение в частотной области подобно выполнению свертки в традиционной пространственной области.
Чтобы воспользоваться этим свойством, команда опирается на технологии фурье-оптики, создавая так называемую оптическую систему 4f. Система 4f полагается на исходную линзу, чтобы отобразить преобразование Фурье изображения. Система позволяет обрабатывать преобразованное изображение с использованием промежуточного фильтра или фильтров, а затем меняет преобразование с помощью конечного объектива и отображает измененный результат.
Магия оптического вычисления уровня свертки
Существует много довольно глубокой науки, которая входит в оптическую часть прототипа Стэнфорда, но в основном объединяет несколько мощных методов, которые мы можем описать (если не полностью объяснить) довольно кратко:
Во-первых, это хорошо известная особенность преобразования Фурье (который принимает сигнал или изображение и отображает его с точки зрения частот), что вы также можете отменить его и вернуть исходное изображение. Важно то, что вы можете сделать это, используя простую оптическую систему с только двумя объективами, называемую оптической системой 4f (вся эта область оптики называется Fourier Optics).
Во-вторых, если вы фильтруете преобразование Фурье изображения, передавая его через частично непрозрачную поверхность, это то же самое, что и выполнение свертки.
В-третьих, вы можете разбивать несколько ядер на один фильтр и применять их к дополненной версии исходного изображения. Это имитирует поведение многоядерной системы, которая обычно генерирует многоканальный выход, создавая тот, который выводит черепичный эквивалент, как показано здесь:
Таким образом, вычисляя желаемые ядра с использованием традиционных методов машинного обучения, их можно использовать для создания настраиваемого фильтра - в виде фазовой маски различной толщины - которая может быть добавлена к середине системы 4f, чтобы мгновенно выполнить свертки как свет проходит через устройство.
Обучение и реализация оптического слоя свертки
Одно из ограничений предлагаемой оптической системы заключается в том, что аппаратный фильтр должен быть изготовлен на основе подготовленных весов. Поэтому нецелесообразно использовать систему для обучения. Обучение проводится с помощью моделирования системы. После определения необходимых конечных весов они используются для изготовления фазовой маски (фильтр с изменяющейся толщиной, который изменяет фазу проходящего через него света) с 16 возможными значениями, которые могут быть установлены в линию с оптическим трубопроводом 4f.
Оценка производительности гибридной оптико-электронной камеры
Команда Stanford оценила эффективность своего решения как в симуляции, так и в использовании своего физического прототипа. Они протестировали его как способ создания автономного оптического коррелятора с использованием набора данных QuickDraw Google, так и в качестве первого слоя двухслойной нейронной сети, который был объединен с полностью связанным слоем для базового распознавания объектов с использованием набора данных CIFAR-10. Даже после ограничения оптической системы, что все веса должны быть неотрицательными, в качестве коррелятора система достигла точности между 70 и 80 процентами. Это похоже на более традиционный сверточный слой, созданный с использованием стандартных методов машинного обучения, но без необходимости иметь вычислительные элементы с питанием для выполнения сверток. Аналогично, двухслойное решение, использующее гибридный оптико-электронный первый слой, достигало около 50 процентов на CIFAR-10, примерно так же, как традиционная двухслойная сеть, но с небольшой долей вычислительной мощности - и, следовательно, электрическая мощность - типичного решения.
Хотя текущий прототип громоздкий и требует монохромного источника света, а также работает только с изображениями в оттенках серого, команда уже начала думать о том, как продлить его работу в более типичных условиях освещения и полноцветных изображениях. Аналогично, сама система 4f потенциально может быть уменьшена по размеру с помощью плоских дифракционных оптических элементов для замены текущих линз.
Чтобы узнать больше, вы можете прочитать полную статью команды в Научных отчетах природы. Команда также заявила, что они будут публиковать полный исходный код для своей системы.
Читать далее
Сторонние ремонтные мастерские могут быть заблокированы для обслуживания камеры iPhone 12
Согласно недавнему отчету iFixit, неприязнь Apple к праву на ремонт достигла новых высот с iPhone 12 и iPhone 12 Pro.
Новый смартфон Sony Xperia Pro - это аксессуар для камеры за 2500 долларов
Это устройство предназначено для профессиональных фотографов и энтузиастов, которым нужен мощный аксессуар для своих фотоаппаратов. Это также первый смартфон Sony 5G в США, но его цена потрясающая - 2500 долларов.
Google будет использовать камеру Pixel для измерения пульса и дыхания
Как и многие другие проекты машинного обучения Google, этот в первую очередь появится на телефонах Pixel, и, вероятно, он будет реализован на других телефонах.
В новом телефоне Xiaomi есть дополнительный дисплей в горке камеры
Китайский мобильный гигант Xiaomi собирается анонсировать новое устройство под названием Mi 11 Ultra, и информация об устройстве просочилась рано. У него есть гигантский модуль камеры, поддерживающий до 120-кратного увеличения, и даже дополнительный экран. Да скрин в горбатой камере. Думаю, почему бы и нет?