Стенфордські дослідники будують AI прямо в оптиці камери

Стенфордські дослідники будують AI прямо в оптиці камери

До недавнього часу камери були призначені виключно для створення зображень для людей - для веселощів, для мистецтва, а також для документування історії. Завдяки швидкому зростанню роботів, а також різноманітних інших видів машин і транспортних засобів, які необхідно спостерігати та навчатися в їхньому середовищі, багато камер присвячені завданням машинного зору. Деякі з найбільш видимих ​​з них, як автономні машини, сильно залежать від розпізнавання об'єктів, що практично в усьому світі означає нейрові мережі, навчені на часто зустрічаються об'єкти. Одні обмеження на розміщення машинного зору у багатьох вбудованих системах, включаючи електромобілі, є необхідною обчислювальною та електричною потужністю. Тому має сенс повторно уявити дизайн камери та врахувати, що є ідеальною архітектурою камери для конкретної програми, а не просто відтворювати існуючі моделі камери.

У цьому дусі, команда в Стенфордському університеті на чолі з доцентом Гордоном Ветхстайном та аспірантом Джулі Чанг створила прототип системи, яка переносить перший шар нейронної мережі розпізнавання об'єктів безпосередньо в оптику камери. Це означає, що перша частина необхідної вказівки практично не має часу і ніякої сили. Хоча їх поточний прототип обмежений та величезний, він вказує шлях на деякі нові підходи до створення менш потужних, високоефективних рішень для впорядкування в IoT, автомобілі та інших вбудованих додатках. Дослідження здебільшого пов'язані з AI, зображеннями та оптикою, тому ми не можемо детально описати всю систему в одній статті. Але ми проведемо вас через основні моменти та деякі прориви, які роблять прототип таким інтригуючим.

Основне розпізнавання об'єктів, стиль нейронної мережі

Найбільш сучасні системи розпізнавання об'єктів використовують багатошарову нейронну мережу. Найсучасніші системи часто включають десятки шарів, але можна звертатися до простих наборів тестів, таких як MNIST, Google QuickDraw і CIFAR-10, лише з одним шаром або двома. Проте в глибині мережі перший шар або шари - це, як правило, конвекційні шари. Конволюція - це процес передачі матриці (називається ядром) над зображенням, множимо його на кожному місці та підсумовує результат, щоб створити матрицю активації. Простіше кажучи, процес виділяє ділянки зображення, схожі на шаблон ядра. Типові системи включають декілька ядер, кожен з яких відображає функцію, що знаходиться в досліджуваних об'єктах. Оскільки мережа навчається, ці ядра повинні починати виглядати як такі функції, тому отримані активаційні картки допоможуть пізніше рівням мережі розпізнавати конкретні об'єкти, що містять різні приклади функцій.

Пізніше шари мережі часто повною мірою підключаються, які простіші для обчислення, ніж конвекційні шари. Стенфордська гібридна оптико-цифрова камера не розглядає ці, а замість моделей, що заміняють обчислювально дорогий початковий рівень згортка з оптичною альтернативою, яку команда називає рівнем opt-conv. З традиційною оптикою не існує ніякого зручного для згортки зображення, нехай під час декількох сверток. Однак, якщо зображення спочатку перетворюється на його еквівалент частоти за допомогою перетворення Фур'є, швидка згортка стає в змозі раптово стати можливим - оскільки множення в частотній області схоже на виконання згортки в традиційній просторовій області.

Щоб скористатися цією властивістю, команда спирається на методи Фур'є-оптики, будуючи так звану оптичну систему 4f. Система 4f спирається на початкову лінзу для перетворення Фур'є зображення. Система дозволяє обробляти перетворене зображення за допомогою проміжного фільтра або фільтрів, а потім перетворює перетворення з кінцевою лінзою і робить модифікований результат.

Фур'є-оптична система, що реалізується в телескопі 4f, включаючи фазову маску для реалізації згортки зображень
Фур'є-оптична система, що реалізується в телескопі 4f, включаючи фазову маску для реалізації згортки зображень

Магія оптичного обчислення рівня згортка

Існує безліч досить глибоких наук, які входять у оптичну частину прототипу Стенфорда, але це, по суті, об'єднує декілька потужних методів, які ми можемо описати (якщо не повною мірою пояснити) досить коротко:

По-перше, це відома особливість перетворення Фур'є (які приймають сигнал або зображення, і робить це з точки зору частот), що ви також можете повернути його назад і отримати оригінальне зображення назад. Важливо, що ви можете зробити це, використовуючи просту оптичну систему з лише об'єктивом пари, що називається оптичною системою 4f (ця вся область оптики називається Фур'є-оптикою).

По-друге, якщо ви фільтруєте перетворення Фур'є зображення, пропускаючи його через частково непрозору поверхню, це те ж саме, що і виконання згортки.

По-третє, ви можете скопіювати кілька ядра у єдиний фільтр і застосувати їх до опущеної версії оригінального зображення. Це імітує поведінку декількох систем ядра, які зазвичай створюють багатоканальний вихід, створюючи той, який виводить екземпляр з черепицею, як показано тут:

Багатоканальний вихід традиційного згорткового шару можна імітувати за допомогою черепиці в оптичній системі
Багатоканальний вихід традиційного згорткового шару можна імітувати за допомогою черепиці в оптичній системі

Тому, обчисливши потрібні ядра за допомогою традиційних методів машинного навчання, вони можуть бути використані для створення власного фільтра - у вигляді фазової маски різної товщини -, який можна додати до середини системи 4f, щоб миттєво виконувати згортки, як світло проходить через пристрій.

Навчання та реалізація рівня оптичної конверсії

Одне обмеження запропонованої оптичної системи полягає в тому, що апаратний фільтр повинен бути виготовлений на підставі підготовлених ваг. Тому не практично використовувати систему для самостійної підготовки. Тренінг проводиться за допомогою симуляції системи. Після того, як визначаються необхідні остаточні ваги, вони використовуються для виготовлення фазової маски (фільтр з різною товщиною, який змінює фазу світла, що проходить через неї) з 16 можливими значеннями, які можуть бути розміщені в поєднанні з оптичним трубопроводом 4f.

Вивчені ваги використовуються для створення шаблону маски, який потім виготовляється в маску різної товщини
Вивчені ваги використовуються для створення шаблону маски, який потім виготовляється в маску різної товщини

Оцінка продуктивності гібридної оптико-електронної системи камери

Стенфордська команда оцінила ефективність своїх рішень як у моделюванні, так і за допомогою свого фізичного прототипу. Вони перевіряли його як на способи створення автономного оптичного корелятора з використанням набору даних Google QuickDraw, так і як перший шар дворівневої нейронної мережі, який був об'єднаний з повністю підключеним шаром для розпізнавання базового об'єкта за допомогою набору даних CIFAR-10. Навіть після того, як дозволило обмежити оптичну систему, що всі маси повинні бути невід'ємними, як корелятор, система досягла точності від 70 до 80 відсотків. Це схоже на більш традиційний згортковий шар, створений із використанням стандартних технологій машинного навчання, але без необхідності мати обчислювальні елементи живлення для виконання згортків. Аналогічним чином, двошаровий розчин, що використовує гібридний оптико-електронний перший шар, досяг CIFAR-10 продуктивності приблизно на 50 відсотків, приблизно так само, як традиційна двошарова мережа, але з невеликою часткою обчислювальної потужності - і тому електрична потужність - типового рішення.

Незважаючи на те, що поточний прототип є громіздким і вимагає монохромного джерела світла, а також працює тільки з зображеннями у градаціях сірого, команда вже почала думати про те, як поширити її на роботу в більш типових умовах освітлення та з повнокольоровими зображеннями. Аналогічно, сама система 4f потенційно може бути зменшена за розмірами за допомогою плоских дифракційних оптичних елементів для заміни поточних лінз.

Щоб дізнатись більше, ви можете ознайомитись з повною версією команди в наукових звітах природи. Команда також заявила, що вони будуть робити повний вихідний код для своєї системи загальнодоступними.

Читати далі

ET Round Round: Dell Inspiron 14 за 600 доларів, бездротова резервна камера за 64 долари та інше

На полюванні за зниженими тренажерами, які допоможуть вам залишатись в курсі резолюцій 2018 року? Можливо, ви просто шукаєте велике телебачення, щоб подивитися велику гру. Що ж, сьогоднішні угоди, напевно, ви покрили. Все, що відбувається від миші до подушок до ігрових ПК, зараз продаються, тому давайте поглянемо.

Патент Samsung показує телефон із камерою всередині дисплея

Apple знаменито наказали iPhone X, залишивши острівець рамки в середині екрану для передніх камер. Samsung подала патент, який пропонує потенційну альтернативу - смартфон з камерами та іншими сенсорами всередині дисплея.

Google найманих фотографів, які допоможуть тренувати камеру з "кліпами" з підтримкою AI

Google представив цей пристрій у жовтні 2017 року, але він все ще недоступний. Найближчим часом очікується його продаж. Тепер Google детально описав, як налаштована нейронна мережа камери, щоб зрозуміти, що є важливим моментом.

Високошвидкісна камера Phantom v2640 може знімати 11,750 кадрів в секунду у форматі Full HD

Ця камера записує більше, ніж роздільна здатність HD, але це не вражаюча частина. Ні, вражаюча частина полягає в тому, що вона записує більше, ніж у роздільній здатності HD, на 6,600 кадрів в секунду. Ви можете натискати його навіть на більш низьку роздільну здатність.