Стенфордські дослідники будують AI прямо в оптиці камери

Стенфордські дослідники будують AI прямо в оптиці камери

До недавнього часу камери були призначені виключно для створення зображень для людей - для веселощів, для мистецтва, а також для документування історії. Завдяки швидкому зростанню роботів, а також різноманітних інших видів машин і транспортних засобів, які необхідно спостерігати та навчатися в їхньому середовищі, багато камер присвячені завданням машинного зору. Деякі з найбільш видимих ​​з них, як автономні машини, сильно залежать від розпізнавання об'єктів, що практично в усьому світі означає нейрові мережі, навчені на часто зустрічаються об'єкти. Одні обмеження на розміщення машинного зору у багатьох вбудованих системах, включаючи електромобілі, є необхідною обчислювальною та електричною потужністю. Тому має сенс повторно уявити дизайн камери та врахувати, що є ідеальною архітектурою камери для конкретної програми, а не просто відтворювати існуючі моделі камери.

У цьому дусі, команда в Стенфордському університеті на чолі з доцентом Гордоном Ветхстайном та аспірантом Джулі Чанг створила прототип системи, яка переносить перший шар нейронної мережі розпізнавання об'єктів безпосередньо в оптику камери. Це означає, що перша частина необхідної вказівки практично не має часу і ніякої сили. Хоча їх поточний прототип обмежений та величезний, він вказує шлях на деякі нові підходи до створення менш потужних, високоефективних рішень для впорядкування в IoT, автомобілі та інших вбудованих додатках. Дослідження здебільшого пов'язані з AI, зображеннями та оптикою, тому ми не можемо детально описати всю систему в одній статті. Але ми проведемо вас через основні моменти та деякі прориви, які роблять прототип таким інтригуючим.

Основне розпізнавання об'єктів, стиль нейронної мережі

Найбільш сучасні системи розпізнавання об'єктів використовують багатошарову нейронну мережу. Найсучасніші системи часто включають десятки шарів, але можна звертатися до простих наборів тестів, таких як MNIST, Google QuickDraw і CIFAR-10, лише з одним шаром або двома. Проте в глибині мережі перший шар або шари - це, як правило, конвекційні шари. Конволюція - це процес передачі матриці (називається ядром) над зображенням, множимо його на кожному місці та підсумовує результат, щоб створити матрицю активації. Простіше кажучи, процес виділяє ділянки зображення, схожі на шаблон ядра. Типові системи включають декілька ядер, кожен з яких відображає функцію, що знаходиться в досліджуваних об'єктах. Оскільки мережа навчається, ці ядра повинні починати виглядати як такі функції, тому отримані активаційні картки допоможуть пізніше рівням мережі розпізнавати конкретні об'єкти, що містять різні приклади функцій.

Пізніше шари мережі часто повною мірою підключаються, які простіші для обчислення, ніж конвекційні шари. Стенфордська гібридна оптико-цифрова камера не розглядає ці, а замість моделей, що заміняють обчислювально дорогий початковий рівень згортка з оптичною альтернативою, яку команда називає рівнем opt-conv. З традиційною оптикою не існує ніякого зручного для згортки зображення, нехай під час декількох сверток. Однак, якщо зображення спочатку перетворюється на його еквівалент частоти за допомогою перетворення Фур'є, швидка згортка стає в змозі раптово стати можливим - оскільки множення в частотній області схоже на виконання згортки в традиційній просторовій області.

Щоб скористатися цією властивістю, команда спирається на методи Фур'є-оптики, будуючи так звану оптичну систему 4f. Система 4f спирається на початкову лінзу для перетворення Фур'є зображення. Система дозволяє обробляти перетворене зображення за допомогою проміжного фільтра або фільтрів, а потім перетворює перетворення з кінцевою лінзою і робить модифікований результат.

Фур'є-оптична система, що реалізується в телескопі 4f, включаючи фазову маску для реалізації згортки зображень
Фур'є-оптична система, що реалізується в телескопі 4f, включаючи фазову маску для реалізації згортки зображень

Магія оптичного обчислення рівня згортка

Існує безліч досить глибоких наук, які входять у оптичну частину прототипу Стенфорда, але це, по суті, об'єднує декілька потужних методів, які ми можемо описати (якщо не повною мірою пояснити) досить коротко:

По-перше, це відома особливість перетворення Фур'є (які приймають сигнал або зображення, і робить це з точки зору частот), що ви також можете повернути його назад і отримати оригінальне зображення назад. Важливо, що ви можете зробити це, використовуючи просту оптичну систему з лише об'єктивом пари, що називається оптичною системою 4f (ця вся область оптики називається Фур'є-оптикою).

По-друге, якщо ви фільтруєте перетворення Фур'є зображення, пропускаючи його через частково непрозору поверхню, це те ж саме, що і виконання згортки.

По-третє, ви можете скопіювати кілька ядра у єдиний фільтр і застосувати їх до опущеної версії оригінального зображення. Це імітує поведінку декількох систем ядра, які зазвичай створюють багатоканальний вихід, створюючи той, який виводить екземпляр з черепицею, як показано тут:

Багатоканальний вихід традиційного згорткового шару можна імітувати за допомогою черепиці в оптичній системі
Багатоканальний вихід традиційного згорткового шару можна імітувати за допомогою черепиці в оптичній системі

Тому, обчисливши потрібні ядра за допомогою традиційних методів машинного навчання, вони можуть бути використані для створення власного фільтра - у вигляді фазової маски різної товщини -, який можна додати до середини системи 4f, щоб миттєво виконувати згортки, як світло проходить через пристрій.

Навчання та реалізація рівня оптичної конверсії

Одне обмеження запропонованої оптичної системи полягає в тому, що апаратний фільтр повинен бути виготовлений на підставі підготовлених ваг. Тому не практично використовувати систему для самостійної підготовки. Тренінг проводиться за допомогою симуляції системи. Після того, як визначаються необхідні остаточні ваги, вони використовуються для виготовлення фазової маски (фільтр з різною товщиною, який змінює фазу світла, що проходить через неї) з 16 можливими значеннями, які можуть бути розміщені в поєднанні з оптичним трубопроводом 4f.

Вивчені ваги використовуються для створення шаблону маски, який потім виготовляється в маску різної товщини
Вивчені ваги використовуються для створення шаблону маски, який потім виготовляється в маску різної товщини

Оцінка продуктивності гібридної оптико-електронної системи камери

Стенфордська команда оцінила ефективність своїх рішень як у моделюванні, так і за допомогою свого фізичного прототипу. Вони перевіряли його як на способи створення автономного оптичного корелятора з використанням набору даних Google QuickDraw, так і як перший шар дворівневої нейронної мережі, який був об'єднаний з повністю підключеним шаром для розпізнавання базового об'єкта за допомогою набору даних CIFAR-10. Навіть після того, як дозволило обмежити оптичну систему, що всі маси повинні бути невід'ємними, як корелятор, система досягла точності від 70 до 80 відсотків. Це схоже на більш традиційний згортковий шар, створений із використанням стандартних технологій машинного навчання, але без необхідності мати обчислювальні елементи живлення для виконання згортків. Аналогічним чином, двошаровий розчин, що використовує гібридний оптико-електронний перший шар, досяг CIFAR-10 продуктивності приблизно на 50 відсотків, приблизно так само, як традиційна двошарова мережа, але з невеликою часткою обчислювальної потужності - і тому електрична потужність - типового рішення.

Незважаючи на те, що поточний прототип є громіздким і вимагає монохромного джерела світла, а також працює тільки з зображеннями у градаціях сірого, команда вже почала думати про те, як поширити її на роботу в більш типових умовах освітлення та з повнокольоровими зображеннями. Аналогічно, сама система 4f потенційно може бути зменшена за розмірами за допомогою плоских дифракційних оптичних елементів для заміни поточних лінз.

Щоб дізнатись більше, ви можете ознайомитись з повною версією команди в наукових звітах природи. Команда також заявила, що вони будуть робити повний вихідний код для своєї системи загальнодоступними.

Читати далі

Нова серія Radeon RX 6000 від AMD оптимізована для бойового ампера
Нова серія Radeon RX 6000 від AMD оптимізована для бойового ампера

AMD сьогодні представила свою серію RX 6000. Вперше з моменту придбання ATI в 2006 році, існуватимуть певні переваги в роботі графічних процесорів AMD на платформах AMD.

5D оптичний диск може зберігати 500TB для мільярдів років
5D оптичний диск може зберігати 500TB для мільярдів років

Жорсткі диски та зберігання Flash отримали більш надійні протягом багатьох років, але лише на людському часі. Що робити, якщо нам потрібна зберігання даних, що триває довше? Десятиліття? Тисячоліття? Ключ до цього може бути 5D оптичне сховище, що має щільність даних у розмірі 10 000 разів у диску з Blu-ray.

Microsoft представляє Посібник з оптимізації ігор Windows 11 для збільшення прийняття
Microsoft представляє Посібник з оптимізації ігор Windows 11 для збільшення прийняття

Посібник торкається двох параметрів вдосконалення, пов’язаних із цілісністю пам'яті та платформою віртуальної машини (VMP), за якою Microsoft, як каже, ввімкнено за замовчуванням на нових пристроях Windows 11.

Останні драйвери Intel GPU тепер автоматично оптимізують ігри для вас
Останні драйвери Intel GPU тепер автоматично оптимізують ігри для вас

Intel випустила нове оновлення драйвера, 15.65, яке може автоматично виявляти та налаштовувати певні ігри для забезпечення найкращої продуктивності на інтегрованій графіці Intel.