Google нейронна мережа може виділяти індивідуальні голоси у відео

Google нейронна мережа може виділяти індивідуальні голоси у відео

Кров'янистий край інформатики в наші дні полягає у тому, щоб зробити комп'ютери більш схожими на людей. Ми використовуємо нейронні мережі, щоб допомогти машинам розпізнавати об'єкти, грати в ігри та навіть говорити більш реально. У рамках нового подвигу машинознавчої магії, Google Research розробила систему, яка може відтворити "ефект коктейль-партії", де ваш мозок фокусується на одному аудіо-джерелі в тісній кімнаті. Результати є вражаючими - це майже турбує так.

Google називає цю техніку "Looking to listen", оскільки вона дивиться відео з кількома динаміками, щоб розбити звук - він використовує як слухові, так і візуальні сигнали, як і ваш мозок. Також немає нічого особливого щодо цих відеороликів. Це лише відео з однією звуковою доріжкою, що складається з більш ніж однієї людини.

Google нейронна мережа може виділяти індивідуальні голоси у відео

Щоб створити інструмент для цього, Google почав з 100 000 зразків якісних лекцій та переговорів з YouTube. Інженери рубали відео, щоб отримати сегменти чистої мови з чітко вираженими динаміками та відсутності фонового шуму. Це дало Google Research 2 000 годин відео, що складається з однієї особи, яка виступає (вони називають це набором даних AVSpeech). Хитрість полягала у використанні цих чистих зразків для створення "підроблених" коктейльних вечірок. Дослідники об'єднали відео, тому кілька людей говорили. Це дані, які Google використовувала для навчання нейронної мережі.

Як і багато інших досягнень Google Research, у цьому використовувалася сверточная нейронна мережа. Вхід до мережі складається з візуальних особливостей динаміків, а також спектрограми звукової доріжки відео. Під час обробки відео мережа дізнається, як розділити відеозапис на "частотну маску часу" для кожного динаміка. Вихідна маска узгоджується з спектрограмою аудіовходу, щоб генерувати окремі звукові доріжки.

Після завершення навчання Google розгорнула мережу на нових відео. Як ви можете бачити на прикладах Google, це працює надзвичайно добре. Модель «Шукаю слухати» може визначити, який звук походить від динаміка, і відфільтровувати все інше. Ця технологія може мати програми для відеоконференцій, слухових апаратів та відеоспостереження.

На останньому пункті ця технологія може бути настільки потужною, що неважко уявити сценарії, де його зловживають. Завдяки швидким і точно визначеним покращенням, спостерігач міг вибрати ваш голос на переповненій вулиці, щоб дізнатись, що ви сказали. Немає жодних ознак того, що Google не має наміру робити це, але це не єдине під час дослідження нейронних мереж.

Читати далі

Зразок астероїда OSIRIS-REx НАСА просочується у космос
Зразок астероїда OSIRIS-REx НАСА просочується у космос

NASA повідомляє, що зонд схопив з астероїда стільки реголіту, що він витікає з колектора. Зараз команда працює над тим, щоб визначити, як найкраще уберегти дорогоцінний вантаж від втечі.

Огляд: Oculus Quest 2 може стати підказкою для масового прийняття VR
Огляд: Oculus Quest 2 може стати підказкою для масового прийняття VR

Oculus Quest 2 тепер доступний, і це покращення в порівнянні з оригіналом у всіх важливих аспектах. І все-таки це на 100 доларів дешевше, ніж останній реліз. Провівши деякий час з Quest 2, я вважаю, що ми могли б озирнутися на нього як на гарнітуру, яка нарешті зробила VR доступною для основних споживачів.

Захистіть свою конфіденційність в Інтернеті за допомогою 5 найкращих мереж VPN
Захистіть свою конфіденційність в Інтернеті за допомогою 5 найкращих мереж VPN

Зараз інвестування в VPN - це розумний вибір, але можливостей величезна. Щоб трохи звузити ситуацію, ми зібрали п’ять наших улюблених споживчих послуг.

НАСА створило колекцію моторошних космічних звуків на Хелловін
НАСА створило колекцію моторошних космічних звуків на Хелловін

Останній випуск даних NASA перетворює сигнали з-поза Землі в моторошні звуки, які, безсумнівно, викликають озноб у вашій хребті.