Google Neural Network может изолировать отдельные голоса в видео

Google Neural Network может изолировать отдельные голоса в видео

Кровящая кромка информатики в наши дни связана с тем, что компьютеры больше похожи на людей. Мы используем нейронные сети, чтобы помочь машинам распознавать объекты, играть в игры и даже говорить более реалистично. В новом мастере машинного обучения Google Research разработала систему, которая может воспроизвести «эффект коктейля», где ваш мозг фокусируется на одном источнике звука в переполненном помещении. Результаты впечатляют - это почти тревожно.

Google называет эту технику «Looking to Listen», потому что она наблюдает за видео с несколькими динамиками, чтобы разделить звук - он использует как слуховые, так и визуальные сигналы, как и ваш мозг. В этих видео также нет ничего особенного. Это просто видео с одной звуковой дорожкой, состоящей из нескольких человек.

Google Neural Network может изолировать отдельные голоса в видео

Чтобы создать инструмент, способный на это, Google начал с 100 000 образцов высококачественных лекций и переговоров с YouTube. Инженеры нарезали видео, чтобы получить сегменты чистой речи с четко видимыми динамиками и фоновым шумом. Это оставило Google Research с 2000 часами видео, состоящим из одного человека, говорящего (они называют это набором данных AVSpeech). Трюк использовал эти чистые образцы для создания «поддельных» коктейльных вечеринок. Исследователи объединили видео, поэтому говорили несколько человек. Это данные, которые Google использовал для обучения нейронной сети.

Как и многие другие прорывы Google Research, в этом была использована сверточная нейронная сеть. Вход в сеть состоит из визуальных функций динамиков, а также спектрограммы саундтрека к видео. При обработке видео сеть узнает, как разделить видео на «частотную маску» для каждого динамика. Маска вывода согласовывается с аудио-спектральным входом для генерации отдельных звуковых дорожек.

После тренировки Google развязал сеть на новых видео. Как вы можете видеть в примерах Google, это работает на удивление хорошо. Модель Look To Listen может определить, какой звук поступает от динамика, и отфильтровывать все остальное. Эта технология может иметь приложения для видеоконференций, слуховых аппаратов и видеонаблюдения.

В этом последнем пункте эта технология может быть настолько мощной, что нетрудно представить сценарии, где это злоупотребление. С будущими улучшениями скорости и точности наблюдатель мог бы выбрать ваш голос на переполненной улице, чтобы узнать, что вы сказали. Нет никаких указаний, что у Google есть намерение сделать это, но он не одинок в области исследований нейронной сети.

Читать далее

Обзор: Oculus Quest 2 может стать переломным моментом для массового внедрения VR
Обзор: Oculus Quest 2 может стать переломным моментом для массового внедрения VR

Oculus Quest 2 теперь доступен, и это улучшение по сравнению с оригиналом во всех отношениях. И все же это на 100 долларов дешевле, чем последний выпуск. Проведя некоторое время с Quest 2, я считаю, что мы можем оглянуться на него как на гарнитуру, которая наконец сделала VR доступной для массовых потребителей.

Samsung, Стэнфорд, создали дисплей с разрешением 10000 пикселей на дюйм, который может революционизировать VR и
Samsung, Стэнфорд, создали дисплей с разрешением 10000 пикселей на дюйм, который может революционизировать VR и

Спросите любого, кто провел в гарнитуре VR более нескольких минут, и они отметят эффект дверного экрана. Это могло бы устранить его навсегда.

НАСА: астероид все еще может поразить Землю в 2068 году
НАСА: астероид все еще может поразить Землю в 2068 году

Согласно новому анализу Гавайского университета и Лаборатории реактивного движения НАСА, этот астероид размером с небоскреб все еще может столкнуться с Землей в 2068 году.

AMD может разрешить кастомные карты RX 6900 XT, стартовые запасы могут быть ограничены
AMD может разрешить кастомные карты RX 6900 XT, стартовые запасы могут быть ограничены

Ходят слухи, что Nvidia может быть не единственной компанией, столкнувшейся с нехваткой продукции в этот праздничный сезон. В целом, высокопроизводительные графические процессоры может быть очень сложно найти.