Google Исследователи просто сделали компьютеры звучат гораздо больше, как люди

Google Исследователи просто сделали компьютеры звучат гораздо больше, как люди

Команда исследователей из Google нашла способ значительно улучшить компьютерную речь, существенно улучшив ее каденцию и интонацию. Это шаг к такому сложному синтезу речи, который до сих пор существовал полностью в области научной фантастики.

Компьютеры, даже когда они говорят, не звучат человеческими. Даже в научной фантастике, где таких ограничений не требуется, компьютеры, андроиды и роботы обычно используют неровную грамматику, неточное произношение или говорят в суровых механических тонах. Например, в телевизионных передачах и фильмах, где искусственные формы жизни говорят естественным образом (например, продвинутые модели Cylon в 2004 году при перезагрузке Battlestar Galactica), эта способность часто используется для того, чтобы понять, почему искусственные формы жизни представляют угрозу. Способность говорить естественным образом часто рассматривается как жизненно важный компонент человечества. Механические формы жизни в Star Trek: следующее поколение и его различные побочные эффекты почти всегда говорят с манерами, предназначенными для передачи их искусственности, даже когда их намерения совершенно доброкачественны.

В реальном мире такие программы, как Dr. Sbaitso, часто были первыми пользователями, использующими компьютерную речь. Вы можете услышать, как звучит технология Text-to-speech Creative Labs, как показано ниже, около 1990 года.

Современные технологии значительно улучшились, но такие технологии, как Alexa, Cortana, Google Assistant или Siri, никогда не будут ошибочно приняты за человека, за исключением особых случаев. Значительная часть причины, по которой мы можем говорить, когда компьютер говорит против человека, объясняется (неправильным) использованием просодии. Просодия определяется как образец интонации, тонуса, ритма и стресса внутри языка.

Есть старая шутка о важности запятых, которая сравнивает два простых предложения, чтобы указать на это: «Пора есть бабушка» передает совсем другое значение, чем «Пришло время поесть, бабушка». В этом случае запятая используется для передавать информацию о том, как предложение должно быть произнесено и интерпретировано. Однако не всякая просодическая информация кодируется с помощью грамматики, и обучение компьютерам интерпретации и использованию этих данных было основным камнем преткновения. Теперь исследователи из нескольких команд Google нашли способ кодировать информацию просодии в систему Tacotron для преобразования текста в речь (TTS).

Google Исследователи просто сделали компьютеры звучат гораздо больше, как люди

К сожалению, мы не можем напрямую вставлять речевые примеры Google, но стоит посетить страницу, чтобы узнать, как новая информация влияет на произношение и дикцию. Вот как Google описывает эту работу:

Мы дополняем архитектуру Tacotron дополнительным кодером просодии, который вычисляет низкоразмерное вложение из клипа человеческой речи (эталонного звука). Это вложение фиксирует характеристики аудио, которые не зависят от фонетической информации и характерных особенностей динамиков - это атрибуты, такие как стресс, интонация и время. В момент вывода мы можем использовать это вложение для осуществления передачи просодии, генерирования речи в голосе совершенно другого оратора, но демонстрирующего просодию ссылки. Вложение также может передавать точную выровненную по времени просодию с одной фразы на несколько другую фразу, хотя этот метод лучше всего работает, когда ссылочные и целевые фразы похожи по длине и структуре.

Есть образцы и клипы, которые вы можете воспроизвести, чтобы увидеть, как Tacotron обрабатывает различные задачи. Исследователи отмечают, что они могут передавать просодию, даже если эталонное аудио использует акцент не в данных обучения Tacotron. И что еще более важно, они нашли способ моделировать то, что они называют скрытыми «факторами» речи, позволяя представить просодию в любом речевом клипе без необходимости использования эталонного аудиоклипа. Эта расширенная модель может заставить Tacotron использовать конкретные стили говоря, чтобы сделать различные заявления здоровыми, злыми или грустными.

Ни один из клипов не звучит полностью человеческим - в основной презентации все еще есть некоторая искусственность, но они значительно улучшают то, что было раньше. Возможно, следующей игре Elder Scrolls не придется включать тех же восьми участников в примерно 40 000 различных ролей.