Google Исследователи просто сделали компьютеры звучат гораздо больше, как люди

Команда исследователей из Google нашла способ значительно улучшить компьютерную речь, существенно улучшив ее каденцию и интонацию. Это шаг к такому сложному синтезу речи, который до сих пор существовал полностью в области научной фантастики.
Компьютеры, даже когда они говорят, не звучат человеческими. Даже в научной фантастике, где таких ограничений не требуется, компьютеры, андроиды и роботы обычно используют неровную грамматику, неточное произношение или говорят в суровых механических тонах. Например, в телевизионных передачах и фильмах, где искусственные формы жизни говорят естественным образом (например, продвинутые модели Cylon в 2004 году при перезагрузке Battlestar Galactica), эта способность часто используется для того, чтобы понять, почему искусственные формы жизни представляют угрозу. Способность говорить естественным образом часто рассматривается как жизненно важный компонент человечества. Механические формы жизни в Star Trek: следующее поколение и его различные побочные эффекты почти всегда говорят с манерами, предназначенными для передачи их искусственности, даже когда их намерения совершенно доброкачественны.
В реальном мире такие программы, как Dr. Sbaitso, часто были первыми пользователями, использующими компьютерную речь. Вы можете услышать, как звучит технология Text-to-speech Creative Labs, как показано ниже, около 1990 года.
Современные технологии значительно улучшились, но такие технологии, как Alexa, Cortana, Google Assistant или Siri, никогда не будут ошибочно приняты за человека, за исключением особых случаев. Значительная часть причины, по которой мы можем говорить, когда компьютер говорит против человека, объясняется (неправильным) использованием просодии. Просодия определяется как образец интонации, тонуса, ритма и стресса внутри языка.
Есть старая шутка о важности запятых, которая сравнивает два простых предложения, чтобы указать на это: «Пора есть бабушка» передает совсем другое значение, чем «Пришло время поесть, бабушка». В этом случае запятая используется для передавать информацию о том, как предложение должно быть произнесено и интерпретировано. Однако не всякая просодическая информация кодируется с помощью грамматики, и обучение компьютерам интерпретации и использованию этих данных было основным камнем преткновения. Теперь исследователи из нескольких команд Google нашли способ кодировать информацию просодии в систему Tacotron для преобразования текста в речь (TTS).

К сожалению, мы не можем напрямую вставлять речевые примеры Google, но стоит посетить страницу, чтобы узнать, как новая информация влияет на произношение и дикцию. Вот как Google описывает эту работу:
Мы дополняем архитектуру Tacotron дополнительным кодером просодии, который вычисляет низкоразмерное вложение из клипа человеческой речи (эталонного звука). Это вложение фиксирует характеристики аудио, которые не зависят от фонетической информации и характерных особенностей динамиков - это атрибуты, такие как стресс, интонация и время. В момент вывода мы можем использовать это вложение для осуществления передачи просодии, генерирования речи в голосе совершенно другого оратора, но демонстрирующего просодию ссылки. Вложение также может передавать точную выровненную по времени просодию с одной фразы на несколько другую фразу, хотя этот метод лучше всего работает, когда ссылочные и целевые фразы похожи по длине и структуре.
Есть образцы и клипы, которые вы можете воспроизвести, чтобы увидеть, как Tacotron обрабатывает различные задачи. Исследователи отмечают, что они могут передавать просодию, даже если эталонное аудио использует акцент не в данных обучения Tacotron. И что еще более важно, они нашли способ моделировать то, что они называют скрытыми «факторами» речи, позволяя представить просодию в любом речевом клипе без необходимости использования эталонного аудиоклипа. Эта расширенная модель может заставить Tacotron использовать конкретные стили говоря, чтобы сделать различные заявления здоровыми, злыми или грустными.
Ни один из клипов не звучит полностью человеческим - в основной презентации все еще есть некоторая искусственность, но они значительно улучшают то, что было раньше. Возможно, следующей игре Elder Scrolls не придется включать тех же восьми участников в примерно 40 000 различных ролей.
Читать далее

Владельцы Google Pixel Slate сообщают о сбое флеш-хранилища
Форумы поддержки продуктов Google переполнены рассерженными владельцами Pixel Slate, которые говорят, что в их устройствах часто возникают серьезные ошибки хранения.

Google убивает бесплатное хранилище для фотографий, меняет то, что имеет значение в отношении ограничений
Google анонсировал некоторые существенные изменения в Фото, особенно если вы используете сервис для автоматического резервного копирования.

Время обновлять: Google исправляет 2 серьезные уязвимости Chrome нулевого дня
В отличие от последних нескольких нулевых дней, Google не обнаружил эти дыры в безопасности сам. Вместо этого он был предоставлен анонимными третьими сторонами, и проблемы настолько серьезны, что они не раскрыли полных деталей. Достаточно сказать, что вам стоит перестать откладывать это обновление.

Nvidia и Google будут поддерживать облачные игры на iPhone через веб-приложения
И Nvidia, и Google объявили о поддержке iOS для своих облачных игровых платформ через прогрессивные веб-приложения. Apple не может это заблокировать.