Дослідники Google, щойно створені комп'ютери звучать набагато більше, ніж люди

Команда дослідників у Google знайшла спосіб істотно покращити комп'ютерну мову, істотно покращуючи його каденцію та інтонацію. Це крок до такого витонченого синтезу мовлення, який на сьогоднішній день існує цілком у сфері наукової фантастики.

Комп'ютери, навіть коли вони говорять, не звучать людиною. Навіть у науковій фантастиці, де такі обмеження не повинні існувати, комп'ютери, андроїди та роботи часто використовують стильну граматику, неточну вимову або жорсткі, механічні тони. У телевізійних шоу та фільмах, де штучно формуються форми життя (наприклад, передові моделі Cylon у випадку перезавантаження Battlestar Galactica 2004 року), ця можливість часто використовується для того, щоб зіграти, чому штучні форми життя являють собою загрозу. Здатність говорити природно часто розглядається як життєво важливий компонент людства. Механічні форми життя в Star Trek: наступне покоління та його різні відокремлювані майже завжди говорять з манір'ю, спрямованими на передачу їх штучності навіть тоді, коли їх наміри абсолютно доброякісні.

У реальному світі програми, такі як д-р Сбайтсо, часто були першими введенням комп'ютерних користувачів у технології перетворення тексту в мову. Ви можете почути, що технології "Текстові мови" Creative Labs звучали, як показано нижче, близько 1990 року.

Сучасні технології значно покращилися, але такі технології, як Alexa, Cortana, Google Assistant або Siri, ніколи не будуть помилятися за людину за винятком випадків. Значна частина причини, чому ми можемо сказати, коли комп'ютер говорить проти особистості, пов'язаний з (неправильним) використанням просодії. Просодія визначається як закономірність інтонації, тону, ритму та стресу в межах однієї мови.

Існує стара жарт про важливість коми, яка порівнює два простих речення, щоб зробити її точкою: "Прийшов час їсти бабусі" передає зовсім інше значення, ніж "Прийшов час їсти, бабусі". У цьому випадку кома використовується для передавати інформацію про те, як вирок повинен бути вимовлений та інтерпретований. Тим не менш, не вся шифрована інформація кодується через граматику, а навчання комп'ютерам, як інтерпретувати та використовувати ці дані, є основним каменем спотикання. Тепер дослідники в кількох групах Google знайшли спосіб кодування інформації просоди в системі Tacotron з тексту в мову (TTS).

На жаль, ми не можемо безпосередньо вставляти зразки мовлення Google, але варто ознайомитися з цією сторінкою, щоб почути, як нова інформація впливає на вимову та дикцію. Ось як Google описує цю роботу:

Ми розширюємо архітектуру Tacotron з додатковим кодуючим просодієм, який обчислює маломірне вбудовування з кліпу людської мови (еталонний звук). Це вбудовування фіксує характеристики аудіо, які не залежать від фонетичної інформації та особливих характеристик динаміків - це атрибути, такі як напруга, інтонація та час. У час висновку ми можемо використовувати це вбудовування для здійснення передачі просодії, генеруючи мову в голосі абсолютно іншого динаміка, але виставляючи просодію посилання. Вбудоване також може переносити прекрасну просодію, вирівняну за часом, з однієї фрази в дещо іншу фразу, хоча ця техніка найкраще працює, коли довідкові та цільові фрази аналогічні за довжиною та структурою.

Є зразки та кліпи, які ви можете грати, щоб побачити, як Tacotron обробляє різні завдання. Дослідники відзначають, що вони можуть передавати просодію навіть тоді, коли еталонне звучання використовує акцент не в навчальних даних Tacotron. І ще важливіше, що вони знайшли спосіб моделювати те, що вони називають латентними «чинниками» мови, що дозволяє просодіювати будь-який мовний кліп, який не може бути представлений, не вимагаючи посилання на аудіокліп. Ця розширені моделі можуть змусити Tacotron використовувати специфічні стилі розмов, щоб зробити різні заяви щирими, злісними або сумними.

Жоден з кліпів звучить цілком людським - все ще є ступінь штучності для основного презентації, - але вони суттєво вдосконалюють те, що прийшло раніше. Може бути, наступна гра Elder Scrolls не повинна мати тих самих восьми голосових дійових осіб, що складають приблизно 40 000 різних ролей.