Дослідники Google, щойно створені комп'ютери звучать набагато більше, ніж люди

Дослідники Google, щойно створені комп'ютери звучать набагато більше, ніж люди

Команда дослідників у Google знайшла спосіб істотно покращити комп'ютерну мову, істотно покращуючи його каденцію та інтонацію. Це крок до такого витонченого синтезу мовлення, який на сьогоднішній день існує цілком у сфері наукової фантастики.

Комп'ютери, навіть коли вони говорять, не звучать людиною. Навіть у науковій фантастиці, де такі обмеження не повинні існувати, комп'ютери, андроїди та роботи часто використовують стильну граматику, неточну вимову або жорсткі, механічні тони. У телевізійних шоу та фільмах, де штучно формуються форми життя (наприклад, передові моделі Cylon у випадку перезавантаження Battlestar Galactica 2004 року), ця можливість часто використовується для того, щоб зіграти, чому штучні форми життя являють собою загрозу. Здатність говорити природно часто розглядається як життєво важливий компонент людства. Механічні форми життя в Star Trek: наступне покоління та його різні відокремлювані майже завжди говорять з манір'ю, спрямованими на передачу їх штучності навіть тоді, коли їх наміри абсолютно доброякісні.

У реальному світі програми, такі як д-р Сбайтсо, часто були першими введенням комп'ютерних користувачів у технології перетворення тексту в мову. Ви можете почути, що технології "Текстові мови" Creative Labs звучали, як показано нижче, близько 1990 року.

Сучасні технології значно покращилися, але такі технології, як Alexa, Cortana, Google Assistant або Siri, ніколи не будуть помилятися за людину за винятком випадків. Значна частина причини, чому ми можемо сказати, коли комп'ютер говорить проти особистості, пов'язаний з (неправильним) використанням просодії. Просодія визначається як закономірність інтонації, тону, ритму та стресу в межах однієї мови.

Існує стара жарт про важливість коми, яка порівнює два простих речення, щоб зробити її точкою: "Прийшов час їсти бабусі" передає зовсім інше значення, ніж "Прийшов час їсти, бабусі". У цьому випадку кома використовується для передавати інформацію про те, як вирок повинен бути вимовлений та інтерпретований. Тим не менш, не вся шифрована інформація кодується через граматику, а навчання комп'ютерам, як інтерпретувати та використовувати ці дані, є основним каменем спотикання. Тепер дослідники в кількох групах Google знайшли спосіб кодування інформації просоди в системі Tacotron з тексту в мову (TTS).

Дослідники Google, щойно створені комп'ютери звучать набагато більше, ніж люди

На жаль, ми не можемо безпосередньо вставляти зразки мовлення Google, але варто ознайомитися з цією сторінкою, щоб почути, як нова інформація впливає на вимову та дикцію. Ось як Google описує цю роботу:

Ми розширюємо архітектуру Tacotron з додатковим кодуючим просодієм, який обчислює маломірне вбудовування з кліпу людської мови (еталонний звук). Це вбудовування фіксує характеристики аудіо, які не залежать від фонетичної інформації та особливих характеристик динаміків - це атрибути, такі як напруга, інтонація та час. У час висновку ми можемо використовувати це вбудовування для здійснення передачі просодії, генеруючи мову в голосі абсолютно іншого динаміка, але виставляючи просодію посилання. Вбудоване також може переносити прекрасну просодію, вирівняну за часом, з однієї фрази в дещо іншу фразу, хоча ця техніка найкраще працює, коли довідкові та цільові фрази аналогічні за довжиною та структурою.

Є зразки та кліпи, які ви можете грати, щоб побачити, як Tacotron обробляє різні завдання. Дослідники відзначають, що вони можуть передавати просодію навіть тоді, коли еталонне звучання використовує акцент не в навчальних даних Tacotron. І ще важливіше, що вони знайшли спосіб моделювати те, що вони називають латентними «чинниками» мови, що дозволяє просодіювати будь-який мовний кліп, який не може бути представлений, не вимагаючи посилання на аудіокліп. Ця розширені моделі можуть змусити Tacotron використовувати специфічні стилі розмов, щоб зробити різні заяви щирими, злісними або сумними.

Жоден з кліпів звучить цілком людським - все ще є ступінь штучності для основного презентації, - але вони суттєво вдосконалюють те, що прийшло раніше. Може бути, наступна гра Elder Scrolls не повинна мати тих самих восьми голосових дійових осіб, що складають приблизно 40 000 різних ролей.

Читати далі

NASA: Астероїд все ще міг потрапити на Землю в 2068 році
NASA: Астероїд все ще міг потрапити на Землю в 2068 році

Цей астероїд розміром з хмарочос може все-таки потрапити на Землю в 2068 році, згідно з новим аналізом Гавайського університету та лабораторією реактивного руху НАСА.

Астрономи виявили планету-шахраю, яка блукає по Галактиці, розміром із землю
Астрономи виявили планету-шахраю, яка блукає по Галактиці, розміром із землю

Астрономи ідентифікували понад 4000 екзопланет, що обертаються навколо інших зірок, але лише кілька "планет-шахраїв", які блукають по галактиці без зірки, щоб подзвонити додому. Нове дослідження стверджує, що помітило один із цих світів, і це може бути маленький кам’янистий світ, такий як Земля.

Зонд NASA зберігає величезний зразок астероїда для повернення на Землю
Зонд NASA зберігає величезний зразок астероїда для повернення на Землю

Після недавньої успішної операції touch and go, NASA повідомило, що значний зразок астероїда зараз заблокований у контейнері для повернення зразків зонда.

Microsoft: Ігри Bethesda «Спочатку чи краще» на Xbox, не ексклюзивно
Microsoft: Ігри Bethesda «Спочатку чи краще» на Xbox, не ексклюзивно

Тім Стюарт від Microsoft не вважає, що компанія намагатиметься вирізати геймерів PS5 з майбутніх назв Bethesda. Компанія хоче, щоб Xbox був найкращим напрямком для своїх ігор, але не єдиним.