Дослідники Google, щойно створені комп'ютери звучать набагато більше, ніж люди

Дослідники Google, щойно створені комп'ютери звучать набагато більше, ніж люди

Команда дослідників у Google знайшла спосіб істотно покращити комп'ютерну мову, істотно покращуючи його каденцію та інтонацію. Це крок до такого витонченого синтезу мовлення, який на сьогоднішній день існує цілком у сфері наукової фантастики.

Комп'ютери, навіть коли вони говорять, не звучать людиною. Навіть у науковій фантастиці, де такі обмеження не повинні існувати, комп'ютери, андроїди та роботи часто використовують стильну граматику, неточну вимову або жорсткі, механічні тони. У телевізійних шоу та фільмах, де штучно формуються форми життя (наприклад, передові моделі Cylon у випадку перезавантаження Battlestar Galactica 2004 року), ця можливість часто використовується для того, щоб зіграти, чому штучні форми життя являють собою загрозу. Здатність говорити природно часто розглядається як життєво важливий компонент людства. Механічні форми життя в Star Trek: наступне покоління та його різні відокремлювані майже завжди говорять з манір'ю, спрямованими на передачу їх штучності навіть тоді, коли їх наміри абсолютно доброякісні.

У реальному світі програми, такі як д-р Сбайтсо, часто були першими введенням комп'ютерних користувачів у технології перетворення тексту в мову. Ви можете почути, що технології "Текстові мови" Creative Labs звучали, як показано нижче, близько 1990 року.

Сучасні технології значно покращилися, але такі технології, як Alexa, Cortana, Google Assistant або Siri, ніколи не будуть помилятися за людину за винятком випадків. Значна частина причини, чому ми можемо сказати, коли комп'ютер говорить проти особистості, пов'язаний з (неправильним) використанням просодії. Просодія визначається як закономірність інтонації, тону, ритму та стресу в межах однієї мови.

Існує стара жарт про важливість коми, яка порівнює два простих речення, щоб зробити її точкою: "Прийшов час їсти бабусі" передає зовсім інше значення, ніж "Прийшов час їсти, бабусі". У цьому випадку кома використовується для передавати інформацію про те, як вирок повинен бути вимовлений та інтерпретований. Тим не менш, не вся шифрована інформація кодується через граматику, а навчання комп'ютерам, як інтерпретувати та використовувати ці дані, є основним каменем спотикання. Тепер дослідники в кількох групах Google знайшли спосіб кодування інформації просоди в системі Tacotron з тексту в мову (TTS).

Дослідники Google, щойно створені комп'ютери звучать набагато більше, ніж люди

На жаль, ми не можемо безпосередньо вставляти зразки мовлення Google, але варто ознайомитися з цією сторінкою, щоб почути, як нова інформація впливає на вимову та дикцію. Ось як Google описує цю роботу:

Ми розширюємо архітектуру Tacotron з додатковим кодуючим просодієм, який обчислює маломірне вбудовування з кліпу людської мови (еталонний звук). Це вбудовування фіксує характеристики аудіо, які не залежать від фонетичної інформації та особливих характеристик динаміків - це атрибути, такі як напруга, інтонація та час. У час висновку ми можемо використовувати це вбудовування для здійснення передачі просодії, генеруючи мову в голосі абсолютно іншого динаміка, але виставляючи просодію посилання. Вбудоване також може переносити прекрасну просодію, вирівняну за часом, з однієї фрази в дещо іншу фразу, хоча ця техніка найкраще працює, коли довідкові та цільові фрази аналогічні за довжиною та структурою.

Є зразки та кліпи, які ви можете грати, щоб побачити, як Tacotron обробляє різні завдання. Дослідники відзначають, що вони можуть передавати просодію навіть тоді, коли еталонне звучання використовує акцент не в навчальних даних Tacotron. І ще важливіше, що вони знайшли спосіб моделювати те, що вони називають латентними «чинниками» мови, що дозволяє просодіювати будь-який мовний кліп, який не може бути представлений, не вимагаючи посилання на аудіокліп. Ця розширені моделі можуть змусити Tacotron використовувати специфічні стилі розмов, щоб зробити різні заяви щирими, злісними або сумними.

Жоден з кліпів звучить цілком людським - все ще є ступінь штучності для основного презентації, - але вони суттєво вдосконалюють те, що прийшло раніше. Може бути, наступна гра Elder Scrolls не повинна мати тих самих восьми голосових дійових осіб, що складають приблизно 40 000 різних ролей.

Читати далі

ET Round Round: Подарункова картка з телевізором Samsung 4K за 200 доларів США, 50 доларів США на Inspiron 15 7000 і більше

Готові перейти на телевізор 4K? Можливо, ви шукаєте новий ноутбук для школи або шукаєте ідеальну камеру для майбутніх канікул. Що ж, на цьому тижні існує безліч знижок, тому ми склали список найгарячих пропозицій. Якщо ви хочете заощадити великі кошти на новому обладнанні, ви обов'язково знайдете щось варте нижче.

CES 2018 у фотографіях: що ми пам'ятаємо найбільше

CES завжди є переважною какофонією пам'яток і звуків, але деякі зображення завжди виділяються. Ось декілька наших фаворитів з цьогорічного шоу.

LG Shifts Strategy, більше не буде випускати щорічні оновлення телефонів

Компанія LG заявила, що вона вийшла з щорічного флагманського циклу випуску телефону, вважаючи за краще зосередитися на збереженні форм-факторів протягом тривалого періоду часу.

Apple перебільшує тривалість роботи батареї MacBook, власників звіту

Користувачі Apple MacBook і MacBook Pro не знають про стан роботи акумулятора в режимі очікування, проте Apple не зацікавлений в його чутці.