Голосовые помощники и кибер-гиды набирают все большую популярность. Однако многих потенциальных пользователей все еще отталкивает нереалистичное звучание компьютерной речи. Компания DeepMind выпустила усовершенствованную версию технологии WaveNet. Новая разработка позволяет суперреалистично синтезировать человеческую речь. По сообщению российских СМИ, программа может даже использовать популярные дефекты речи и сопровождающие шумы вроде причмокивания.

WaveNet производит звуковые волны с нуля на базе системы, работающей на основе сверточной нейронной сети, где генерация звука происходит в несколько слоев. Сначала для тренировки платформы синтезации "живой" речи ей "скармливают" огромный объем образцов, при этом отмечая, какие звуковые сигналы звучат реалистично, а какие нет. Это наделяет голосовой синтезатор возможностью воспроизводить натуралистичную интонацию и даже такие детали, как чмокающие звуки губами. В зависимости от того, какие образцы речь прогоняются через систему, это позволяет ей развить уникальный "акцент", что в перспективе может использоваться для создания множества разных голосов.

Минусом технологии долгое время была большая потребительская мощность. Огромный объем данных тормозил систему. Раньше на синтезирования звука уходило время в 20 раз превышающее его звучание. Сегодня эта проблема устранена. Технология применяется Google Assistant на английском и японском языке. В планах компании освоение других языков и даже локальных диалектов.

Ранее портал "Знай.ua" сообщал об умных наушниках, выучивших 40 языков

Популярные статьи сейчас

Добровольный визит в ТЦК не спасет от штрафа: за что накажут некоторых мужчин

Хочешь не хочешь, а в ТЦК идти все равно придется: украинцам не оставили альтернативы

Пенсионеры получат значительную доплату к пенсии: кому и сколько добавят в ближайшее время

Таких цен не видели давно: сколько придется заплатить за куриные и перепелиные яйца

Показать еще