Голосовые помощники и кибер-гиды набирают все большую популярность. Однако многих потенциальных пользователей все еще отталкивает нереалистичное звучание компьютерной речи. Компания DeepMind выпустила усовершенствованную версию технологии WaveNet. Новая разработка позволяет суперреалистично синтезировать человеческую речь. По сообщению российских СМИ, программа может даже использовать популярные дефекты речи и сопровождающие шумы вроде причмокивания.

WaveNet производит звуковые волны с нуля на базе системы, работающей на основе сверточной нейронной сети, где генерация звука происходит в несколько слоев. Сначала для тренировки платформы синтезации "живой" речи ей "скармливают" огромный объем образцов, при этом отмечая, какие звуковые сигналы звучат реалистично, а какие нет. Это наделяет голосовой синтезатор возможностью воспроизводить натуралистичную интонацию и даже такие детали, как чмокающие звуки губами. В зависимости от того, какие образцы речь прогоняются через систему, это позволяет ей развить уникальный "акцент", что в перспективе может использоваться для создания множества разных голосов.

Минусом технологии долгое время была большая потребительская мощность. Огромный объем данных тормозил систему. Раньше на синтезирования звука уходило время в 20 раз превышающее его звучание. Сегодня эта проблема устранена. Технология применяется Google Assistant на английском и японском языке. В планах компании освоение других языков и даже локальных диалектов.

Ранее портал "Знай.ua" сообщал об умных наушниках, выучивших 40 языков

Популярные статьи сейчас

Можете потерять деньги: украинцы жалуются на проблемы в ПриватБанке

Пенсии пересчитают трижды: когда пожилым украинцам расчитывать на повышение

Льготы для пенсионеров в 2026 году: что можно получить бесплатно или со скидкой

ПФУ заявил об увеличении важной выплаты: кто получит больше денег

Показать еще