Голосові помічники і кібер-гіди набирають все більшу популярність. Однак багатьох потенційних користувачів все ще відштовхує нереалістичне звучання комп'ютерної мови. Компанія DeepMind випустила вдосконалену версію технології WaveNet. Нова розробка дозволяє суперреалістично синтезувати людську мову. За повідомленням російських ЗМІ, програма може навіть використовувати популярні дефекти мови і супроводжуючі шуми накшталт прицмокування.

WaveNet виробляє звукові хвилі з нуля на базі системи, що працює на основі згорткової нейронної мережі, де генерація звуку відбувається у кілька шарів. Спочатку для тренування платформи синтезації "живої" мови їй "згодовують" величезний обсяг зразків, при цьому відзначаючи, які звукові сигнали звучать реалістично, а які ні. Це наділяє голосовий синтезатор можливістю відтворювати натуралістичну інтонацію і навіть такі деталі, як цмокаючі звуки губами. В залежності від того, які зразки мови проганяються через систему, це дозволяє їй розвинути унікальний "акцент", що в перспективі може використовуватися для створення безлічі різних голосів.

Мінусом технології довгий час була велика споживча потужність. Величезний обсяг даних гальмував систему. Раніше на синтезування звуку йшов час у 20 разів більший за його звучання. Сьогодні ця проблема усунена. Технологія застосовується Google Assistant англійською та японською мовою. У планах компанії освоєння інших мов і навіть локальних діалектів.

Раніше портал "Знай.ua" повідомляв про розумні навушники, які вивчили 40 мов

Популярні новини зараз

Не тільки індексація: пенсіонерам готують нове підвищення виплат

Пенсіонери можуть отримати майже 1 000 гривень надбавки

У 2026 році залишитесь без квартири: чиє право власності оскаржать

Учням 9-х класів повернуть обов'язкові іспити: що складатимуть

Показати ще