Лучшие вопросы
Таймлайн
Чат
Перспективы

Клонирование голоса

Из Википедии, свободной энциклопедии

Remove ads

Клонирование звука (англ. voice changing, voice cloning) — это технология, реализующая изменение голоса человека, производимая с помощью программно-аппаратных средств, в режиме как реального времени, так и в отложенном пакетном режиме.

Технология позволяет моделировать персональные характеристики речи человека с достаточно полным совпадением с оригиналом, называемым «мишенью копирования».

Remove ads

Общая оценка технологии

В настоящее время сравнительно хорошо развиты системы распознавания речи. Они используются в голосовом управлении различными бытовыми приборами (в телефонах, автомобильных аудиосистемах, и заканчивая стиральными машинами). Обратный процесс — извлечение слов из аудио сигнала и синтез речи встречает ряд трудностей.

Программные продукты

Программы считаются принадлежащими категории «Voice Changing Software», или «Voice changer»:

  • Morphvox
  • Voice changer
  • Voice Anonymizer

Также SDK пакеты:

Услуга через сайт и телефон

Суммиров вкратце
Перспектива

Ранее, некоторые компании на коммерческой основе услугу изменения голоса абонента по телефону в режиме реального времени. Производилось это следующим образом[источник не указан 960 дней]:

  1. Предварительно абонентом (заказчиком) на web-сайте заказывался обратный звонок на свой телефон и звонок на телефон «мишени копирования» и системе предоставлялись образцы голосов заказчика и «мишени копирования»;
  2. Затем абонент заказывал обратный звонок на свой телефон и телефон интересующего его абонента. Система соединяла абонента, сигнал от него проходил через сервер компании, где менялись частотные характеристики и тембральная окраска голоса на параметры голоса человека — «мишени копирования». Абонент слышал слова заказчика, но для него эти слова (якобы) звучали голосом человека — «мишени копирования».

Описание технологии

Технология клонирования речи в условиях телефонного разговора в режиме реального времени базируется на известных алгоритмах математической обработки сигнала-носителя голоса[1] [2, 4]. При этом используются методы DFT анализа частот в дискретном сигнале (методом специального преобразования Фурье), полученном оцифровкой аналогового телефонного сигнала с применением узкополосного речевого кодека G.729[2] [5, 6, 7, 8]. Синтез измененной речи на основе сигнал-носителя, то есть получившийся «клонированный голос» реализует возможность максимального сохранения персональных акустических характеристик копируемого исходного голоса: фонетических особенностей произношения, акцента и даже артефактов такого рода, как заикание[3] [9]. Таким образом идентифицировать искусственность говорящего невозможно даже при специальной обработке и математическом анализе исходного телефонного сигнала. Незаконное использование технологии клонирования речи строго исключается в соответствии со специальной программой защиты онлайн сервиса, предоставляющего данную услугу.

Предшествующий уровень

Существующие сейчас системы создания машинной речи хорошо зарекомендовали себя в определенных технических нишах: в навигационных системах автомобилей, наручных часах, электронных «читающих» словарях-переводчиках и так далее. В подобных системах не ставится задача подражания голосу конкретного человека, поэтому получаемая машинная речь также не является персонифицированной, и легко узнается по причине своего ярко выраженного искусственного происхождения.

Ранее попытки синтезировать речь конкретного человека базировались на принципе создания «ядра» речевого клона, который содержит полный набор акустических, фонетических и просодических признаков — индивидуальных особенностей речи. Для этого требовалось наличие довольно подробной персонифицированной базы данных «копируемого» голоса. Человеку, голос которого требовалось скопировать, необходимо было прочитать длинный подготовленный текст, специально разработанный и содержащий в себе большое количество фонем, для максимального выявления особенностей речи говорящего.

Это представляло определенные трудности, так как известно, что обычный человек утомляется даже после 15-ти минут непрерывного чтения, а после 20 минут чтения его голос может и вовсе сорваться. Даже для профессионального диктора 45 минут непрерывного чтения с сохранением всего комплекса индивидуальных характеристик речи — довольно трудная задача. Требования к качеству записи голоса также предъявлялись весьма высокие — требовалось исключение различного рода шумов, способных помешать моделированию. Полученная таким образом персонифицированная запись исходного голоса подвергалась частотному анализу и математической обработке, причем вычислительный процесс часто занимал не одни сутки. После этого индивидуальная база данных голоса конкретного человека могла использоваться синтезатором речи. Естественно, длительность процесса кодирования и главное — необходимость записи эталонной речи в условиях студии существенно сужало спектр применения системы копирования речи в обычных условиях.

Remove ads

Примечания

Литература

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads