Клонирование голоса

Клонирование голоса (англ. voice changing, voice cloning) — это технология, реализующая изменение голоса человека, производимая с помощью программно-аппаратных средств, в режиме как реального времени, так и в отложенном пакетном режиме.

Технология позволяет моделировать персональные характеристики речи человека с достаточно полным совпадением с оригиналом, называемым «мишенью копирования».

Содержание

Общая оценка технологииПравить

В настоящее время сравнительно хорошо развиты системы распознавания речи. Они используются в голосовом управлении различными бытовыми приборами (в телефонах, автомобильных аудиосистемах, и заканчивая стиральными машинами). Обратный процесс, извлечение слов из аудио сигнала и синтез речи встречает ряд трудностей.

Программные продуктыПравить

Программы считаются принадлежащими категории «Voice Changing Software», или «Voice changer»:

  • Morphvox
  • Voice changer
  • VMic - Voice Anonymizer

Также SDK пакеты:

  • Voice Cloning Toolkit for Festival and HTS (Mac) — Исследовательский пакет от Исследовательского Центра Речевых Технологий и Junichi Yamagishi из Эдинбургского Университета

Услуга через сайт и телефонПравить

Ранее, некоторые компании [источник не указан 2692 дня] на коммерческой основе услугу изменения голоса абонента по телефону в режиме реального времени. Производилось это следующим образом:

  1. Предварительно абонентом (заказчиком) на web-сайте заказывался обратный звонок на свой телефон и звонок на телефон «мишени копирования» и системе предоставлялись образцы голосов заказчика и «мишени копирования»;
  2. Затем абонент заказывал обратный звонок на свой телефон и телефон интересующего его абонента. Система соединяла абонента, сигнал от него проходил через сервер компании, где менялись частотные характеристики и тембральная окраска голоса на параметры голоса человека — «мишени копирования». Абонент слышал слова заказчика, но для него эти слова (якобы) звучали голосом человека — «мишени копирования».

Описание технологии

Технология клонирования речи в условиях телефонного разговора в режиме реального времени базируется[источник не указан 2692 дня] на известных алгоритмах математической обработки сигнала-носителя голоса[1] [2, 4]. При этом используются[источник не указан 2692 дня] методы DFT анализа частот в дискретном сигнале (методом специального преобразования Фурье), полученном оцифровкой аналогового телефонного сигнала с применением узкополосного речевого кодека G.729[2] [5, 6, 7, 8]. Синтез измененной речи на основе сигнал-носителя, то есть получившийся «клонированный голос» реализует возможность максимального сохранения персональных акустических характеристик копируемого исходного голоса: фонетических особенностей произношения, акцента и даже артефактов такого рода, как заикание[3] [9]. Таким образом идентифицировать искусственность говорящего невозможно даже при специальной обработке и математическом анализе исходного телефонного сигнала. Незаконное использование технологии клонирования речи строго исключается в соответствии со специальной программой защиты онлайн сервиса, предоставляющего данную услугу. Описываемая технология клонирования голоса в телефонных сетях являлась, по утверждению создателей, новейшим продуктом, не имевшим аналогов ранее.[источник не указан 2692 дня]

Предшествующий уровень

Существующие сейчас системы создания машинной речи хорошо зарекомендовали себя в определенных технических нишах: в навигационных системах автомобилей, наручных часах, электронных «читающих» словарях-переводчиках и так далее. В подобных системах не ставится задача подражания голосу конкретного человека, поэтому получаемая машинная речь также не является персонифицированной, и легко узнается по причине своего ярко выраженного искусственного происхождения.

Ранее попытки синтезировать речь конкретного человека базировались на принципе создания «ядра» речевого клона, который содержит полный набор акустических, фонетических и просодических признаков — индивидуальных особенностей речи. Для этого требовалось наличие довольно подробной персонифицированной базы данных «копируемого» голоса. Человеку, голос которого требовалось скопировать, необходимо было прочитать длинный подготовленный текст, специально разработанный и содержащий в себе большое количество фонем, для максимального выявления особенностей речи говорящего.

Это представляло определенные трудности, так как известно, что обычный человек утомляется даже после 15-ти минут непрерывного чтения, а после 20 минут чтения его голос может и вовсе сорваться. Даже для профессионального диктора 45 минут непрерывного чтения с сохранением всего комплекса индивидуальных характеристик речи — довольно трудная задача. Требования к качеству записи голоса также предъявлялись весьма высокие — требовалось исключение различного рода шумов, способных помешать моделированию. Полученная таким образом персонифицированная запись исходного голоса подвергалась частотному анализу и математической обработке, причем вычислительный процесс часто занимал не одни сутки. После этого индивидуальная база данных голоса конкретного человека могла использоваться синтезатором речи. Естественно, длительность процесса кодирования и главное — необходимость записи эталонной речи в условиях студии существенно сужало спектр применения системы копирования речи в обычных условиях.

ПрименениеПравить

В настоящее время наиболее ярким примером коммерческого применения инновационной технологии клонирования речи может являться индустрия развлечений. Звоня абоненту и общаясь с ним голосом другого лица (например, вашего общего знакомого) вы можете разыграть его, или выяснить его мнение о вас самих. Дети получат возможность слушать сказки, которые изначально были озвучены профессиональными дикторами, но переозвученные родительским голосом. При локализации кинофильмов и другой продукции можно голоса актёров дубляжа «подогнать» под голоса актёров первоисточника. Следует отметить, что подобная технология открывает простор для широкого спектра злоупотреблений, попадающих под различные статьи уголовного кодекса.

Интересные фактыПравить

  • Технология клонирования речи и даже само мобильное устройство для этого (в виде «мини-диктофона») было показано как небольшой гаджет в самом первом фильме из сериала «BUGS. Электронные жучки».
  • Клонированным голосом виртуальной актрисы общался герой Аль Пачино в фильме режиссёра Виктора Тарански «Симона» (англ. Simone).
  • Способностью мастерски имитировать голоса других людей, выдавая себя за них в телефонном разговоре для получения собственной выгоды, обладал Игорь Луценко в исполнении Игоря Скляра — герой отечественного фильма «Имитатор» режиссёра Олега Борисовича Фиалко.
  • Устройство способное имитировать голоса других людей, выдавая себя за них в телефонном разговоре для мошенничества, использовалось отрицательным персонажем в одной из последних серий сериала «Тайны следствия».
  • Способностью имитировать любой услышанный человеческий голос, обладали киборги, так называемые человекообразные терминаторы (в отличие от других моделей), во всех частях фильма "Терминатор". Например модель T-800, в "Терминатор-2", способен к звукоподражанию и имитации голоса человека (меняет тембр в очень широком диапазоне — может имитировать детские и женские голоса).

ПримечанияПравить

  1. Abe M., Nakamura S., Shikano K. and Kuwabara H. «Voice conversion through vector quantization», in Proc. of the Int. Conf. on Acoust., Speech and Sig. Proc. ICASSP, New York, USA, Apr. 1988, vol. 1, pp. 655—658.
  2. Levine S. and Smith J.O. «A sines+transients+noise audio representation for data compression and time/pitch scale modifications», in Proc. 105th Conv. Audio Eng. Soc., preprint #4781, Sep. 1998.
  3. Huang X., Acero A., Hon H-W. «Spoken Language Processing: a guide to theory, algorithms, and system development», Prentice Hall, NJ, 2001. — p. 980.

ЛитератураПравить

  1. Б. М. Лобанов, Л. И. Цирульник «Компьютерный синтез и клонирование речи», Минск «Белорусская Наука», 2008, 316 стр.
  2. Abe M., Nakamura S., Shikano K. and Kuwabara H. «Voice conversion through vector quantization», in Proc. of the Int. Conf. on Acoust., Speech and Sig. Proc. ICASSP, New York, USA, Apr. 1988, vol. 1, pp. 655–658.
  3. Patent No.: US 6615174B1, Sep. 2, 2003.
  4. ITU-T Rec. G.729, «Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear — prediction (CS-ACELP)», Mar. 1996.
  5. Levine S. and Smith J.O. «A sines+transients+noise audio representation for data compression and time/pitch scale modifications», in Proc. 105th Conv. Audio Eng. Soc., preprint #4781, Sep. 1998.
  6. Talkin D. «Robust algorithm for pitch tracking» in «Speech Coding and Synthesis», Kleijn, W.B. and Palival, K.K. Eds. Elsevier, Amsterdam, Netherlands, 1995.
  7. Grocholevski S. «First Database for Spoken Polish», in Proc. Int. Conf. On Language Resources and Evaluation, Grenada, 1998, pp. 1059–1062.
  8. KY Lee, Y Zhao, «Statistical Conversion Algorithms of Pitch Contours Based on Prosodic Phrases». Proceedings of the International Conference «Speech Prosody 2004». (SP 2004)", Nara, Japan March 23-26 2004.
  9. Huang X., Acero A., Hon H-W. «Spoken Language Processing: a guide to theory, algorithms, and system development», Prentice Hall, NJ, 2001. — p. 980.