Распознавание речи

Распознавание речи — автоматический процесс преобразования речевого сигнала в цифровую информацию (например, текстовые данные). Обратной задачей является синтез речи (text-to-speech).

История

Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры^[1]. В 1962 году на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox.

В 1963 году в США были презентованы разработанные инженерами корпорации Sperry миниатюрные распознающие устройства с волоконно-оптическим запоминающим устройством под названием «Септрон» (Sceptron, но произносится [ˈseptrɑːn] без «к»)^[2], выполняющие ту или иную последовательность действий на произнесённые человеком-оператором определённые фразы. «Септроны» годились для применения в сфере фиксированной (проводной) связи для автоматизации набора номеров голосом и автоматической записи надиктовываемого текста телетайпом, могли применяться в военной сфере (для голосового управления сложными образцами военной техники), авиации (для создания «умной авионики», реагирующей на команды пилота и членов экипажа), автоматизированных системах управления и др.^[2]^[3]^[4]. В 1983 году был презентован интерактивный комплекс «умной авионики» для ударных вертолётов «Апач», распознающий команды и запросы пилота, преобразующий их в сигналы управления на бортовое оборудование и односложно отвечающий ему голосом относительно возможности реализации поставленной им задачи^[5].

Коммерческие программы по распознаванию речи появились в начале 90-х годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking^[англ.], VoiceNavigator^[англ.]) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.

Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.

Все большую популярность применение распознавания речи находит в различных сферах бизнеса, например, врач в поликлинике может проговаривать диагнозы, которые тут же будут внесены в электронную карточку. Или другой пример. Наверняка каждый хоть раз в жизни мечтал с помощью голоса выключить свет или открыть окно. В последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нём может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.

Следующим шагом технологий распознавания речи можно считать развитие так называемых интерфейсов безмолвного доступа (silent speech interfaces, SSI). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.

Классификация систем распознавания речи

Системы распознавания речи классифицируются:^[6]

по размеру словаря (ограниченный набор слов, словарь большого размера);
по зависимости от диктора (дикторозависимые и дикторонезависимые системы);
по типу речи (слитная или раздельная речь);
по назначению (системы диктовки, командные системы);
по используемому алгоритму (нейронные сети, скрытые Марковские модели, динамическое программирование);
по типу структурной единицы (фразы, слова, фонемы, дифоны, аллофоны);
по принципу выделения структурных единиц (распознавание по шаблону, выделение лексических элементов).

Для систем автоматического распознавания речи, помехозащищённость обеспечивается, прежде всего, использованием двух механизмов:^[7]

Использование нескольких, параллельно работающих, способов выделения одних и тех же элементов речевого сигнала на базе анализа акустического сигнала;
Параллельное независимое использование сегментного (фонемного) и целостного восприятия слов в потоке речи.

Методы и алгоритмы распознавания речи

«… очевидно, что алгоритмы обработки речевого сигнала в модели восприятия речи должны использовать ту же систему понятий и отношений, которой пользуется человек»^[8]^[9].

Сегодня системы распознавания речи строятся на основе ^[кем?] форм распознавания^{[неизвестный термин]}. Методы и алгоритмы, которые использовались до сих пор, могут быть разделены на следующие большие классы распознавания речи на основе сравнения с эталоном.:^[10]^[11]

Динамическое программирование — временные динамические алгоритмы (Dynamic Time Warping).

Контекстно-зависимая классификация. При её реализации из потока речи выделяются отдельные лексические элементы — фонемы и аллофоны, которые затем объединяются в слоги и морфемы.

Методы дискриминантного анализа, основанные на Байесовской дискриминации (Bayesian discrimination);
Скрытые Марковские модели (Hidden Markov Model, см. Марковское свойство);
Нейронные сети (Neural networks).

Алгоритм динамической трансформации временной шкалы используется для определения того, речевые сигналы представляют одну и ту же исходную произнесённую фразу.

Архитектура систем распознавания

Одна из архитектур систем автоматической обработки речи, основанной на статистических данных, может быть следующей^[12]^[13]:

Модуль шумоочистки и отделение полезного сигнала.
Акустическая модель — позволяет оценить распознавание речевого сегмента с точки зрения схожести на звуковом уровне. Для каждого звука изначально строится сложная статистическая модель, которая описывает произнесение этого звука в речи.
Языковая модель — позволяют определить наиболее вероятные последовательности слов. Сложность построения языковой модели во многом зависит от конкретного языка. Так, для английского языка достаточно использовать статистические модели (так называемые N-граммы). Для высокофлективных языков (языков, в которых существует много форм одного и того же слова), к которым относится и русский, языковые модели, построенные только с использованием статистики, уже не дают такого эффекта — слишком много нужно данных, чтобы достоверно оценить статистические связи между словами. Поэтому применяют гибридные языковые модели, использующие правила русского языка, информацию о части речи и форме слова и классическую статистическую модель.

Декодер — программный компонент системы распознавания, который совмещает данные, получаемые в ходе распознавания от акустических и языковых моделей, и на основании их объединения, определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания слитной речи.

Этапы распознавания^[12]:

Обработка речи начинается с оценки качества речевого сигнала. На этом этапе определяется уровень помех и искажений.
Результат оценки поступает в модуль акустической адаптации, который управляет модулем расчета параметров речи, необходимых для распознавания.
В сигнале выделяются участки, содержащие речь, и происходит оценка параметров речи. Происходит выделение фонетических и просодических вероятностных характеристик для синтаксического, семантического и прагматического анализа. (Оценка информации о части речи, форме слова и статистические связи между словами.)
Далее параметры речи поступают в основной блок системы распознавания — декодер. Это компонент, который сопоставляет входной речевой поток с информацией, хранящейся в акустических и языковых моделях, и определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания.

Признаки эмоционально окрашенной речи в системах распознавания

Основные понятия, которые характеризуют параметры речи человека, связанные с формой, размерами, динамикой изменения речеобразующего тракта и описывающие эмоциональное состояния человека, можно разделить на четыре группы объективных признаков, позволяющих различать речевые образцы: спектрально-временные, кепстральные, амплитудно-частотные и признаки нелинейной динамики. Подробнее, каждая группа признаков:^[9]^[14]^[15]

Спектрально-временные признаки

Спектральные признаки:

Среднее значение спектра анализируемого речевого сигнала;
Нормализованные средние значения спектра;
Относительное время пребывания сигнала в полосах спектра;
Нормализованное время пребывания сигнала в полосах спектра;
Медианное значение спектра речи в полосах;
Относительная мощность спектра речи в полосах;
Вариация огибающих спектра речи;
Нормализованные величины вариации огибающих спектра речи;
Коэффициенты кросскорреляции спектральных огибающих между полосами спектра.

Временные признаки:

Длительность сегмента, фонемы;
Высота сегмента;
Коэффициент формы сегмента.

Спектрально-временные признаки характеризуют речевой сигнал в его физико-математической сущности исходя из наличия компонентов трех видов:

периодических (тональных) участков звуковой волны;
непериодических участков звуковой волны (шумовых, взрывных);
участков, не содержащих речевых пауз.

Спектрально-временные признаки позволяют отражать своеобразие формы временного ряда и спектра голосовых импульсов у разных лиц и особенности фильтрующих функций их речевых трактов. Характеризуют особенности речевого потока, связанные с динамикой перестройки артикуляционных органов речи говорящего, и являются интегральными характеристиками речевого потока, отражающими своеобразие взаимосвязи или синхронности движения артикуляционных органов говорящего.

Кепстральные признаки

Мел-частотные кепстральные коэффициенты;
Коэффициенты линейного предсказания с коррекцией на неравномерность чувствительности человеческого уха;
Коэффициенты мощности частоты регистрации;
Коэффициенты спектра линейного предсказания;
Коэффициенты кепстра линейного предсказания.

Большинство современных автоматических систем распознавания речи сосредотачивают усилия на извлечении частотной характеристики речевого тракта человека, отбрасывая при этом характеристики сигнала возбуждения. Это объяснено тем, что коэффициенты первой модели обеспечивают лучшую разделимость звуков. Для отделения сигнала возбуждения от сигнала речевого тракта прибегают к кепстральному анализу.

Амплитудно-частотные признаки

Интенсивность, амплитуда
Энергия
Частота основного тона (ЧОТ)
Формантные частоты
Джиттер (jitter) — дрожание частотная модуляция основного тона (шумовой параметр);
Шиммер (shimmer) — амплитудная модуляция на основном тоне (шумовой параметр);
Радиальная базисная ядерная функция
Нелинейный оператор Тигер

Амплитудно-частотные признаки позволяют получать оценки, значения которых могут меняться в зависимости от параметров дискретного преобразования Фурье (вида и ширины окна), а также при незначительных сдвигах окна по выборке. Речевой сигнал акустически представляют собой распространяемые в воздушной среде сложные по своей структуре звуковые колебания, которые характеризуются в отношении их частоты (числа колебаний в секунду), интенсивности (амплитуды колебаний) и длительности. Амплитудно-частотные признаки несут необходимую и достаточную информацию для человека по речевому сигналу при минимальном времени восприятия. Но применение этих признаков не позволяет в полной мере использовать их в качестве инструмента идентификации эмоционально окрашенной речи.

Признаки нелинейной динамики

Отображение Пуанкаре;
Рекуррентный график;
Максимальный характеристический показатель Ляпунова — Эмоциональное состояние человека, которому соответствует определенная геометрия аттрактора (фазовый портрет);^[16]
Фазовый портрет (аттрактор);
Размерность Каплана-Йорка — количественная мера эмоционального состояния человека, от «спокойствия» до «гнева» (деформация и последующее смещение спектра речевого сигнала).^[16].

Для группы признаков нелинейной динамики речевой сигнал рассматривается как скалярная величина, наблюдаемая в системе голосового тракта человека. Процесс речеобразования можно считать нелинейным и анализировать его методами нелинейной динамики. Задача нелинейной динамики состоит в нахождении и подробном исследовании базовых математических моделей и реальных систем, которые исходят из наиболее типичных предложений о свойствах отдельных элементов, составляющих систему, и законах взаимодействия между ними. В настоящее время методы нелинейной динамики базируются на фундаментальной математической теории, в основе которой лежит теорема Такенса^[англ.], которая подводит строгую математическую основу под идеи нелинейной авторегрессии и доказывает возможность восстановления фазового портрета аттрактора по временному ряду или по одной его координате. (Под аттрактором понимают множество точек или подпространство в фазовом пространстве, к которому приближается фазовая траектория после затухания переходных процессов.) Оценки характеристик сигнала из восстановленных речевых траекторий используются в построении нелинейных детерминированных фазово-пространственных моделей наблюдаемого временного ряда. Выявленные отличия в форме аттракторов можно использовать для диагностических правил и признаков, позволяющих распознать и правильно идентифицировать различные эмоции в эмоционально окрашенном речевом сигнале.

Параметры качества речи

Параметры качества речи по цифровым каналам: ^[17]

Слоговая разборчивость речи;
Фразовая разборчивость речи;
Качество речи по сравнению с качеством речи эталонного тракта;
Качество речи в реальных условиях работы.

Основные понятия

Разборчивость речи — относительное количество правильно принятых элементов речи (звуков, слогов, слов, фраз), выраженное в процентах от общего числа переданных элементов.
Качество речи — параметр, характеризующий субъективную оценку звучания речи в испытуемой системе передачи речи.
Нормальный темп речи — произнесение речи со скоростью, при которой средняя длительность контрольной фразы равна 2,4 с.
Ускоренный темп речи — произнесение речи со скоростью, при которой средняя длительность контрольной фразы равна 1,5-1,6 с.
Узнаваемость голоса говорящего — возможность слушателей отождествлять звучание голоса, с конкретным лицом, известным слушателю ранее.
Смысловая разборчивость — показатель степени правильного воспроизведения информационного содержания речи.
Интегральное качество — показатель, характеризующий общее впечатление слушателя от принимаемой речи.

Применение

Основным преимуществом голосовых систем объявлялась дружественность к пользователю. Речевые команды должны были избавить конечного пользователя от необходимости использования сенсорных и иных методов ввода данных и команд.

Успешными примерами использования технологии распознавания речи в мобильных приложениях являются: ввод адреса голосом в Яндекс. Навигаторе, голосовой поиск Google Now.

Помимо мобильных устройств, технология распознавания речи находит широкое распространение в различных сферах бизнеса:

Телефония: автоматизация обработки входящих и исходящих звонков путём создания голосовых систем самообслуживания в частности для: получения справочной информации и консультирования, заказа услуг/товаров, изменения параметров действующих услуг, проведения опросов, анкетирования, сбора информации, информирования и любые другие сценарии;
Решения «Умный дом»: голосовой интерфейс управления системами «Умный дом»;
Бытовая техника и роботы: голосовой интерфейс электронных роботов; голосовое управление бытовой техникой и т.д;
Десктопы и ноутбуки: голосовой ввод в компьютерных играх и приложениях;
Автомобили: голосовое управление в салоне автомобиля — например, навигационной системой;
Социальные сервисы для людей с ограниченными возможностями.

См. также

Примечания

↑ Davies , K.H., Biddulph, R. and Balashek, S. (1952) Automatic Speech Recognition of Spoken Digits, J. Acoust. Soc. Am. 24 (6) pp. 637—642
↑ ¹ ² Klass, Philip J. Fiber Optic Device Recognizes Signals. // Aviation Week & Space Technology. — N.Y.: McGraw-Hill, 1962. — Vol. 77 — No. 20 — P. 94-101.
↑ Memory Cells. // Military Review. — April 1963. — Vol. 43 — No. 4 — P. 99.
↑ Armagnac, Alden P. «Tell It to Sceptron!» // Popular Science. — April 1963. — Vol. 182 — No. 4 — P. 120.
↑ Voice-operated Computer Tested. // Air Defense Artillery. — Spring 1983. — No. 2 — P. 54.
↑ Account Suspended (неопр.). Дата обращения: 10 марта 2013. Архивировано 27 ноября 2013 года.
↑ Современные проблемы в области распознавания речи. (неопр.) Дата обращения: 6 июня 2020. Архивировано 6 июня 2020 года.
↑ http://фоноскопическая.рф/articles_and_publications/Lobanova_Search_of_identical_fragments.pdf (недоступная ссылка)
↑ ¹ ² Источник (неопр.). Дата обращения: 29 апреля 2013. Архивировано 21 августа 2013 года.
↑ Источник (неопр.). Дата обращения: 25 апреля 2013. Архивировано 15 сентября 2012 года.
↑ Источник (неопр.). Дата обращения: 25 апреля 2013. Архивировано 22 декабря 2014 года.
↑ ¹ ² Распознавание речи | Центр Речевых Технологий | ЦРТ (неопр.). Дата обращения: 20 апреля 2013. Архивировано 28 апреля 2013 года.
↑ Источник (неопр.). Дата обращения: 29 апреля 2013. Архивировано 4 марта 2016 года.
↑ Анализ признаков эмоционально окрашенного текста (неопр.). Дата обращения: 6 июня 2020. Архивировано 6 июня 2020 года.
↑ Источник (неопр.). Дата обращения: 1 мая 2013. Архивировано 4 марта 2016 года.
↑ ¹ ² Диссертация на тему «Исследование психофизиологического состояния человека на основе эмоциональных признаков речи» автореферат по специальности ВАК 05.11.17, 05.13.01 — Прибор… (неопр.) Дата обращения: 30 апреля 2013. Архивировано 14 октября 2013 года.
↑ ГОСТ Р 51061-97. ПАРАМЕТРЫ КАЧЕСТВА РЕЧИ. СИСТЕМЫ НИЗКОСКОРОСТНОЙ ПЕРЕДАЧИ РЕЧИ ПО ЦИФРОВЫМ КАНАЛАМ. (неопр.) Дата обращения: 29 апреля 2013. Архивировано из оригинала 3 сентября 2014 года.

Ссылки

[1] Davies , K.H., Biddulph, R. and Balashek, S. (1952) Automatic Speech Recognition of Spoken Digits, J. Acoust. Soc. Am. 24 (6) pp. 637—642

[AW&ST-2] ¹ ² Klass, Philip J. Fiber Optic Device Recognizes Signals. // Aviation Week & Space Technology. — N.Y.: McGraw-Hill, 1962. — Vol. 77 — No. 20 — P. 94-101.

[3] Memory Cells. // Military Review. — April 1963. — Vol. 43 — No. 4 — P. 99.

[4] Armagnac, Alden P. «Tell It to Sceptron!» // Popular Science. — April 1963. — Vol. 182 — No. 4 — P. 120.

[5] Voice-operated Computer Tested. // Air Defense Artillery. — Spring 1983. — No. 2 — P. 54.

[SpeechRef-6] Account Suspended (неопр.). Дата обращения: 10 марта 2013. Архивировано 27 ноября 2013 года.

[auditechRef-7] Современные проблемы в области распознавания речи. (неопр.) Дата обращения: 6 июня 2020. Архивировано 6 июня 2020 года.

[LobanovaRef-8] ttp://фоноскопическая.рф/articles_and_publications/Lobanova_Search_of_identical_fragments.pdf (недоступная ссылка)

[chistovichRef-9] ¹ ² Источник (неопр.). Дата обращения: 29 апреля 2013. Архивировано 21 августа 2013 года.

[ASRallRef-10] Источник (неопр.). Дата обращения: 25 апреля 2013. Архивировано 15 сентября 2012 года.

[ASR2Ref-11] Источник (неопр.). Дата обращения: 25 апреля 2013. Архивировано 22 декабря 2014 года.

[recRef-12] ¹ ² Распознавание речи | Центр Речевых Технологий | ЦРТ (неопр.). Дата обращения: 20 апреля 2013. Архивировано 28 апреля 2013 года.

[mazurenkRef-13] Источник (неопр.). Дата обращения: 29 апреля 2013. Архивировано 4 марта 2016 года.

[SidRef-14] Анализ признаков эмоционально окрашенного текста (неопр.). Дата обращения: 6 июня 2020. Архивировано 6 июня 2020 года.

[terraRef-15] Источник (неопр.). Дата обращения: 1 мая 2013. Архивировано 4 марта 2016 года.

[HromRef-16] ¹ ² Диссертация на тему «Исследование психофизиологического состояния человека на основе эмоциональных признаков речи» автореферат по специальности ВАК 05.11.17, 05.13.01 — Прибор… (неопр.) Дата обращения: 30 апреля 2013. Архивировано 14 октября 2013 года.

[51061Ref-17] ГОСТ Р 51061-97. ПАРАМЕТРЫ КАЧЕСТВА РЕЧИ. СИСТЕМЫ НИЗКОСКОРОСТНОЙ ПЕРЕДАЧИ РЕЧИ ПО ЦИФРОВЫМ КАНАЛАМ. (неопр.) Дата обращения: 29 апреля 2013. Архивировано из оригинала 3 сентября 2014 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]