Речевой корпус

Речево́й ко́рпус (звуково́й ко́рпус) — база данных аудиофайлов и транскрипций текстов, разновидность корпуса текстов. В речевых технологиях^[en] речевые корпуса используются, среди прочего, для создания акустических моделей^[en] (которые затем могут использоваться в механизмах распознавания речи). В лингвистике речевые корпуса используются для исследований фонетики, диалектологии, конверсационного анализа и в других областях.

Существует два типа речевых корпусов:
1.Базы начитанных текстов, в том числе:

тексты книг;
тексты трансляций новостей;
списки слов;
последовательности чисел.

2.Базы аудиозаписей спонтанной речи — в том числе:

диалоги — беседы между двумя или более людьми;
устные рассказы (например, Buckeye Corpus^[1]);
картографические пояснения — один человек объясняет маршрут на карте другим;
задачи назначения — два человека пытаются найти общее время встречи, основанное на отдельных графиках.

Особый вид речевых корпусов — это базы данных текстов, наговоренных людьми, не являющимися носителями языка^[en], которые содержат речь с иностранным акцентом.

Примечания править

↑ Buckeye Corpus (неопр.). Дата обращения: 6 апреля 2018. Архивировано 23 марта 2018 года.

Литература править

Edwards, Jane / Lampert, Martin (eds.) (1992): Talking Data — Transcription and Coding in Discourse Research. Hillsdale: Erlbaum.
Leech, Geoffrey / Myers, Greg / Thomas, Jenny (eds.) (1995): Spoken English on Computer: Transcription, Markup and Application. Harlow: Longman.

Ссылки править

Источник — https://ru.wikipedia.org/w/index.php?title=Речевой_корпус&oldid=133084451