Открыть главное меню

Электронный словарь — словарь в компьютере или другом электронном устройстве.

Позволяет быстро найти нужное слово, часто с учётом морфологии и возможностью поиска словосочетаний (примеров употребления), а также с возможностью изменения направления перевода (например, англо-русский или русско-английский).

Внутренне устроен как база данных со словарными статьями.

Машиночитаемые словари (Machine-readable dictionary, кратко MRD) используются компьютерными программами для решения различных задач, например, для обработки текстов на естественном языке. Машиночитаемые словари являются разновидностью электронных словарей.

Содержание

Машиночитаемые словариПравить

Создание машиночитаемых словарейПравить

Рассмотрим методы автоматического создания и пополнения машиночитаемых (электронных) словарей.

В проекте Leipzig Corpora Collection[1] (LCC) корпуса и одноязычные словари строятся на основе текстов, извлекаемых из сети Интернет[2]. LCC включает около 400 словарей. В качестве затравки для поиска текстов в Интернете в проекте LCC использовали текст Всеобщей декларации прав человека, поскольку Декларация содержит около 2000 общеупотребимых слов и переведена на 370 языков и диалектов[3]. Из 200 Википедий были отобраны тексты для компиляции всего 70 словарей. Тексты не всех Википедий были включены в корпус LCC, поскольку многие вики-проекты начинаются с создания статей-заготовок, содержащих почти одинаковые предложения[3].

Такой подход трудно реализуем для малоресурсных языков, но проект Crúbadán[4], собрав данные для более чем 2200 языков, показывает, что автоматический поиск для языков, представленных в сети Интернет малым или единичным числом текстов, также возможен[5]. В дальнейшем эти тексты используются для создания словарей, например, в проекте Crúbadán было собрано более 100 млн валлийских слов и половина валлийских текстов с этими словами были переданы Уэльскому университету для создания валлийского словаря[6].

Использование машиночитаемых словарейПравить

В работах 1980-х годов предполагали, что на основе машиночитаемых словарей можно построить большие базы знаний. Но в дальнейшем признали, что для этого нужно использовать множество ресурсов, в первую очередь корпусы[7].

Максимум того, что получилось добиться при извлечении знаний из словарей — это автоматически построить несколько несовершенных таксономий[8].

Трудности извлечения информации из словарей:

 
Число уникальных русских слов в академических словарях (вертикальная полоса) и число уникальных слов по всем 12 словарям (круговая диаграмма), 2015[9]
  • Преобразование из исходного формата требует больших усилий и эта задача достойна отдельного исследования, однако учёные предпочитают заниматься более научными задачами[10]. Трудность в том, что неоднозначности и противоречия в правилах организации исходного словаря исключают возможность построения полностью автоматического парсера словаря. Построение таких парсеров — задача времязатратная и неблагодарная, поэтому словарей, доступных для компьютерной обработки крайне мало[10].
  • Противоречия и несогласованность в словарях приводят к построению очень разных семантических сетей по разным словарям[11]. Проверка фрагментов пяти главных английских словарей показала, что в 50-70 % случаев информация в толкованиях словарей искажена или отсутствует[12]. Та же плачевная картина получена при анализе трёх главных французских словарей. Из этого следует, что те методы WSD, которые основаны на анализе текстов толкований, в этих многочисленных случаях не будут работать[12].
  • Необходима частичная ручная проверка для построения качественных баз знаний по словарям[13].
  • Необходима интеграция множества источников данных. В комбинировании информации из нескольких словарей есть смысл, поскольку неполнота одного словаря компенсируется другим, имеющим другие лакуны и пропуски информации. В небольшом эксперименте в построении иерархии по пяти английским словарям процент ошибок был снижен с 55-70 % до 5 %. Качество извлекаемой информации при объединении словарей повысилось, но ручная проверка нужна[13]. С другой стороны, анализ 12 русских словарей показал, что существуют большие размеры пересечений словников словарей[9]. На рисунке представлена доля «уникальной» лексики в каждом из рассмотренных русских словарей[9].

Популярные электронные словариПравить

СловариПравить

ПрограммыПравить

Программы, сайты и др.Править

См. такжеПравить

ПримечанияПравить

ЛитератураПравить