Вопросно-ответная система: различия между версиями

[отпатрулированная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
Лучше тут без ссылки, всё-таки не то, а ниже есть подобная.
Исходная статья являлась переводом, но сноски при переводе зачем-то потеряли, восстанавливаю. В том числе и по запросам.
Строка 8:
 
== Архитектура ==
Первые QA-системы<ref>Hirschman, L. & Gaizauskas, R. (2001) [http://journals.cambridge.org/action/displayAbstract?fromPage=online&aid=96167 Natural Language Question Answering. The View from Here]. Natural Language Engineering (2001), 7:4:275-300 Cambridge University Press.</ref> были разработаны в [[1960-е|1960х]] годах и являлись естественно-языковыми оболочками для [[Экспертная система|экспертных систем]], ориентированных на конкретные области. Современные системы предназначаются для поиска ''ответов на вопросы'' в предоставляемых документах с использованием технологий [[Обработка естественного языка|обработки естественных языков]] (NLP).
 
Современные QA-системы обычно включают особый модуль — '''классификатор вопросов''', который определяет тип вопроса и, соответственно, ожидаемого ответа. После этого анализа система постепенно применяет к предоставленным документам все более сложные и тонкие методы NLP, отбрасывая ненужную информацию. Самый грубый метод — '''поиск в документах''' — предполагает использование системы поиска информации для отбора частей текста, потенциально содержащих ответ. Затем '''фильтр''' выделяет фразы, похожие на ожидаемый ответ (например, на вопрос «Кто …» фильтр вернет кусочки текста, содержащие имена людей). И, наконец, модуль '''выделения ответов''' найдет среди этих фраз правильный ответ.
 
== Схема работы ==
Производительность вопросно-ответной системы зависит от качества текстовой базы — если в ней нет ответов на вопросы, QA-система мало что сможет найти. Чем больше база — тем лучше, но только если она ''содержит'' нужную информацию. Большие хранилища (такие как Интернет) содержат много избыточной информации<ref>Lin, J. (2002). The Web as a Resource for Question Answering: Perspectives and Challenges. In Proceedings of the Third International Conference on Language Resources and Evaluation (LREC 2002).</ref>. Это ведёт к двум положительным моментам:
:# Так как информация представлена в разных формах, QA-система быстрее найдет подходящий ответ. Не придется прибегать к сложным методам обработки текстов.
:# Правильная информация чаще повторяется, поэтому ошибки в документах отсеиваются.
Строка 21:
 
== Проблемы ==
В 2002 году группа исследователей написала план исследований в области вопросно-ответных систем{{нет<ref>Burger, АИ|21|01|2010}}J., Cardie, C., Chaudhri, V., Gaizauskas, R., Harabagiu, S., Israel, D., Jacquemin, C., Lin, C-Y., Maiorano, S., Miller, G., Moldovan, D., Ogden, B., Prager, J., Riloff, E., Singhal, A., Shrihari, R., Strzalkowski, T., Voorhees, E., Weishedel, R. [http://www-nlpir.nist.gov/projects/duc/papers/qa.Roadmap-paper_v2.doc Issues, Tasks and Program Structures to Roadmap Research in Question Answering (QA)].</ref>. Предлагалось рассмотреть следующие вопросы:
;Типы вопросов: Разные вопросы требуют разных методов поиска ответов. Поэтому нужно составить или улучшить методические списки типов возможных вопросов.
;Обработка вопросов: Одну и ту же информацию можно запросить разными способами. Требуется создать эффективные методы понимания и обработки [[Семантика|семантики]] (смысла) предложения. Важно, чтобы программа распознавала эквивалентные по смыслу вопросы, независимо от используемых [[Стиль речи|стиля]], слов, [[Синтаксис|синтаксических]] взаимосвязей и [[Фразеологизм|идиом]]. Хотелось бы, чтобы QA-система разделяла сложные вопросы на несколько простых, и правильно трактовала контекстно-зависимые фразы, возможно, уточняя их у пользователя в процессе диалога.
Строка 38:
* [[Nigma|Нигма — Интеллектуальная поисковая система]]
* [[Виртуальный цифровой помощник]]
 
== Примечания ==
{{примечания}}
 
== Литература ==