Авторский инвариант

Авторский инвариант (англ. writer invariant, authorial invariant, author's invariant) — это количественная характеристика литературных текстов или некий параметр, который однозначно характеризует своим поведением произведения одного автора или небольшого числа «близких авторов», и принимает существенно разные значения для произведений разных групп авторов.^{[источник не указан 2483 дня]} Авторский инвариант применяется в задаче идентификации авторства текста.^[⇨]

Задача идентификации авторства текста — это задача установления авторства неизвестного текста с помощью выделения особенностей авторского стиля и сравнения этих особенностей с другими произведениями, авторство которых известно.

Описание править

Основные свойства, которыми должна обладать числовая характеристика авторского инварианта:

Она должна быть достаточно «массовой», интегральной, чтобы слабо контролироваться автором на сознательном уровне. Другими словами, она должна быть его «бессознательным параметром», коренящимся настолько глубоко, что автор даже не задумывается о нем. А если бы даже задумался, то не смог бы долго его контролировать и в результате довольно быстро вернулся бы в прежнее устойчивое и типичное для него состояние.
Искомый параметр должен сохранять «постоянное значение» для произведений данного автора. То есть, иметь небольшое отклонение от среднего значения (слабо колебаться) на протяжении всех его книг. Именно это свойство и позволяет говорить, что данный параметр является инвариантом.
Параметр должен уверенно различать между собой разные группы писателей. Другими словами, должно существовать достаточное число авторских групп, заметно отличающихся друг от друга значениями инварианта.^{[источник не указан 2483 дня]}

Такими количественными характеристиками могут быть:

Длина предложений, то есть среднее число слов в предложении.
Длина слов, то есть среднее количество слогов в слове.
Общая частота употребления служебных слов - предлогов, союзов, частиц, то есть процентное содержание служебных слов.
Частота употребления существительных, то есть их процентное содержание.
Частота употребления глаголов, то есть их процентное содержание.
Частота употребления прилагательных (в процентах).
Частота употребления предлога «в» (в процентах).
Частота употребления частицы «не» (в процентах).
Количество служебных слов в предложении, то есть среднее число союзов, предлогов и частиц в предложении.^{[источник не указан 2483 дня]}

Идентификация авторства текста править

Задача идентификации авторства текста править

Формулировка задачи идентификации автора текста при ограниченном наборе альтернатив выглядит следующим образом:^[1]

$T=\{t_{1},...,t_{k}\}$ — множество текстов,

$A=\{a_{1},...,a_{l}\}$ — множество авторов.

Для некоторого подмножества текстов $T'=\{t_{1},...t_{m}\}\subseteq T$ авторы известны , т.е. существует множество пар «текст–автор» $D=\{(t_{i},a_{j})\}_{i=1}^{m}$ . Необходимо установить, кто из множества $A$ является истинным автором остальных текстов (анонимных или спорных) $T''=\{t_{m+1},...,t_{k}\}\subseteq T$

Методика идентификации автора неизвестного текста править

Методика включает последовательность следующих действий:^[1]

Выбор модели представления текстов в виде наборов признаков.
Выбор группы признаков для проверки и формирования из неё авторского инварианта.
Выбор классификаторов и их параметров.
Формирование модели авторского стиля, позволяющей разделять двух и более авторов на основе полученного авторского инварианта и обученного классификатора.
Непосредственно определение авторства неизвестного текста.
Принятие итогового решения об авторе текста ансамблем классификаторов в случае, если удалось найти несколько информативных групп признаков текста.

Программное обеспечение для идентификации авторства текста править

Программное обеспечение, используемое для идентификации авторства текста, по основным задачам можно разделить на несколько типов:^[2]

Название программы (Application name)	Автор (Developer)	Сайт (Website)	Описание (Description)
Программы для определения авторства текста
Штампомер	Делицын Л. Л.	Штампомер	Программа статистического анализа текста и определения авторства.
Лингвоанализатор^[3]	Хмелев Д. В.	Лингвоанализатор	Программа математического анализа структуры текста. Работает онлайн. Специализируется на произведениях Русской Фантастики. Программа определяет близость входного текста к одному из авторов и в результате выдает трех наиболее вероятных авторов, для каждого указывая три наиболее близких произведения.
СМАЛТ	ПетрГУ	СМАЛТ	Программа морфологического и синтаксического анализа текста. Специализируется на публицистике 60-70 гг 19 века. Программа обладает инструментарием для выявления статистических признаков литературных текстов по жанру и авторству.
Стилеанализатор	Шевелев О. Г.	—	Программа анализа авторского стиля с точки зрения устойчивости, частоты и уникальности признаков автора.
Авторовед	Романов А.С.		Программа для идентификации автора текста. Включает использование нейросетевого подхода и метода опорных векторов для принятия решений об авторстве, N-граммных и сглаженных N-граммных моделей, признаков текста, позволяющих разделять авторские стили. Особенностью предложенного подхода является принятие итогового решения об авторе текста несколькими классификаторами (ансамблем классификаторов) по принципу мажоритарного голосования. Впервые для целей идентификации автора русскоязычного текста применяются метод опорных векторов и нейронные сети каскадных корреляций, используются методы сглаживания вероятностей. Для достижения точности 0,95-0,98 необходимы текстовые образцы объемом 20000 символов
Программы выявления плагиата
Антиплагиат	ЗАО «Анти-Плагиат», «Форексис»	Антиплагиат	Программа определения плагиата. Определяет степень схожести входного текста с текстами, размешенными в Интернете.
Плагиат Информ	«СофтИнформ»	Плагиат Информ	Программа сравнивает входной документ с документами в 2 базах данных: базе из печатных источников и базе Интернет-статей.
АУРА-Текст	СПбГУ	АУРА-Текст (недоступная ссылка)	Программа является инструментом проверки текстов курсовых, дипломных работ и диссертаций на наличие совпадений с внешними источниками. Специализируется на работах экономической тематики.
Программы интеллектуального анализа данных
Intelligent Miner for Text	IBM	Intelligent Miner for Text	Система состоит из нескольких программ с такими функциями как определение языка текста, классификация текстов, разделение документов на группы по близости стиля, выявление в документе ключевых слов, выявление смысла текста и составление аннотации.
TextAnalyst, PolyAnalyst	Мегапьютер Интеллидженс	TextAnalyst, PolyAnalyst	PolyAnalyst-система автоматического анализа текста. В состав PolyAnalyst входит система TextAnalyst, занимающаяся задачами Text Mining: создание семантической сети текста, аннотация текста, кластеризация и классификация документов.
Text Miner	SAS	Text Miner (недоступная ссылка с 13-05-2013 [3994 дня] — история)	Программа логической обработки текста. Программа интегрирует текстовую информация со структурированными данными.
SemioMap	Semio Corporation	—	Система состоит из 2 основных компонент - сервера SemioMap и клиента SemioMap. Работа системы включает 3 фазы: сервер индексирует неструктурированный текст и извлекает ключевые фразы, сервер выявляет связи между фразами и строит на основе совместной встречаемости этих фраз лексическую сеть, сервер представляет эту сеть в виде графиков.
Oracle Text, Oracle Data Mining	Oracle	Oracle Text, Oracle Data Mining	Oracle Text - программа статистического и лингвистического анализа текста. Для каждого текста программой определяются ключевые темы, строится тематическое резюме и общее резюме-реферат.
Knowledge Server	Autonomy	Knowledge Server	Программа статистического анализа текста. В программе применяются интеллектуальные алгоритмы, основанные на статистической обработке.
Программы, составляющие психологический портрет автора текста
ЛИНГВА-ЭКСПРЕСС	Батов В. И.	—	Программа выявления особенностей речевого поведения и характера автора.
Prostyle	США	—	Программа стилистического анализа текста, определяющая факторы расхождения между двумя документами.
ВААЛ	Белянина В. П.	ВААЛ	Программа фоносемантического анализа текста.

Анализ известных методов определения авторства показал, что пока не существует универсального подхода, обеспечивающего стабильный достоверный результат. Небольшой объем текстов, действительно нуждающихся в атрибуции, не позволяет применять большинство известных методов.^[4] Таким образом, можно сделать вывод, что к настоящему времени на рынке не представлено эффективных программных решений, предназначенных для определения авторства текста.^[5]

См. также править

Примечания править

↑ ¹ ² Обобщенная методика идентификации автора неизвестного текста, 2010, с. 1.
↑ Обзор программного обеспечения для идентификации авторства текста, 2008, с. 182.
↑ Распознавание автора текста с использованием цепей А.А. Маркова, 2000.
↑ Обзор программного обеспечения для идентификации авторства текста, 2008, с. 183.
↑ Обзор программного обеспечения для идентификации авторства текста, 2008, с. 184.

Литература править

на русском языке

Романов А. Шелупанов А. Бондарчук С. Обобщенная методика идентификации автора неизвестного текста // Доклады Томского государственного университета систем управления и радиоэлектроники : журнал. — 2010. — № 1(21). — С. 108-112. — ISSN 1818-0442.
Романов А. Идентификация авторства текста : Материалы конф. / Научная сессия ТУСУР-2006, Томск, 4-7 мая, 2006. — В-Спектр, 2006. — С. 115-116. — ISBN 5-91191-003-9.
Романов А. Обзор программного обеспечения для идентификации авторства текста : Материалы конф. / Научная сессия ТУСУР-2007, Томск, 5-8 мая, 2008. — В-Спектр, 2008. — С. 182-184. — ISBN 978-5-91191-080-8.

Хмелев Д. Распознавание автора текста с использованием цепей А.А. Маркова // Вестник МГУ : журнал. — 2000. — № 2. — С. 115-126. — ISSN 0130-0075.

на других языках

Bensefia A., Paquet T., Heutte L. Information Retrieval Based Writer Identification (англ.) : Материалы конф. / ICDAR '03, Edinburgh, Scotland, August 3-6, 2003. — 2003. — P. 946-950. — ISBN 0-7695-1960-1. (недоступная ссылка)
Bensefia A., Nosary A., Paquet T., Heutte L. Writer Identification By Writer’s Invariants (англ.) : Материалы конф. / IWFHR '02, Ontario, Canada, August 6-8, 2002. — 2002. — P. 274-279. — ISBN 0-7695-1692-0. Архивировано 28 октября 2005 года.
Seropian A., Grimaldi M., Vincent N. Writer Identification based on the fractal construction of a reference base (англ.) : Материалы конф. / ICDAR '03, Edinburgh, Scotland, August 3-6, 2003. — 2003. — P. 1163-1167. — ISBN 0-7695-1960-1. (недоступная ссылка)

[_27ee07de51fcdacd-1] ¹ ² Обобщенная методика идентификации автора неизвестного текста, 2010, с. 1.

[_47581ee0926dfb15-2] Обзор программного обеспечения для идентификации авторства текста, 2008, с. 182.

[_042aab8370b79721-3] Распознавание автора текста с использованием цепей А.А. Маркова, 2000.

[_47581ee0926dfb14-4] Обзор программного обеспечения для идентификации авторства текста, 2008, с. 183.

[_47581ee0926dfb13-5] Обзор программного обеспечения для идентификации авторства текста, 2008, с. 184.

[1]

[2]

[3]

[4]

[5]