Выявление плагиата

Ана́лиз плагиа́та (определение плагиата, выявление плагиата) — это компьютерные методы поиска и обнаружения плагиата [1].

Способы обнаружения плагиата в зависимости от формы плагиата

Плагиат (англ. plagiarism) — это использование, перефразирование и подведение итогов работы в любой форме без подтверждения ссылками на источники и представление её как своей собственной работы [2].

Плагиат — это заимствование чужой работы, будь то преднамеренно или непреднамеренно, как своей, ради собственной выгоды[3].

В настоящее время существует достаточно большое количество сервисов и программ, позволяющих каким-либо образом выявить плагиатПерейти к разделу «#Обзор существующих систем». Также существует ряд компьютерных методов обнаружения плагиатаПерейти к разделу «#Методы обнаружения плагиата».

Проблема плагиата править

Плагиат с появлением Интернета превратился в серьёзную проблему. Попав в Интернет, знание становится достоянием всех, соблюдать авторское право становится всё труднее и даже невозможно[4]. Постепенно становится сложнее определить первоначального автора.

Стремительное развитие сети Интернет, наряду с увеличивающейся компьютерной грамотностью, способствует проникновению плагиата в различные сферы человеческой деятельности: плагиат является острой проблемой в образовании, промышленности и научном сообществе [5].

Плагиат является преступлением. Это вводит в заблуждение читателей, приносит ущерб автору, и предоставляет незаслуженные блага плагиатору [6].

Широкий доступ к отечественной и зарубежной литературе, многократное увеличение числа профессиональных изданий, публикаций в Интернете — всё это практически сводит на нет какие бы то ни было редакторские стремления «проверить» или «установить» подлинность и оригинальность аргументов и фактов, используемых в рукописях, предлагаемых к публикации [7].

Методы обнаружения плагиата править

 
Методы выявления плагиата

На иллюстрации представлена классификация методов компьютерного обнаружения плагиата с технической точки зрения.

Методы характеризуются по типу оценки сходства.

Глобальная оценка использует большие части текста или документа для нахождения сходства в целом, в то время как локальные методы на входе проверяют ограниченный сегмент текста.

В настоящее время наиболее распространённым подходом является Дактилоскопия:

Из ряда документов выбирается набор из нескольких подстрок, которые и являются «отпечатками». Рассматриваемый документ будет сравниваться с «отпечатками» для всех документов коллекции. Найденные соответствия с другими документами указывают на общие сегменты текста[8].

Проверка документа дословным перекрытием текста представляет собой классическое сравнение строк.

Проверка подозрительных документов в этой ситуации требует расчёта и хранения эффективно сопоставимые представления всех документов в справочной коллекции, которые сравниваются попарно. Как правило, используют модели, такие как суффиксное дерево или суффиксный массив, которые были адаптированы для выполнения этой задачи в контексте компьютерного обнаружения плагиата. Однако сопоставление подстроки является нежизнеспособным решением для проверки больших коллекций документов (алгоритм отрабатывает в среднем 2h сравнений, где h — длина строки, в которой ведётся поиск)[9].

Анализ "множества слов"  (англ.) является упрощением представления, используемого в обработке естественного языка и поиска информации. В этой модели текст представлен как неупорядоченный набор слов. Документы представлены в виде одного или нескольких векторов, которые используются для попарного вычисления сходства[10][11][12].

Цитирование — компьютерный метод выявления плагиата, предназначенный для использования в научных документах, позволяющий использовать цитаты и справочный материал. Определяет общие цитаты двух научных работ.

Шаблон цитат представляет собой подпоследовательности, содержащие не только общие цитаты для двух документов, но и подобный порядок и близость цитат в тексте, являющихся основными критериями для определения шаблона цитат[13][14][15][16].

Стилометрия или изучение языковых стилей — это статистический метод для выявления авторства анонимных документов и для компьютерной проверки на плагиат.

Строятся стилометрические модели для различных фрагментов текста, отрывков, которые стилистически отличаются от других. И путём сравнения моделей можно обнаружить плагиат[17].

Например, анализ на основе последовательностей частей речи. Рассматривается способ разбиения текста на фрагменты однородности. В качестве параметров разбиения берутся различные последовательности частей речи. Далее проводится анализ фрагментов. И в результате для текста находятся последовательности, которые выделяли из текстов фрагменты, то есть алгоритм выделяет из текста фрагменты неоднородности, имеющие разные частоты встречаемости выбранной последовательности частей речи, что показывает на возможный плагиат в данном месте[18].

Обзор существующих систем править

В настоящее время существует достаточно большое количество сервисов и программ, позволяющих каким-либо образом выявить заимствования.[19] В числе таковых можно назвать: систему «Антиплагиат», Advego Plagiatus, Unicheck, miratools.ru, istio.com, Praide Unique Content Analyser II, Plagiatinform, Copyscape.

Система «Антиплагиат»

Система разработана компанией «Форексис»[20]. Система осуществляет онлайн поиск по большому количеству документов, хранящихся в собственной базе системы, по базам данных партнеров, в том числе: Российская государственная библиотека, Научная электронная библиотека ELibrary.ru, компания Lexpro, а также по базе данных пользователя. «Антиплагиат» осуществляет поиск по сети Интернет собственными средствами и поэтому обладает меньшей оперативностью чем системы, использующие Яндекс. XML. В бесплатной версии системы доступна только сокращенная форма отчета.

Программа Advego Plagiatus

Программа осуществляет онлайн проверку с использованием поисковых систем[21]. В отличие от аналогичных систем, Advego Plagiatus не использует Яндекс.XML (бесплатный сервис, предоставляющий возможность производить автоматические поисковые запросы к «Яндексу» и публиковать его выдачу у себя на ресурсе).

Программа выдаёт процент совпадения текста и выводит найденные источники. Программа не преобразует буквы, то есть нет преобразования регистра, нет обработки и изменения латинских букв в русских словах на аналогичные буквы русского алфавита для текстов на русском языке.

Также отсутствует поддержка поиска по собственной базе; из-за особенностей работы возникают ситуации, когда результаты проверки отличаются от раза к разу.

Сервис Unplag

Сервис проверки на плагиат Unplag[22] может осуществлять проверку на плагиат как в режиме реального времени онлайн, так и сравнивать документ с сохраненной базой документов в библиотеке пользователя. Поддерживает работу с различными типами документов. Есть персональная и корпоративная программы. Также работает с системой управления курсами Moodle, Canvas, Blackboard, Sakai[источник не указан 2822 дня].

Сервис www.miratools.ru

Сервис позволяет осуществлять онлайн проверку текста на плагиат[23]. Система использует результаты выдачи поисковых систем. Существует возможность замены английских букв на русские. Также имеется возможность изменения длины и шага шингла, используемых для проверки. По результатам проверки выдаётся процент совпадений и найденные источники. Система не работает с собственной базой, существует ограничение на длину текста в 3000 символов и ограничение на число проверок в течение суток.

Сервис www.istio.com

Сервис осуществляет проверку текста на наличие заимствованного контента с использованием поисковых систем Яндекс.XML и Yahoo.com.[24]. По результатам проверки выдаётся сообщение о том, является ли текст уникальным или нет, и выдаётся список подобных страниц сайтов. Сервис предоставляет дополнительные средства для анализа текстов, например, проверку орфографии, анализ наиболее частотных слов и т. д. У системы отсутствует преобразование букв и поиск по собственной базе.

Программа Praide Unique Content Analyser II

Программа проверяет тексты с использованием поисковых систем[25]. Имеется возможность выбора используемых поисковых систем, содержит средства добавления новых поисковых систем. Проверка осуществляется шинглами, длину которых можно изменять. Можно задавать количества слов перекрытия шинглов. Выводится подробный отчёт по проверке в каждой поисковой системе. В программе отсутствует замены букв, обработка стоп-слов и нет поддержки работы с собственной базой.

Система Plagiatinform

Система проверяет документы на наличие заимствований как в локальной базе, так и в сети Интернет[26]. Система умеет находить плагиат в виде документов, скомпонованных из «перемешанных» кусков текста нескольких источников. Проверка может осуществляться с использованием быстрого или углублённого поиска. Результаты проверки выдаются в виде наглядного отчёта. Отсутствует преобразование букв. Отсутствует возможность свободного использования или тестирования системы.

Сервис Copyscape

Система Copyscape позволяет осуществлять поиск копий веб-страниц в Интернете[27]. Система возвращает список веб-страниц, у которых есть похожий по содержанию текст. Сервис осуществляет проверку на наличие заимствованного контента с использованием поисковых систем Google и Yahoo!

Проверяется только контент веб страницы, то есть, для выяснения уникальности текста необходимо опубликовать текст на сайте и ввести в системе адрес страницы. Без регистрации существует ограничение на количество проверок в месяц и на количество отображаемых результатов — 10 сайтов. Для зарегистрированных пользователей нет ограничений на количество проверок и выводимых результатов, но каждый запрос стоит 5 центов.

Соревнования по определению плагиата править

Выявление плагиата (особенно перефразированного) является активно изучаемой инженерной и научной проблемой. Соревнования по автоматическому выявлению плагиата регулярно проводятся под эгидой инициативы PAN[28]. Первое соревнование по выявлению плагиата в русскоязычных документах прошло в 2017 году в рамках конференции по компьютерной лингвистике «Диалог»[29].

См. также править

Примечания править

  1. Stein, Koppel, 2011.
  2. ACT BSSS, 2011.
  3. Johnston, 2008.
  4. Аушра, 2006.
  5. Дягилев, Цхай, Бутаков, 2011, pp. 23.
  6. Bouville, 2008, pp. 331.
  7. Ушакин, 2001.
  8. Brin, Davis, Garcia-Molina, 2001, pp. 36-41.
  9. Monostori, Zaslavsky, Schmidt, 2000, pp. 226–227.
  10. Leong, Lau, Rynson, 1997, pp. 70-77.
  11. Dreher, 2007, pp. 601-614.
  12. Muhr, Zechner, 2009, pp. 47-55.
  13. Gipp, Beel, 2009, pp. 571–575.
  14. Gipp, Beel, 2010, pp. 273–274.
  15. Gipp, Meuschke, Beel, 2011, pp. 255–258.
  16. Gipp, Meuschke, 2011, pp. 249–258.
  17. Meyer zu Eissen, Stein, 2006, pp. 565–569.
  18. Седов, Рогов, 2013.
  19. Шарапов, Шарапова, 2011.
  20. antiplagiat.ru — Антиплагиат Архивная копия от 13 октября 2012 на Wayback Machine
  21. advego.ru — проверка уникальности текста. Дата обращения: 9 декабря 2012. Архивировано 11 декабря 2012 года.
  22. Plagiarism Checker Unplag Provides You with Real-Time Reporting (англ.). unplag.com. Дата обращения: 21 июля 2016. Архивировано 14 июля 2016 года.
  23. miratools.ru — Сервис проверки уникальности контента Архивная копия от 9 декабря 2012 на Wayback Machine
  24. istio.com — Сервис анализа текстов и сайтов. Дата обращения: 9 декабря 2012. Архивировано 9 декабря 2012 года.
  25. Praide unique content analyzer — Проверка уникальности текста в Интернете. Дата обращения: 9 декабря 2012. Архивировано из оригинала 20 ноября 2012 года.
  26. plagiatinform.ru — Система для определения плагиата в документах Архивная копия от 29 июля 2012 на Wayback Machine
  27. copyscape.com — Copyscape Plagiarism Checker. Дата обращения: 9 декабря 2012. Архивировано 8 декабря 2012 года.
  28. PAN is a series of scientific events and shared tasks on digital text forensics. Дата обращения: 5 сентября 2017. Архивировано из оригинала 15 сентября 2017 года.
  29. Соревнование по поиску заимствований в русскоязычных текстах. Дата обращения: 5 сентября 2017. Архивировано 5 сентября 2017 года.

Литература править

на русском языке
на других языках