Рецензирование статьи Стемминг

править
Здесь находятся завершившиеся обсуждения. Просьба не вносить изменений.

Выставляю статью на рецензирование. Статья основана на переводе из английской википедии. Smarchenk 17:01, 21 января 2014 (UTC)[ответить]

Не переведён подраздел про усечение суффиксов: "en:Stemming#Additional algorithm criteria". -- Andrew Krizhanovsky 14:05, 22 января 2014 (UTC)[ответить]

  Сделано Подраздел переведен. Smarchenk 12:29, 23 января 2014 (UTC)[ответить]

Цитирую:
"...а также применение различных правил нормализации для каждой части речи."(ссылка идёт на работу (Плиссон и др., 2004))

1) Ссылка неуместная. Не вижу там про нормализацию для всех частей речи. Но статья хорошая. Там рассказывается в том числе про подход "en:Ripple-down rules" для лемматизации. Хотелось бы увидеть в статье подраздел с описанием этого подхода. В чём его особенность, + номера страниц.

  Сделано. Ссылка неуместная, согласен. Подраздел добавлен, также с этой же публикации добавил абзац текста в "Алгоритмы лемматизации". Smarchenk 09:04, 24 января 2014 (UTC)[ответить]

2) Сейчас sfn для этой публикации оформлен как "A Rule based Approach to Word Lemmatization, 2004". Мне кажется более верным (в соответствии с документацией к шаблону sfn, чтобы были указаны автор(ы) и год публикации, см. подробности в {{sfn}}. Т.е. для данной публикации будет указано:

|ref = Plisson et al

К остальным публикациям то же замечание. -- Andrew Krizhanovsky 14:26, 22 января 2014 (UTC)[ответить]

  Сделано Исправил все шаблоны sfn в соответствии с документацией, в том числе и с "Plisson". Smarchenk 09:09, 23 января 2014 (UTC)[ответить]

Вы дважды ссылаетесь на интересную работа Ильи Смирнова. Укажите номера страниц, пожалуйста.

  Сделано Страницы указал. Smarchenk 09:45, 23 января 2014 (UTC)[ответить]

Ещё по Смирнову:

  1. у вас сейчас все алгоритмы свалены в кучу (просто перечисляются). Я бы предложил воспользоваться опытом Смирнова, чтобы разбить их на более крупные разделы и подразделы.
      Сделано частично. Объединил два алгоритма анализ n-грамм и на основе корпуса текстов в раздел "Статистические алгоритмы" (пользуясь классификацией Смирнова). Трудно понять в какой класс по Смирнову отнести алгоритмы сопоставления, а также в классификации Смирнова отсутствуют стохастические алгоритмы. Поэтому вне не в силах одному понять и классифицировать все алгоритмы, необходимы большие знания в данной тематике. Smarchenk 20:12, 26 января 2014 (UTC)[ответить]
  2. у Смирнова есть интересный подход "Стемминг на основе корпуса текстов". А у вас его нет. Опишите? Кратенько? Может, у Смирнова ещё есть интересные подходы и алгоритмы? -- Andrew Krizhanovsky 14:49, 22 января 2014 (UTC)[ответить]
      Сделано Описал подход "Стемминг на основе корпуса текстов". Smarchenk 13:35, 25 января 2014 (UTC)[ответить]

Всех (и меня в том числе) в первую голову интересует русский язык. Поэтому статья будет неполной без описания

  • последних достижений в стемминге русского языка,
  • доступного софта для стемминга русского языка.

Я бы предложил переименовать раздел "Языковые проблемы" в нечто более общее, например, "Языки". И сделать два подраздела:

  1. "Языковые проблемы" - не нравится мне такой заголовок, т.к. не соответствует содержанию сейчас, т.е. описанию языковых особенностей и трудностей...
      Сделано Переименовал пока на "Языковые особенности". Smarchenk 07:13, 24 января 2014 (UTC)[ответить]
  2. "Стемминг русского языка"
      Сделано Добавил раздел "Стемминг русского языка" с описанием последних достижений и софта. Smarchenk 17:15, 26 января 2014 (UTC)[ответить]

-- Andrew Krizhanovsky 14:47, 23 января 2014 (UTC)[ответить]

  1. Было бы логично в том разделе статьи, где вы описываете программу Stemka, дать ссылку и на NLPub (есть в статье в разделе ссылки) и дать ссылку на страницу самой программы, и указать на каких условиях (лицензия) и в каком виде (исходный код, исполняемый файл) распространяется программа.
      Сделано Ссылки и информацию добавил. Smarchenk 16:47, 27 января 2014 (UTC)[ответить]
  2. То же замечание по Mystem. -- Andrew Krizhanovsky 09:20, 27 января 2014 (UTC)[ответить]
      Сделано Аналогично. Smarchenk 16:47, 27 января 2014 (UTC)[ответить]