Обсуждение проекта:Check Wikipedia

Последнее сообщение: 1 год назад от Proeksad в теме «Ошибки про простановке внутренних ссылок»
Пожалуйста, добавляйте новые темы снизу

DOI править

Проблемы с работоспособностью DOI проверять не планируется? Это уж точно шире, чем для PMID. Я в курсе, что некоторые реальные DOI не работают, но в большинстве случаев они не работают всё-таки из-за опечаток. სტარლესს 10:24, 23 апреля 2016 (UTC)Ответить

Check Wikipedia: большое обсуждение править

Давайте обсудим, какие из представленных ошибок сообщество считает достойным исправления ботами отдельными правками, а какие — нет. Прошу высказаться всем заинтересованным, даже если высказыванием будет безаргументный голос за или против.

Опыт старших разделов: в англовики и фрвики исправляются все из представленных здесь ошибок, по возможности — ботом. В девики ошибки низкого приоритета не исправляются. ~Facenapalmобсвкл 16:01, 2 марта 2017 (UTC)Ответить

Ошибки, которые мой бот исправляет править

Я их считаю достаточно серьёзными, чтобы совершать ради них правку. Можете оспорить или поддержать.

17: дублирующаяся категория править

То есть, одна категория включена в статью дважды, возможно — с разными ключами сортировки (мой бот выбирает самый длинный). Это может запутать как редакторов, так и ботов, особенно когда ключи сортировки разные.

32: ссылка с двумя пайпами править

То есть, [[Ссылка||текст]], [[Ссылка|текст|]], и так далее. Очевидная синтаксическая ошибка, значительную часть которой можно править автоматом.

42: тег strike править

Устаревший, согласно стандарту HTML5, должен быть заменён на <s>. Да, это не критическая ошибка, но масштаб проблемы — одна-две статьи в месяц отсилы, поэтому их исправляю, чтобы проблема не разрослась.

51 и 53: интервики перед заголовком или перед категориями править

Согласно соглашениям по оформлению статей, должны быть после категорий, но на деле интервики практически не используются. В 75 % случаев их используют вместо интервики-ссылок ([[en:Article|текст]] вместо [[:en:Article|текст]]) — это я и правлю ботом.

вроде как все интервики должны быть на Викиданных. Остается случай форков, но я не помню, допускаются ли явные интервики или все боты с ними расправляются путем переноса на Викиданные и удаления. Текст [[:en:Article|текст]] полезнее заменять на шаблон семейства {{Не переведено}}, хотя 100 % гарантии, что статья в enwiki будет значимой в рувики, нет. — Igel B TyMaHe (обс.) 09:16, 3 марта 2017 (UTC)Ответить
Прямых ссылок на иноязычный раздел у нас 60 тысяч, лишние 5 в месяц погоды не сделают. Исправляя, исхожу из того, что лучше исправить ломающую ошибку сейчас, оставив недочёт, чем не браться исправлять вообще. ~Facenapalmобсвкл 10:36, 3 марта 2017 (UTC)Ответить

62: ссылка без http править

[www.example.com Пример]. Не парсится движком, очевидная синтаксическая ошибка. Правлю везде, где это не противоречит спам-листу.

Это иногда не ошибка, а обход бан-листа. — Igel B TyMaHe (обс.) 09:11, 3 марта 2017 (UTC)Ответить
Тот факт, что ошибку делают, чтобы обойти бан-лист, не делает это не ошибкой. :) ~Facenapalmобсвкл 10:36, 3 марта 2017 (UTC)Ответить
А бан-лист на действия бота как реагирует? — Igel B TyMaHe (обс.) 22:22, 3 марта 2017 (UTC)Ответить
Не даёт отправить, фреймворк падает с исключением, бот его ловит и идёт править следующую статью. Только сейчас понял, что бот теоретически должен упасть и при других задачах, если будет редактировать такую статью и попытается заодно и ссылку поправить. Видимо, этого до сих пор не происходило, потому что таких статей осталось всего две. Кстати, если поможешь их поправить, я буду очень благодарен, потому что я сомневаюсь, как именно стоит это сделать. ~Facenapalmобсвкл 23:12, 3 марта 2017 (UTC)Ответить

69: синтаксис ISBN править

Например, «ISBN: 0-12-345678-9» (с двоеточием) вместо «ISBN 0-12-345678-9». Второе, как видите, движком заменяется на ссылку на спецстраницу.

70: длина ISBN править

Для русского раздела находит ещё такую ошибку: вместо английского «X» стоит русская «Х»: «ISBN 1-234-56789-X». С точки зрения checkwiki, да и движка - ISBN обрывается после девятого символа, а дальше идёт текст. Это я и правлю ботом. Очевидная синтаксическая ошибка.

Критерий для чеквики - выявлять последовательности символов без пробелов, содержащие одновременно латиницу и кириллицу. Скорее всего, это ошибка или вандализм. — Igel B TyMaHe (обс.) 09:19, 3 марта 2017 (UTC)Ответить
Вот здесь я как раз вандализма почти не встречал. Критерий для чеквики сложнее, потому что из латиницы может стоять только X, только в десятизначном ISBN и только на месте последнего символа (контрольной суммы). ~Facenapalmобсвкл 10:36, 3 марта 2017 (UTC)Ответить

80: ссылка с разрывом строки править

Означает одно из двух: либо там есть [http://www.example.com перевод строки] (что, как видите, корректно не парсится), либо ссылка не закрывается квадратной скобкой. Первое бот исправляет, второе — пытается. Очевидная синтаксическая ошибка.

86: внешняя ссылка с двумя квадратными скобками править

[[http://www.example.com Пример]]. В большинстве своём встречается одновременно с одной из следующих двух ошибок.

90: внешняя ссылка на русскую Википедию править

[https://ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D0%B0%D1%8F_%D1%81%D1%82%D1%80%D0%B0%D0%BD%D0%B8%D1%86%D0%B0 Пример] вместо [[Заглавная страница|Пример]]. Кроме того, что второй вариант лаконичнее и понятнее, первый обладает следующими недостатками: выделяется цветом, всегда ведёт на конкретную версию сайта (полную или мобильную), может вести на незащищённую версию (http: вместо https:), не учитывается при поиске сирот.

93: внешняя ссылка с дублированием http править

[http://http://example.com Пример]. Очевидная синтаксическая ошибка.

98, 99: Непарные sub и sup править

Бот пытается исправить самозакрывающиеся теги

логика исправления какая? выявить конец индекса - задача не для бота. — Igel B TyMaHe (обс.) 09:21, 3 марта 2017 (UTC)Ответить
Иногда ошибочно пишут <sup/> вместо </sup>. Бот пытается заменить первое на второе, а потом проверяет баланс. Если после замены каждому открывающему соответствует закрывающий и нет вложенных тегов, бот радуется и отправляет изменения. ~Facenapalmобсвкл 10:36, 3 марта 2017 (UTC)Ответить

104: сноска с некорректным названием править

Либо с непарными кавычками (<ref name="abc>), либо содержащие запрещённые символы (кавычка, пробел, знак равенства и так далее) и при этом незакавыченная. Обычно ничего не ломается, но иногда ломается. Как движок будет парсить названия таких сносок — не определено.

Ошибки, которые мой бот умеет исправлять, но специально для этого правку не делает править

Эти ошибки я не посчитал достаточно серьёзными, чтобы делать ради них правку, но некоторые — считают. Очень прошу, по возможности, высказаться в каждой подтеме, считаете ли вы необходимым исправлять данную ошибку. Фраза «было исправлено кем-то» означает, что все ошибки с текущего дампа исправлены, и поддерживать количество найденных на уровне нуля должно быть легко.

1: Шаблон с ключевым словом править

{{Шаблон:примечания}} вместо {{примечания}}. Так писать не принято, но ничего критического нет. Между тем, ошибку вообще отключать я не буду, потому что она помогает выявлять статьи, созданные с помощью перевода, и которые часто нужно дооформить. Исправляется викификатором. Было исправлено у:MBHbot.

2: Некорректные HTML-теги править

В основном — неправильно записанные <br>, от </br> до <br. \/>. В большинстве случаев парсятся корректно, хотя после очередного переезда на новый парсер может и перестать, потому что в прогрессивных разделах это не только исправляется ботом, но и считается ошибкой высокого приоритета. Исправляется викификатором.

9: Несколько категорий на одной строке править

Читать невозможно, противоречит правилам оформления. На этом всё.

16: Невидимые символы юникода править

Пробел нулевой ширины, LTR-знак, и прочее, и прочее. В англовики ошибка включает в себя на пару десятков символов больше, чем в остальных разделах, и это исправляется ботом. У нас, пожалуй, невозможно: масштаб проблемы — тысяч 60 статей, насколько я помню.

21: Категория с ключевым словом на английском править

[[Category:Всё]]. Масштаб проблемы — сотня статей. Исправляется викификатором.

22: Категория с пробелами править

[[Категория: Всё]], [[ Категория:Всё]], и так далее. Может мешать при сканировании дампов и ботоработе. Масштаб проблемы — пара тысяч статей. Исправляется викификатором.

26 и 38: HTML-теги b и i править

Может (и хорошо бы) быть заменено на ''' и '' соответственно. Исправлено анонимом.

34: Элементы программирования шаблонов править

Бот умеет только {{PAGENAME}} подставлять, за что есть консенсус.

44: Заголовок содержит выделение жирным править

Ну вы видите. Видите, как это выглядит в заголовке, видите, как это выглядит в содержании. Исправлено анонимом.

48: Ссылка на саму себя править

То есть, когда в статье есть ссылка, ведущая на эту же статью, которая, понятное дело, ссылкой быть перестаёт и становится жирным текстом. Ботом удаляется, на жирный текст не заменяется.

50: HTML-мнемоника для тире править

и прочее. Мешает работать викификатору, непонятно. Исправлено анонимом.

52: Категория перед заголовком править

А должна быть в самом конце, перед интервиками, согласно соглашениям по оформлению.

аналогично интервикам, это может быть прямая ссылка на категорию: [[:Категория:Всё]]. — Igel B TyMaHe (обс.) 09:24, 3 марта 2017 (UTC)Ответить
Правятся не ссылки на категории, а включения в них. То бишь, [[Категория:Всё]]. Так делают все боты, эта же замена включена в AWB general fixes. ~Facenapalmобсвкл 10:52, 3 марта 2017 (UTC)Ответить

54: Список с br править

То есть, в конце элемента списка содержится тег <br>, который делает буквально ничего.

57: Заголовок, завершающийся двоеточием: править

Что бессмысленно.

Это ошибка оформления.
Есть такая порочная практика: править
  • использовать заголовки в качестве вводного текста к перечислению;
  • просто выделять часть предложения;
  • может, ещё какие авторские соображения.
В целом, нужно смотреть, не меняется ли при этом связность текста. — Igel B TyMaHe (обс.) 09:27, 3 марта 2017 (UTC)Ответить
В принципе, заголовок остаётся заголовком к перечислению даже с наличием двоеточия. Ну я такой вариант помню: в статье, относящейся к какой-то дате, был раздел, посвящённый праздникам, фактически — список. Вот там были заголовки типа «в такой-то религии», «в такой-то религии» и «в православной церкви:». Ещё видел случай, когда все заголовки завершали двоеточием, даже «примечания». Но обещаю внимательней следить за вкладом бота в этой ошибке. ~Facenapalmобсвкл 10:52, 3 марта 2017 (UTC)Ответить
в том-то и дело, что у перечислений не должно быть заголовков. Это единое предложения, оттого и двоеточие, и точки с запятой, и точка в конце. — Igel B TyMaHe (обс.) 22:28, 3 марта 2017 (UTC)Ответить
Ну не знаю, ни разу на практике не встречал ситуации, когда убирание двоеточия вредило бы смыслу. Постараюсь обращать на это внимание. ~Facenapalmобсвкл 23:07, 3 марта 2017 (UTC)Ответить

59: Параметр шаблона с br на конце править

Аналогично 54, ничего не делает, а где что-то делает — должен быть перенесён в шаблон. Чаще всего встречается в карточках в таком контексте: |Инструменты = [[гитара]]<br>[[бас-гитара]]<br>[[барабаны]]<br> |другой параметр =. То есть, тупо ошибка копи-паста.

  • А вот это спорная проблема, перекликающаяся с проблемой висячих запятых и точек с запятой в программировании, — если <br> уже стоит, ты просто копипейстишь последнюю инструкцию сколько нужно раз или сразу дописываешь новый пункт. — Джек, который построил дом (обс.) 17:04, 2 марта 2017 (UTC)Ответить
    • В отличие от точек с запятой в программировании, <br> переходит и в сгенерированный HTML, где изредка (хотя настолько изредка, что можно и не учитывать) влияет на отображение. А копированию это не мешает: просто нужно будет скопировать не [[ссылка]]<br>, а <br>[[ссылка]], что не трудно, потому что в шаблонах, в отличие от исходного кода, обычно параметр пишется в одну строчку. ~Facenapalmобсвкл 17:16, 2 марта 2017 (UTC)Ответить

63: Содержимое ref, sup или sub полностью заключено в small править

Читать невозможно.

Но автор же что-то имел ввиду? Возможно, ошибка в чем-то ещё. — Igel B TyMaHe (обс.) 09:28, 3 марта 2017 (UTC)Ответить
Я посмотрел код и заметил, что решил править автоматом только small в sup и sub. Тут возражений нет? ~Facenapalmобсвкл 10:52, 3 марта 2017 (UTC)Ответить
Здесь в моей статье в графе «JP Oricon» шаблон источника полностью внутри <small>, разницы никакой не вижу вообще. Ни циферка меньше не стала, ни заголовок источника. (Хотя я вроде когда-то так делал в надежде, что циферка станет меньше и будет меньше мешаться.) --Moscow Connection (обс.) 16:25, 4 марта 2017 (UTC)Ответить
Во-первых, речь идёт о <ref><small>, а не о <small><ref>. Во-вторых, в твоём случае её корректнее будет убрать из small'а. :) ~Facenapalmобсвкл 18:06, 4 марта 2017 (UTC)Ответить

64: Ссылка совпадает с её текстом править

Как я уже говорил, [[Ссылка|''ссылка'']] вместо ''[[ссылка]]''. Исправляется викификатором, но не везде. Держу включенной для слежения за этим «не везде» и тенденцией. Тенденция — очень медленный спад.

65: Описание изображения кончается br править

Аналогично 54 и 59, ничего не делает, только мусорит в коде.

68: Ссылка на другой раздел править

Бот исправляет только [[:ru:Что-то|текст]], убирая это :ru:.

85: Тег без содержимого править

<gallery></gallery>. Просто мусор в коде.

88: DEFAULTSORT с пробелами править

{{DEFAULTSORT: Леннон}}. Пробел после двоеточия не влияет ни на что, но принято писать без него, как и в случае с категориями.

101: sup в порядковых номерах править

1st, 2nd, и так далее. Окромя стилизованных названий на логотипах — ненужно и неправильно.

MS Word думает иначе. Впрочем, он и Дни Недели предлагает с большой буквы писать. — Igel B TyMaHe (обс.) 09:29, 3 марта 2017 (UTC)Ответить
В англовики, например, оформлять так не принято. А в русском языке вряд ли есть отдельные правила на оформление английского текста. :) ~Facenapalmобсвкл 10:52, 3 марта 2017 (UTC)Ответить
А во французской и итальянской Википедиях так оформлять принято (2e, 2º). --Moscow Connection (обс.) 14:51, 4 марта 2017 (UTC)Ответить
Английские порядковые номера (а речь про них) у французов принято писать без надстрочного текста, нарушение чего находится и исправляется через французский филиал этого же проекта. Про итальянцев не скажу. ~Facenapalmобсвкл 15:56, 4 марта 2017 (UTC)Ответить

103: Код пайпа в ссылке править

[[ссылка{{!}}текст]]. Не нужно, даже внутри шаблонов. Только новичков сбивает.

Ошибки, которые теоретически можно править ботом править

Мой бот их исправлять не умеет, но можно научить, хотя бы частично. Если обсуждение покажет, что проблемы актуальные — я приступлю.

7: Заголовки с третьего уровня править

Первый заголовок в статье — третьего уровня, а должен быть второго.

следует обучить бота. — Igel B TyMaHe (обс.) 09:30, 3 марта 2017 (UTC)Ответить

11: HTML-мнемоника вместо символа править

&alpha;, etc. nbsp сюда не входит.

выглядит безопасно. — Igel B TyMaHe (обс.) 09:32, 3 марта 2017 (UTC)Ответить

19: Заголовки с первого уровня править

Первый заголовок в статье — первого уровня, а должен быть второго.

следует обучить бота. — Igel B TyMaHe (обс.) 09:33, 3 марта 2017 (UTC)Ответить

39: Тег p править

В идеале использоваться не должен, в очевидных случаях может удаляться.

а как оно работает? по идее, удаление без замены на двойной перевод строки убивает абзац. А если вообще без перевода строки текст или уже два перевода есть? — Igel B TyMaHe (обс.) 09:34, 3 марта 2017 (UTC)Ответить
Пока никак не работает, вообще не думал на эту тему. Абзацы я убивать, конечно же, не буду. Ну, я видел, например, такой случай: | <p align="right"> текст (в таблице), причём p был даже не закрыт - такое ботом править можно. Плюс можно пытаться определять случаи, когда все абзацы форматированы с помощью p, и переформатировать их двойными переводами строк, да. ~Facenapalmобсвкл 10:58, 3 марта 2017 (UTC)Ответить

40: Тег font править

В идеале использоваться не должен, может быть заменён на шаблоны, хотя обычно требует ручного контроля.

если шаблон не единственный, то как бот будет их выбирать? В целом, я не совсем понимаю, о чём речь. Нужен пример. Тэгом раньше пользовался, сейчас чаще style. — Igel B TyMaHe (обс.) 09:36, 3 марта 2017 (UTC)Ответить
Аналогично предыдущему, пока не думал на эту тему. Лол, посмотрел код {{color}} — там с недавних пор тоже font. Возможно, шило на мыло менять и не стоит. ~Facenapalmобсвкл 10:58, 3 марта 2017 (UTC)Ответить

55: Дублирование small править

<small><small><small>Здорово, правда?</small></small></small> Здорово, правда?

12, 31: HTML-теги списков и таблиц (UPD) править

Не всегда очевидно, на что заменять <li>, <td> и прочее, особенно если они с параметрами но по очевидным случаям можно и ботом пройтись. ~Facenapalmобсвкл 11:02, 3 марта 2017 (UTC)Ответить

  • Я использую <li>, когда после разрыва нужно продолжить нумерованный список с определённого номера, а не с единицы. Пример из последнего: список треков, мешала увертюра. --Moscow Connection (обс.) 15:01, 4 марта 2017 (UTC)Ответить
    • Я знаю об этом кейсе, но обычно можно обойтись и без него. Скажем, часто разбивают список на две колонки таким образом: с помощью шаблона {{col-2}} создают таблицу из двух ячеек и создают два списка, начиная второй с нужного номера. Вместо этого можно организовать разбиение списка на две колонки шаблоном {{кол}}, который работает через css, что, помимо более понятного кода, будет и правильнее семантически. Также повысится веб-доступность (на которую в рувики всем плевать): скажем, экранный диктор в первом случае зачитает это, как два разных списка, а во втором — как один. Вот какие-то такие замены я делать и буду. Бездумно менять, игнорируя тот факт, что нарушается нумерация я, конечно же, не буду. ~Facenapalmобсвкл 15:51, 4 марта 2017 (UTC)Ответить

Общее обсуждение править

По явному большинству ошибок считаю, что исправлять их нужно, кроме следующих:

  • Несколько категорий на одной строке - читать легко, не нужно править отдельной правкой
  • Невидимые символы юникода - обязательно нужно править, как можно больше символов, взять всё из анвики, можно отдельной правкой. Даже если там будет 600к статей. Эта дрянь очень мешает: техники хоть знают, что странное поведение кода может быть обусловлено ими, а обычные юзеры нет, и я уже не раз видел на техфоруме жалобы на "квадратики" (так они отображаются в старых браузерах) и странности в коде, обусловленные невидимыми символами
  • Категория с ключевым словом на английском - исправлять не нужно
  • Категории и дефолтсорты с пробелами - можно не править. Дампам и ботоработе не мешает, надо просто на всех границах ставить \s*, я давно привык
  • хтмл-мнемоники на юникод-символы править нужно. С нобром только здесь неоднозначность, есть аргументирующие против этого тем, что он перестаёт быть виден
  • small в основном пространстве, вроде бы, неуместен и одинарный, в шаблонах же потенциально возможен и двойной
  • Если в статье есть заголовки первого уровня, понижать нужно уровень всех заголовков
  • Ещё очень желательно править статьи с символами из en:Unicode Private Use Area, их отчего-то очень не любит АВБ и пропускает такие статьи при правке. Обычно это буквы редких алфавитов, которые нужно просто удалять.

MBH 17:03, 2 марта 2017 (UTC)Ответить

  • Вообще не вижу проблем от косметических правок. Кому не нравится - отключит бота из СН. Лишний клик сделать не трудно. А любая нестандартность в коде - лишние проблемы при сложных заменах.--Abiyoyo (обс.) 18:28, 2 марта 2017 (UTC)Ответить
  • Отдельные замечания высказал, остальное - как указал предыдущий оратор, у меня ботоправки отключены. — Igel B TyMaHe (обс.) 09:37, 3 марта 2017 (UTC)Ответить
  • В принципе для меня наиболее понятный подход — правки, не влияющие на отображение страниц и не являющиеся явными ошибками вики-синтаксиса, не должны делаться отдельными проходами (то есть такого, как у бота-конвеера, быть было не должно), влияющие — должны. Устаревшие тэги за исключением совсем одинаковых случаев лучше всё-таки вручную. St. Johann 12:44, 4 марта 2017 (UTC)Ответить
  • Я за то, чтобы как минимум однократно пройтись ботом и исправить всё (или почти всё, то есть с учётом замечаний) перечисленное в разделе «Ошибки, которые мой бот умеет исправлять, но специально для этого правку не делает». В английской Википедии косметические правки не запрещены, тут тоже в день работы бота будет веселее. :-) И польза есть, код будет чуть аккуратнее, приятнее будет редактировать. --Moscow Connection (обс.) 18:54, 4 марта 2017 (UTC)Ответить

Итог править

Раз уж обсуждение окончательно затихло, подведу.

Ботовычистка была вяло поддержана, поэтому расширяю список автоматически исправляемых ошибок до всех, перечисленных в «Ошибки, которые мой бот умеет исправлять», кроме:

  • 22 (категория с пробелами), 64 (ссылка, которую можно сократить) — здравый смысл, ни на что не влияющее изменение, не достойное отдельной правки. Может, пущу бота добить проблему, как она будет практически решена.

Статус «под вопросом» остаётся у следующих ошибок:

  • 1 (шаблон с явно заданным ПИ) и 21 (категория с ПИ на английском) — первое обычно остаётся после инструмента по переводу содержания, второе — после правок-переводов новичков, так что статье, очень вероятно, требуется дополнительное оформление (раз уж даже викификатор не прожимался ни разу). Если будет немного — буду регулярно исправлять руками.
  • 16 (невидимые символы юникода) — надо сначала оценить масштаб проблемы и подумать, с какой стороны зайти, а у чеквики пока какие-то проблемы с её обнаружением.

~Facenapalmобсвкл 20:02, 10 марта 2017 (UTC)Ответить

30 (число) и ошибка 43 править

для архива Поиск шаблонов внутри <math> — это баг? 212.92.176.210 16:10, 21 октября 2018 (UTC)Ответить

лишнее править

Здесь находятся завершившиеся обсуждения. Просьба не вносить изменений.

Заголовок не завершается знаком равенства - 99,5% noinclude неоднознаночсти — убрать бы.. ~~‍~~ Jaguar K · 18:36, 26 августа 2021 (UTC)Ответить

Ошибки про простановке внутренних ссылок править

Добрый день, а обрывки от неправильно проставленных внутренних ссылок отслеживаются "[[", "|" ? Обычно в статьях такие символы встречаются нечасто Proeksad (обс.) 21:45, 18 августа 2022 (UTC)Ответить