Обсуждение Википедии:Самые используемые скрипты

Последнее сообщение: 12 дней назад от MBH в теме «Порча данных и страницы»

Порча данных и страницы

править

@MBH, можно попросить не тестить в продакшне, да ещё и с кучей ухудшений в сравнении с предыдущим кодом? Куда пропали ссылки на поиск? Почему Special:Search/insource:"землеройкин/remove.js" prefix:user: показывает 149 вхождений, а твой счётчик 66? Зачем отказываться от подстраницы с данными, когда у неё есть полезная история (которую, я надеюсь, не планируется удалять)? stjn 00:25, 5 июня 2024 (UTC)Ответить

  • Текущая версия пока несколько поломана, вот версия лучше. Я не тестил в продакшне, я писал этот код три дня, с выдачей результата в текстовый файл, из которого и перенёс лишь тогда, когда всё заработало. Поиск где? Мой бот ищет включения как в рувики, так и в глобал-жс-ах юзеров рувики на мете. показывает 149 вхождений, а твой счётчик 66 - вероятно потому, что заметная часть из них (я вижу это в поиске) закомментированы, а мой бот такие не считает (то есть это улучшение, а не ухудшение). В целом у меня много принципиальных улучшений: 1) поиск не только импортскрипт, но и .load/using/getscript (там куча синтаксисов включения), 2) игнор комментариев, 3) сортировка по активным, а не мёртвым юзерам, 4) поиск в глобал жс. Подстраница с данными мне кажется не имеющей полезной информации и я б её удалил, но я подождал, ожидая подобной реакции, и ты можешь привести аргументацию за её сохранение. К комментарию - а что, я кого-то должен был спрашивать? Может ещё и разрешения у тебя спросить? MBH 12:58, 5 июня 2024 (UTC)Ответить
    • заметная часть из них — в поиске 14 раз встречается /* и 5 раз встречается //. У тебя что-то не так с тем, как ты парсишь страницы, никаких 66 включений у скрипта Землеройкина нет.
      Аргументация за сохранение в том, что полезно иметь историю для сравнения с прошлыми данными. stjn 16:33, 5 июня 2024 (UTC)Ответить
      • /**/ может быть за пределами выдержки из текста найденной страницы, если закомментирован большой кусок. Плюс поиск ищет и вовсе текстовые вхождения, а не синтаксис включений скрипта. У меня есть система поиска необработанных включений: есть грубые регексы "importscript" и ".(load|using|getscript)" и точные, и если строка подпадает под грубый регекс, но не подпадает ни под один из точных соответствующего типа, она выводится в лог отладки - так я вижу строки, не обработанные точными регексами, и никакого массового землеройкина в них нет. Это ты должен доказать, что их не 66, а 149 (их и на старой странице и близко не было 149). MBH 20:49, 5 июня 2024 (UTC)Ответить
        • Special:Search/insource:"Землеройкин/remove.js" contentmodel:javascript prefix:user: выводит 142, ок. Бот Викизавра в последней версии от 1 июня 111 насчитал. Откуда может быть такой жёсткий дроп до 66? У 50 человек он закомменчен якобы? Мне кажется, что это ты допустил какую-то ошибку, типа неправильного удаления комментариев из кода страницы (например, // у тебя может быть многострочным), или ты алиасы пространств неправильно обрабатываешь. stjn 21:38, 5 июня 2024 (UTC)Ответить
  • На страницу ВП:Самые используемые скрипты/details выгружаются все найденные пары "грузящий - грузимый скрипт". Строки, похожие на загрузку скрипта, но не подпавшие ни под один из регексов, выгружаются мне в файл, могу и его, если попросят, выложить; все сколь-либо часто встречаемые синтаксисы оттуда учтены. Мою ссылку можно отсортировать по второму столбцу, найти там все найденные включения землеройкинского скрипта и, если ты можешь выложить список из твоей ссылки в машиночитаемом виде, можно сравнить списки и понять, откуда недостача и недостача ли это вообще. Пока вижу несколько скриптов, которые в мою выборку не попали, потому что мой бот ищет лишь грузящие скрипты, названные именами "common", "monobook", "vector", "cologneblue", "minerva", "timeless", "simple", "myskin", "modern" +.js (плюс глобал на мете), те же скрипты названы remove.js (люди зачем-то копировали их себе в ЛП вместо собственно включения скрипта Ройкина). MBH 14:29, 12 июня 2024 (UTC)Ответить
    • @MBH, это ж тоже всё очень легко проверяемо. Добавляем -intitle:"remove.js" — становится 129 вхождений вместо 143. Ища только среди заголовков на той странице, выходит 124 страницы с /common.js. Ты действительно хочешь сказать, что предыдущий алгоритм, который тоже чистил комментарии, неверен в сравнении с твоим практически в два раза, и твои данные корректны? Или может быть верно то, что верно было изначально, и тебе нужно проверить корректность твоих алгоритмов, приводящих к явно, очевидно любому человеку неверным данным даже без проверки тех 124 страниц на то, что там не закомментирован код?
      Так как это не такой серьёзный вопрос, отменять тебя ещё раз сразу не буду, но если ты ничего не переделаешь в своём алгоритме, чтобы он начал выдавать реальные данные, я прошу @Wikisaurus, который вообще был не в курсе в том, что ты эту страницу переделываешь, восстановить работу своего бота, у которого 10% ошибок не наблюдается. stjn 21:05, 12 июня 2024 (UTC)Ответить
  • Я нашёл вероятную причину проблемы. В документации в песочнице апи сказано, что апи отдаёт 5000 результатов поиска (ботам), и в браузере действительно отдаёт (и этого хватает, чтобы получить все результаты), но боту апи отдаёт лишь 500 результатов и нужно дальше запрашивать с offset-ом (я этого не делал по вышеуказанной причине). Настроил чтение листов ответа с оффсетом и запустил снова. MBH 03:50, 14 июня 2024 (UTC)Ответить
  • Оставшиеся вопросы:
  1. Нужна ли страница Википедия:Самые используемые скрипты/details? Это неплохая замена прежнему механизму поиска.
  2. Будет ли достаточно сохранить одну последнюю версию старой статы с другой страницы, чтоб удалить ту страницу? Зачем хранить сотни версий, долгое время обновлявшихся (господи, зачем) ежедневно?
MBH 13:16, 14 июня 2024 (UTC)Ответить
  • 1) Если ты по какой-то непонятной причине не хочешь возвращать на страницу ссылки на поиск — то да, видимо, нужна и постоянно обновляемая. Хотя конечно же ссылки на поиск более удобны и менее багованы, чем та страница.
    2) Я всё ещё не понимаю, почему есть какая-либо проблема в том, чтобы обновлять страницу Википедия:Самые используемые скрипты/Данные как было ранее. «Господи, зачем» что-то переделывать? stjn 15:28, 14 июня 2024 (UTC)Ответить
    • А я не понимаю, зачем нужен поиск, особенно для скриптов, размещённых вне рувики. Скрипт, включенный из глобалжс, не найдётся в рувики. А зачем этой странице состоять из двух отдельных страниц, когда можно состоять из одной? Только ради того, чтоб мимокрокодилы могли править шапку? Я это никогда не считал нужным и все мои боты статистики всегда обновляли одну страницу, этот механизм включения второй страницы - какая-то странная штука из дряхлого прошлого проекта. MBH 02:46, 15 июня 2024 (UTC) И даже если бы я счёл валидной цель "чтоб мимокрокодилы могли править шапку", я бы реализовал это иначе - обнаруживал {|, отрезал всё после неё и вставлял новую таблицу. А мусорить лишними страницами в проекте не надо. MBH 08:03, 15 июня 2024 (UTC)Ответить
      • Да, как мимокрокодилу мне хочется иметь возможность править шапку. Но вообще мне просто кажется ценной история, и если ты хочешь, чтобы осталась одна страница, идеальный способ это сделать — удалить основную страницу, а историю подстраницы /Данные перенести на неё. Кроме того, хотелось бы иметь, как в прошлой версии, уточнение про последнее обновление страницы. stjn 12:56, 15 июня 2024 (UTC)Ответить
          • Я именно так и планировал сделать изначально, но потом решил, что нафига тащить историю в сотни ежедневных обновлений, в которых не менялось ничего. В шапке напишу, что обновляется первого числа каждого месяца. Ну и вообще - шапку править всё ещё можно, просто через меня. MBH 21:26, 15 июня 2024 (UTC)Ответить
            • Ну так сделай так тогда. Я вообще не вижу никакой причины удалять историю страницы. Это ещё более бессмысленно, чем «тащить в историю» «сотни» обновлений.
              шапку править всё ещё можно, просто через меня — вот именно чтобы не было так, я и прошу сделать иначе. stjn 09:34, 16 июня 2024 (UTC)Ответить
  • Вы лучше вот что ответьте. Есть такой якобы популярный скрипт mediawiki:XTools/ArticleInfo.js, но его нет не только у нас, но и на en:MediaWiki:XTools/ArticleInfo.js, и на meta:MediaWiki:XTools/ArticleInfo.js, и никогда не было. Откуда он берётся? MBH 08:03, 15 июня 2024 (UTC)Ответить
  • Историю версий объединили, алиас mw: поставил на скрипты типа выше, дату обновления сделал (сейчас нормальная приедет). Небольшое уменьшение числа скриптов - оттого, что попросил бюра поудалять страницы загрузки скриптов мёртвых, обессроченных и давно неактивных юзеров, чтоб чуть разгрузить страницу деталей. MBH 15:19, 16 июня 2024 (UTC)Ответить