Сюда предлагается писать любые идеи и наброски по статистике.
Часть предварительных данных можно взять отсюда:
Более свежие данные, надеюсь, скоро подтянутся.
Пока есть вот такие сырые данные:
- Логи на базе User:Kv75b/Incubator/Stats0.
- Журнал переименований. Сырая выборка на toolserver.org
- Журнал удалений. Сырая выборка на toolserver.org
- IncubatorStat - логируемые данные о кол-ве страниц в категориях Инкубатора.
Промежуточные инструменты
Как создаются статьи в Инкубаторе
править- Заглавная страница -> Википедия:Мастер статей -> выбор места создания (Инкубатор или ОП)
- С помощью сообщения, показываемого при создании новой статьи Новых и начинающих пользователей приглашаем создавать статьи в Инкубаторе, где вам окажут необходимую помощь в написании ваших первых статей.
Схема работы над заготовками
правитьРабота помогающих в Инкубаторе делится на два больших класса:
- собственно работа с новичками
- сортировка брошенных заготовок
(В схеме нужно будет поменять "создание статьи" на "создание заготовки"?)
("Заготовки в работе" (тут надо получше название придумать) и "Брошенные заготовки")
(Наверное, было бы интересно проставить %. Например:
- по верхней части: на ЗПП попадает ...%, на мин.рец..% (ЗПП возможно через логи IncubatorStat)
- по нижней части: на КУ идет ..%, на КУЛ ...% .. и т.д.
ну или что-то такое..)
Авторы Инкубатора
правитьНа этом графике показаны наши авторы.
Данные взяты из Проект:Инкубатор/Статистика/Все статьи, колонки «Стаж» и «Правок». Далее построен график как пары (x; y).
25000 и 35000 правок — наверное, надо будет обрезать, так как это статьи, перекинутые нам с КУ… Например, Список интернет-провайдеров Белоруссии. Это не совсем новички.. :)
Блок 10-15 тыс. правок — надо разбираться.
А вот менее 5000 правок — это уже наши новички.
Причем «рекорд» следующий. Вот _полный_ список правок новичка:
21 октября 2010
21 октября 2010
21 октября 2010
21 октября 2010 <- создание статьи в Инк
24 января 2006
23 января 2006
То есть хорошо видно, что «новички» определяются не по стажу в проекте, а по кол-ву сделанных правок.
(Хорошо бы еще посчитать «созданных до Инкубатора статей». Скорее всего окажется «0», но все же. если будет время, интересно будет глянуть..)
http://toolserver.org/~dm/user_age.php
Вики-возраст новичков от 2 минут, до 5 лет. :)
- Оси на графиках
- X - дней с момента регистрации, Y - правок от момента регистрации до создания статьи в Инкубаторе
Неплохо видно, что возраст играет малую роль. (Это в первых раз было неожиданно, но сейчас все более и более подтверждается из разных источников.)
А вот количество правок играет большую роль. Похоже, некая граница - это 50-60 правок.
(можно показать в "сильно уменьшенном виде" и попросить угадать оси, и размерность. а потом показать крупно... угадают или нет?)
Кто такие новички
правитьNN | count(*) | % | Нарастание | |
---|---|---|---|---|
0-10 | 3077 | 0 | 88,37% | 88,37% |
10-20 | 102 | 10 | 2,93% | 91,30% |
20-30 | 61 | 20 | 1,75% | 93,05% |
30-40 | 44 | 30 | 1,26% | 94,31% |
40-50 | 23 | 40 | 0,66% | 94,97% |
50-60 | 14 | 50 | 0,40% | 95,38% |
60-70 | 18 | 60 | 0,52% | 95,89% |
70-80 | 11 | 70 | 0,32% | 96,21% |
80-90 | 8 | 80 | 0,23% | 96,44% |
90-100 | 6 | 90 | 0,17% | 96,61% |
110-120 | 5 | 110 | 0,14% | 96,75% |
120-130 | 5 | 120 | 0,14% | 96,90% |
130-140 | 5 | 130 | 0,14% | 97,04% |
140-150 | 6 | 140 | 0,17% | 97,21% |
150-160 | 2 | 150 | 0,06% | 97,27% |
160-170 | 5 | 160 | 0,14% | 97,42% |
170-180 | 6 | 170 | 0,17% | 97,59% |
180-190 | 5 | 180 | 0,14% | 97,73% |
200-210 | 3 | 200 | 0,09% | 97,82% |
Для таблицы взяты только "первые статьи в Инкубаторе". Т.е. совсем новички.
0-20 правок - более 90% новичков
0-50 правок - более 95% новичков
В основном приходят в течении 1-2 дней. Но "хвост" - гораздо боле пологий и тянется дольше. 90% достигается только через 10 мес., а 95% - через 1,5 года.
Опыт и выживаемость
правитьОказалось, что буквально с каждой правкой увеличивается опыт новичка и вероятность выживания статьи. (А м.б. серьезность отношения новичка к работе).
"Выживаемость" на графиках - это отношение количества выживших статей к количеству удаленных (после полного цикла: оценка в Инкубаторе, перенос в ОП, если надо - оценка/доработка на КУ/КУЛ). Подсчет по всем статьям, прошедших через Инкубатор за данный период. Почему-то нам было удобнее считать как "отношение", а не как "%". Почему именно так - сейчас уже не помню.
Устойчиво положительная тенденция (выживших больше, чем удаленных) начинается где-то с 30 правок. Хотя и до этого наблюдается стремительное нарастание. Даже после 8 правок уже положительная тенденция.
А вот стаж в днях/годах - никак не влияет. Только через 4 года какая-то положительная динамика..
Наши лучшие!
правитьСобрана статистика по лучшим авторам Инкубатора!!
http://toolserver.org/~dm/hall_of_fame.php
- Первая колонка - правок в ВП до прихода в Инкубатор
- Вторая - правок в ВП после того, как первая статья вышла из Инкубатора
- Последняя колонка - ссылка на первую статью, созданную автором в Инкубаторе
Т.е. это те, кто пришел в Инкубатор почти без вклада в Википедию или даже совсем без вклада. А потом остались и стали продуктивными авторами.
Попадание статей в Инкубатор
правитьОбычно создаются прямо в Инке.
Но бывают переносы из ОП на доработку.
А бывает, что переносят со своих ЛС в Инк на проверку. Например Алгоритм Гёрцеля.
Первый пик - март 2009. Первые тестовые загрузки.
Второй пик - начало 2010. Попытки использовать еще молодой Инкубатор для доработки.
Третий пик - весна 2011. Использование Инкубатора для доработки. В частности, с ВУС.
Хотя и видно, что переносов в Инкубатор не так уж и много.
По годам небольшой рост.
SELECT SUBSTRING(mt_timestamp,1,6 ) as year, COUNT( 1 ) AS quantity
FROM
Where mt_timestamp > 1
GROUP BY SUBSTRING(mt_timestamp,1,6 )
Время работы над заготовкой
правитьВидно, что времени нужно не меньше 2-х месяцев, но не более 4-х. Меньшие сроки будут создавать напряжение (автора будут подгонять, он будет нервничать, напряжение будет передаваться дальше). Большие сроки будут вести к накоплению мусора.
(А какой % у нас уходит из Инк после ЗПП, а какой % уходит через мин.рец? Это можно как-то посчитать? Да, еще надо учесть, что есть какой-то % "самопереносов"..)
Довольно много статей переносится в течении первых буквально 5-10 дней (хотя, возможно, это и самопереносы + не первые статьи, для первых статей обычно нужно больше времени).
Второй максимум - 30-90 дней. Это уже сортировка на мин.рец.
Данные взяты из Проект:Инкубатор/Статистика/Все статьи, колонка «Время в Инк». Далее подсчет вхождений каждого из сроков нахождения.
То же, что и выше, но разделено на 2 периода:
- Январь-июнь. До введения механизмов сортировки Проект:Инкубатор/Мини-рецензирование - 18 апреля 2010 и Проект:Инкубатор/Стабы - 10 июня 2010. И после отработки механизмов переноса на КУ/КУ (август 2010).
- Июль-декабрь. После введения механизмов сортировки и переноса стабов.
Эх.. возможно, потом нужно будет более аккуратно посмотреть "по месяцам".. но на 12 групп делить - это уже нужно ботом..
Удаления дают характерный горбик на 1-2 месяцах (мин.рец). Хотя и странно, что-то много удалений "в самом начале".
Переносы происходят в первые 5-10-15 дней (работа авторов?). Затем всплеск на 40-60 день (перенос после мин.рец?).
Выживаемость статей
правитьОбычно выживает около 30%.
Июль 2010 - это 15region. Использование Инкубатора как черновика.
А вот весной 2011, выживаемость, возможно, упала.. Надо смотреть как-то еще..
По незарегистрированным пользователям, наверное, более равномерная и более верная статистка.
Но все же, выживаемость, похоже, упала..
Динамика Инкубатора
правитьЛетом 2010 вышли на стабильный режим, около 150-200 статей/мес. В сентябре ссылка с Мастера статей была добавлена на Заглавную, кол-во заготовок резко подскочило до ~400 в месяц.
Создания:
- Март 2009 - первая тестовая загрузка
- Дек. 2009 - начало работы
- Сент. 2010 - добавление МС на заглавную страницу
- Весна и лето 2011 - спад. Надо анализировать..
Удаления
- апр. 2010 - окончание наблюдений, введение мин.рец., первая чистка мусора
- авг. 2010 - закрытие Стабов, отработка переноса в ОП
В остальном, похоже, повторяет динамику созданий с отсрочкой на 2 месяца
Польза
правитьКроме очевидного: обучение авторов, есть и дополнительная польза:
- Нет необходимости "быстро принимать решение в неясной ситуации" (это вандализм или будущая статья; копивио, или будет получено ДОБРО; Значимости нет или она просто не показана?.. и т.п. )
- Снижение напряжения за счет более спокойной работы и доброжелательной атмосферы
- Отсечение некоторого количества мусора (идет не в ОП, а через Инкубатор)
Награды Инкубатора
правитьПо случаю годовщины были выпущены награды Инкубатора
-
Знак Инкубатора
-
Медаль Инкубатора
-
Орден Инкубатора
Благодарности:
- ___
- ___
- ___
- ___