Википедия:Вики-конференция 2008/Результаты/Некоторые вопросы интервикификации

Участники Википедии, заглядывавшие на мою страницу пользователя, могли обратить внимание на то, в скольких иноязычных разделах Википедии есть моя пользовательская страничка. Это не хвастовство, а почти фанатическое увлечение — мне интересно понять, как устроены разделы Википедии на иных языках, тем более, что все они основаны на общих структурных принципах, и кроме того, у меня есть некоторый интерес к иностранным языкам, да и профессия моя с ними связана. Поэтому каждую неделю я некоторое время провожу в иноязычных Википедиях, либо просто изучая их, либо расставляя интервики и категории. Задача эта, в принципе, с некоторыми оговорками выполнима даже в тех языковых разделах, языками которых я вовсе не владею.

Основываясь на этом опыте, я хотел бы отметить ряд проблем, связанных с интернационализацией Википедии, взаимодействием разноязычных участников и разноязычных разделов, и высказать свои пожелания.

Проблема 1. Переводчик — не Бог. Но есть бот править

Ни один профессиональный переводчик не может похвастать тем, что знает все термины, которые встретятся ему в переводимом тексте. Тем более Вики-переводчик. Затруднение может вызвать редкий научный термин, географическое название, исторический термин (название исчезнувшего титула или ритуала), и так далее.

При переводе иностранных статей в Википедии мы переводим эти термины, как Бог на душу положит.

Между тем, в переводимой статье на языке оригинала (например, на английском) эти слова могут быть связаны со ссылками, ведущими на другие английские статьи. При этом в момент перевода эти статьи либо не переведены на русский, либо переводчик статьи просто поленился просмотреть в переводимой статье все ссылки.

Пример (абстрактный): в переведенном тексте статьи упоминается некий Лорен Грехем. В английской Википедии есть соответствующая статья. В русской Википедии тоже есть соответствующая статья, но имя пишется иначе: Лорен Грэхэм. Вероятность, что читатель статьи, где упоминается Лорен Грехем, найдёт впоследствии в русской Википедии статью про Лорена Грэхэма, довольно низка.

Моё предложение:

А) Рекомендовать переводчику при переводе незнакомых терминов из иноязычных статей оставлять ссылку на иноязычный термин, например,

Как писал [[:en:Loren Graham|Лорен Грехем]], …

Б) Создать бота, который бы периодически чистил ссылки на иноязычные статьи в русских текстах и заменял их на ссылки в русском разделе (если такие статьи имеются либо недавно появились).

Проблема 2. Задел для интервики-бота править

Рассмотрим ещё один характерный пример.

Статьи в разных языковых разделах Википедии зачастую не связаны друг с другом просто потому, что авторы этих статей понятия не имели о существовании подобных статей в другом языковом разделе. Или потому, что просто времени не хватало на их поиск.

Нередко ради развлечения я отправляюсь в иноязычные Википедии на охоту — я ищу статьи или категории, в которых не расставлены Интервики. Например, открываю в русскоязычной Википедии категорию «Политики Бендураса», в которой есть интервики-ссылка на соответствующую категорию на бендурасском языке. Далее прохожусь по именам бендурасских политиков и смотрю, какой именно русской статье соответствует данная статья в бендурасском разделе. Если есть сомнения — в русскоязычной статье обычно приводится либо написание имени на родном бендурасском языке, или даты рождения и смерти, или портрет, или то, и другое, и третье. То есть отождествить русские статьи с бендурасскими и расставить между ними интервики в принципе возможно.

В нашем примере Бендурас — выдуманная страна, а бендурасский язык — выдуманный язык. Но если обратиться к реальности, то не так давно я расставлял интервики в чувашской, туркменской, киргизской и маорийской Википедиях, хотя перечисленными языками не владею. На самом деле, хвастаться здесь нечем. Я считаю, что это рутинная работа — не для человека, а для бота. Нужна лишь грамотная процедура.

Чтобы подобную работу мог выполнить бот, нужно создать ему условия.

Моё предложение:

Создать шаблон в статье для будущей интервикификации. Например, если я создаю статью про некоего Джона Питерсона, и я точно знаю, как его имя пишется на других языках, то я могу создать псевдо-интервики с расчётом на появление в будущем статей об этом человеке на соответствующих языках. Формат может быть следующим:

[[?en:John Peterson]], то есть после квадратных скобок следует знак вопроса.

Далее предлагаю создать интервики-бот, который периодически будет проверять статьи на наличие таких интервики-заготовок, и если соответствующая статья уже создана — расставлять их. Если статья ещё не создана — то автоматически, в случае нахождения такого шаблона-запроса, помещать в соответствующем языковом разделе запрос на создание статьи.

В принципе, можно было бы не усложнять жизнь и просто ставить в статье интервики-ссылки на ещё не созданные статьи. Беда в том, что если я в статье ссылаюсь на ещё не существующую статью на том же языке, то ссылка выделяется красным шрифтом, а если я ссылаюсь на ещё не существующую статью на ином языке, то ссылка выделяется обычным синим шрифтом, то есть и для читателя, и для Википедии выглядит как уже существующая.

Проблема 3. Интервикификация категорий править

Мне кажется, для интервики-ботов есть очень много работы, и тут важно просто продумать, как организовать алгоритм для этих ботов. Например, есть множество однородных групп категорий. В категорию «Психологи по странам» входят подкатегории «Психологи Австралии», «Психологи Бельгии» и т. д. В аналогичной англоязычной категории Psychologists by countries существуют подкатегории Australian psychologists, Belgian psychologists и т. д. Аналогичные однородные категории существуют для физиков, писателей, инженеров, военачальников, композиторов и так далее. Большинство этих категорий не интервикифицированы. Или же чаще бывает так: в каких-то нескольких языковых разделах категория «Композиторы Австралии» связана, а в другом языковом разделе она — сирота. Вот где бы боту разгуляться! К сожалению, мне пока трудно предложить для него алгоритм, я не программист. Правда, если не продумать этот алгоритм, то в Википедии может возникнуть некоторый хаос.

Зато уже сейчас созрели условия для создания бота-интеркатегоризатора. Попробую объяснить.

Итак, имеем в некотором языковом разделе множество недокатегоризированных статей. Чаще всего проблема состоит в том, что статьи неаккуратно категоризированы, то есть попадают в слишком широкую категорию. Но имеем закономерность: чем больше статей в некотором языковом разделе, тем более подробные там категории.

Моё предложение:

Создать боты-интеркатегоризаторы. Принцип работы состоит в том, что есть активный языковой раздел (мастер-раздел, например, английский) и пассивный раздел (слейв-раздел, например, киргизский). Мастером является раздел, количество статей в котором превышает количество статей в слейв-разделе не менее чем на 20 % (цифра взята с потолка, может быть предметом дискуссий). Например, англоязычный раздел по отношению к русскоязычному, да и к любому другому — безусловный мастер. Если разница в количестве статей между разделами составляет меньше 20 %, то оба они по отношению друг к другу считаются мастерами. Наконец, если количество статей в обоих разделах не превышает 40000 (цифра опять-таки условна, может быть и больше, и меньше), то оба они по отношению друг к другу пассивны, оба слейвы, то есть интеркатегоризация между ними нецелесообразна.

Алгоритм бота должен состоять в том, чтобы сравнивать статьи в мастер-разделе и слейв-разделе на предмет категоризации. Если статья в мастер-разделе относится к некоторой категории, аналог которой существует в слейв-разделе, то бот добавляет соответствующую категорию в статью в слейв-разделе. Поскольку мастер-раздел более крупный, то и категоризация в нём, как предполагается, более подробная, поэтому не так и велик риск, что статьи в слейв-разделе в результате окажутся перенасыщены ссылками на слишком общие категории.

Идею насчёт бота-категоризатора можно развивать и далее.

Проблема 4. Структура статьи править

Данная проблема лишь косвенно связана с интервикификацией, но всё же представляется достаточно важной.

В настоящее время подавляющее большинство статей в Википедии имеют стандартную структуру: заголовок статьи, описательный шаблон (для биологических видов, названий фильмов и др.), автоматическое оглавление, тело статьи, литература, примечания, интернет-ссылки, категории, интервики-ссылки.

Мне кажется, с учётом этого можно было бы усовершенствовать Интервики-редактор, который уже морально устарел. Можно было бы делить окно статьи на эти семь разделов, причём в каждом из этих окон иметь дополнительные кнопки интерфейса, нужные конкретно для этого раздела, но не нужные для других. Более того, если в каких-либо статьях есть проблемы со структурой (не хватает каких-либо из указанных элементов или они расположены слишком запутанно) — здесь опять же есть пространство работы для ботов.

Если будет унифицирована структура статей в Википедии — то со временем, мне кажется, могут появиться боты, дополняющие статьи по описанному выше принципу мастер-раздела и слейв-раздела. Например, если в какой-либо статье ВООБЩЕ НЕТ интернет-ссылок, но они гарантированно есть в мастер-статье, то бот может их оттуда позаимствовать. Но пока структура статей не упорядочена, поручать ботам такую работу бессмысленно.

Проблема 5. Интервикификатор как человек и как проблема править

Наконец, самой главной проблемой интервикификации, и в то же время её основным двигателем, является интервикификатор — то есть участник Википедии, владеющий теми или иными иностранными языками.

Проблема, на мой взгляд, состоит в том, что в нынешней Википедии недостаточно хорошо продуман механизм того, как человек может позиционировать себя как знатока языков, потенциального переводчика статей и/или участника дискуссий с иноязычными участниками, в результате чего сообщество Вики-переводчиков остаётся рыхлым, взаимодействие между ними — слабым, спорадическим.

Мне, например, непонятно, зачем в каждом языковом разделе Википедии шаблоны знания участником языков нужно создавать с нуля. Внешне они в разных Википедиях они отличаются обычно только цветом, текст содержат один и тот же. «Внутренне» они отличаются ссылками на категории и статьи о соответствующих языках, но поскольку и категории, и статьи о языках имеют, или должны иметь, интервики-ссылки, то тут налицо работа скорее для бота, чем для человека.

Далее, мне непонятно, зачем шаблон Вики-переводчика существует отдельно от шаблона знания языка. По-видимому, предполагается (и так в реальности и случается), что не всякий человек, знающий язык, готов быть Вики-переводчиком на соответствующий язык или с данного языка. С другой стороны, для меня важным кажется то, что знание языка участник указывает именно для целей Википедии, а не для каких-то других. Когда википедист ставит на своей странице шаблон знания языка, это сигнал для других участников о том, что с ним либо можно общаться на данном языке, либо он готов переводить статьи с данного языка, либо, наконец, просто небезразличен к некоторой информации на данном языке. В любом случае, это не реклама себя как полиглота или профессионального переводчика.

Мне кажется, информацию, которую содержат два разных шаблона (Вики-переводчика и знания иностранного языка), можно было бы с пользой объединить «в одном флаконе», причём с улучшением качества. Но я предлагаю решить эту проблему не на уровне шаблонов и ботов, а на уровне единой учётной записи.

Многие участники Википедии по крайней мере слышали о введении единой учётной записи. Но поскольку её введение недостаточно хорошо пропагандировалось, до сих пор не так и много участников перешли на эту единую учётную запись. Возможно, массовое оповещение участников о единой учётной записи не вполне обрадует администраторов и бюрократов — если хотя бы половина участников сразу захочет перейти на единую учётную запись, это сколько же конфликтов имён сразу возникнет! Особенно если участник был в одном языковом разделе заблокирован, а в другом — цветёт и здравствует.

Тем не менее, мне кажется целесообразным уже сейчас оповестить при помощи бота, который бы оставил сообщение на страницах обсуждения участников, о необходимости перейти на единую учётную запись. Если не всех участников, то по крайней мере тех, у которых на личных страницах стоят шаблоны знания иностранных языков. Заодно это будет проверкой активности участника (если в течение полугода не отреагировал — значит, Википедию он забросил, в случае чего можно и заблокировать с почти чистой совестью).

К сожалению, я не представляю себе во всех деталях механизма перехода на единую учётную запись и всех связанных с этим издержек (например — наследуется ли история правок при переименовании участника). Поэтому в нижеследующих рассуждениях я буду исходить из того, что основные процедурные проблемы, связанные с переходом на единую учётную запись, пренебрежимо малы.

По моему мнению, сведения о знании языков нужно указывать не в виде шаблонов, а в самой учётной записи участника, и исходя из этих данных, боты могут расставлять категории и цветные прямоугольники в соответствующих местах на странице участника. При этом участник рядом с каждым выбранным языком может отметить один или несколько пунктов, характеризующих то, в какой мере он готов пользоваться данным языком в Википедии. Ниже я привожу возможные опции:

A: мой родной язык

B: не родной, но говорю с детства

С: могу переводить статьи Википедии с данного языка

D: могу переводить статьи Википедии на данный язык

E: могу участвовать в дискуссиях на данном языке

F: не могу участвовать в дискуссиях, но понимаю обращения на этом языке

G: имею филологическое образование/специализацию, связанную с данным языком:

— перечень тем

H: не владею данным языком, но начал изучать и имею о нём общие представления

I: вообще не владею, но готов участвовать в разделах Википедии на данном языке с целью:

— расстановки интервик

— интересуюсь данным регионом, готов кооперироваться с носителями языка (например, чтобы переводить статьи, связанные с их регионами, с других языков).

Категории и шаблоны, связанные со знанием языков, должны расставляться автоматически, и должны быть сквозными для всей Википедии, для всех языковых разделов. Это, на мой взгляд, значительно увеличит взаимодействие между различными языковыми разделами и в какой-то мере подтянет развитие некоторых малых разделов., да и больших тоже.

Крупным недостатком мне кажется то, что шаблоны интересов участников в разных языковых разделах редко когда связаны друг с другом. В результате сообщество тех, кто интересуется историей в русской Википедии, совершенно не связано с сообществом тех, кто интересуется ей во французской или английской Википедии. В немецкой, если не ошибаюсь, объединений по интересам вовсе не существует. А жаль.

Есть de:Wikipedia:WikiProjekt и de:Wikipedia:Redaktionen. — Obersachse 09:24, 28 октября 2008 (UTC)[ответить]

В принципе, для интервикификации имеется огромное и непаханое поле. Объём доклада не позволяет подробно осветить все проблемы, на которых хотелось бы остановиться. Я был бы рад, если хотя бы некоторые из освещнных в докладе проблем вызовут понимание, и, быть может, действия. --Dmitri Lytov 18:50, 22 октября 2008 (UTC)[ответить]