Проект:Заливка новых статей/Технические детали

Данный раздел предназначен для ботоводов, желающих самим работать над пространством статей заливки

Формат базы данных править

В результате распознавания статей википедии-источника и ручной работы по выверке формируется база данных sqlite, в которой хранится информация о статьях и атрибутах. База данных может передаваться ботоводам при изъявлении желания с ней работать (и при наличии зарегистрированного бота, который сможет её прочесть!)

Административная структура править

Таблица ADMIN хранит всю административную структуру страны

  • ID номер объекта
  • NAME имя на языке оригинала
  • TARGET_NAME имя на русском языке
  • LEVEL уровень в иерархии (0. страна, 3 - провинция, 6 - район, 8 - обoшbна, 9 - деревня, 100 - альтернативное имя; возможны и другие уровни в зависимости от страны)
  • PARENT_ID номер области более высокого ранге

Метаданные по административной структуре править

Таблица ADMIN_META для каждого уровня содержит название уровня, это же название в родительном, предложном падеже и во множественном числе (район, района, районе, районы), высокий и низкий уровни ...

Атрибуты объектов править

Таблица содержит следующие поля

  • ID - номер объекта
  • ATTR_NAME название атрибута (например - POPULATION)
  • ATTR_VALUE значение атрибута (например 45200)

Таблицы значений править

Эти таблицы содержат перечни атрибутов и их значений на русском языке. Используется для перевода атрибутов

  • ID номер объекта
  • CONCEPT стандартизированное название атрибута (независимое от языка)
  • NAME имя на языке оригинала
  • TARGET_NAME имя на русском языке
  • SHORT_TARGET_NAME сокращённое имя на русском языке

Такие таблицы составляются например для островов, политических партий и других объектов, которые не входят в основную иерархию

Модули бота править

Экстракторы информации править

  1. Экстрактор шаблонов - читает основные шаблоны в статьях вики-источника и записывает информацию из них в базу данных
  2. Экстрактор навигационных шаблонов - читает навигационные шаблоны в статьях вики-источника и записывает информацию из них в базу данных
  3. Экстрактор списков - читает списки статей (из категории, из пользователей шаблонов, из ссылающихся на данную статью ...) и записывает информацию из них в базу данных
  4. Экстрактор словарей - читает словари, выверенные вручную, и записывает в базу данных
  5. Экстрактор интервики - находит названия на других языках
  6. Экстрактор статуса - распознаёт существование статей и их принадлежность к категориям
  7. Экстрактор изображений - находит изображения из Commons
  8. Экстрактор отдельной информации - выделяет требуемую информацию из анализа основного текста
  9. Экстрактор координат - находит координаты
  10. Экстрактор ссылок - находит ссылки на внешние источники
  11. Экстрактор таблиц

Генераторы править

  1. Генератор шаблона-статьи
  2. Генератор применения шаблона по заданным атрибутам объекта
  3. Генераторы текста по разделам
  4. Генератор иллюстраций
  5. Генератор интервики

Корректоры править

  1. Корректор ошибок
  2. Корректор стиля
  3. Корректор оформления
  4. Корректор шаблона в статье

Дизамбигуаторы править

  1. Коллектор названий
  2. Генератор и корректор статей-дизамбигов
  3. Генератор указателей на многозначные термины

Автозамены править

  • Бот автозамен
  • Бот переименований с автозаменами ссылок
  • Бот переименований категорий с автозаменами ссылок


Сталкеры править

  1. Составитель статистики
  2. Слежение за событиями (новыми статьями, переименованиями ...) в википедии - источнике