Обсуждение:Беларусьфильм

Последнее сообщение: 3 года назад от Bogomolov.PL в теме «Гугл и время появления слова "Беларусь"»

«Советская Белорусь» править

касательно этой отмены моей правки c предложением посмотреть ссылку https: //www.google.com/search?q=%22%D0%B1%D0%B5%D0%BB%D0%B0%D1%80%D1%83%D1%81%D1%8C%22&lr=lang_en&newwindow=1&tbs=lr:lang_1en,cdr:1,cd_min:1800,cd_max:1899&tbm=bks&sxsrf=ALeKk01q2qCSvhqGHS6pXEuJqvOBCHHtng:1606160197467&source=lnt&sa=X&ved=0ahUKEwiPtpaAtZntAhUIx4sKHfk1C5sQpwUIJQ&biw=1920&bih=1084&dpr=1: мой Вам совет, учитесь пользоваться Google Books!))) убираем галочку Search English pages (действительно "удивительно", что там нету книжек XIX века со словом "беларусь" ^_^ ) на Search the web и... о, чудо!)) 13 ссылок! да, не много! и пару из них вроде на украинском... но для "белоруси" при таких же вводных целых ДВЕ ссылки, т.е. в ШЕСТЬ раз меньше. sic! — Barth (обс.) 19:57, 23 ноября 2020 (UTC)Ответить

Гугл и время появления слова "Беларусь" править

Есть ресурс Google Books, он представляет собой отсканированные и автоматически распознанные печатные издания.

Есть ресурс Google Books Ngram Viewer, он отображает статистику наличия источников в Google Books по тому или иному критерию.

Если в Google Books Ngram Viewer. При пользовании этим продуктом разумно параметр "Smoothing" поставить "0" задать ключевое слово "Беларусь", то будет получен график, на котором в 1850 году появляется этот термин и исчезает в 1851, потом пауза 1851-1872, а затем в 1873 году снова этот термин возникает, но пропадает в 1876. Снова пауза до 1896 года. В 1897 году термин снова возникает, но исчезает в 1901. В 1901-1910 снова пауза, а в 1911 году темин возникает уже навсегда.

Подчеркиваю, это данные Google Books. Статистика приведена (это видно в Choose corpus) Russian 2009 ("корпус" это дата сбора статистики по всей совокупности книг), однако, если выбрать корпус Russian 2012, оказывается, что график утрачивает некоторые сенсационные части. Термин впервые возникает в 1895 году и исчезает в 1896, но снова возникает в 1897, исчезает в 1898-1899, снова возникает в 1900. пауза 1901-1911, а в 1912 снова возникает уже навсегда.

Но и это еще не всё. Есть корпус Russian 2019, в нем термин возникает в 1900, пропадает и снова возникает в 1906, пропадает и возникает снова в 1912.

Почему так?

Годы назад я сам столкнулся с этим. И быстро выяснилось, что репринты (переиздания) источников XIX века датировались годом первоначального издания, однако при сканировании книги в скан попадали современные предисловия, послесловия, аннотации, примечания, но (главное!) даже при отсутствии современных предисловий и пр. обязательно есть современные выходные данные с названием современного издательства ISBN и тиража. Вот там, в названии издательства, и проскальзывала "Беларусь".

То есть чем ближе к современности т.н. "корпус" тем меньше в нем ложных датировок.

А теперь посмотрим на сегодняшний день - спросим у Google Books о наличии термина "Беларусь" в XIX веке. И результаты находятся: но что это за результаты?

  • "Пережитки древняго миросозерцания у белоруссов" Богданович (1895). Но где в отсканированном тексте термин "Беларусь"? Читаем: Ордэна Дружбы народа выдавецтва «Беларусь» Мiністэрства культуры i друку Рэспублiкi Беларусь. Лiцэнзія ЛВ No 2. 220600, Мiнск, праспект Машэрава, 11. Мiнская фабрыка каляровага друку. То есть это выходные данные репринта.
  • "Сочинения Гавриила Романовича Державина: Переписка" (1871) Тут "Беларусь" Гугл распознал но не в нормальном тексте, а на сгибе страницы между 600 и 601 страницами (это место подсвечено желтым), там никакой текст вообще невозможно распознать глазами, но алгоритм смог что-то нафантазировать.
  • "Объяснение всѣх иностранных слов: вошедших в употребление в" (1875). Но заглянув в текст книги мы глазами видим (желтым подсвечено) не слово "Беларусь", а "Бенаресъ". Ложное распознавание.
  • "Энциклопедический словарь под редакцией Андреевского" (1890). Тут алгоритм ложно распознал географическое название на географической карте Хорватии (тогда в составе Австро-Венгрии). Это название совершенно нечитабельно, но алгоритм все же что-то нафантазировал.
  • "Общепонятная астрономия: Том четвертый" (1861). И тут за "Беларусь" алгоритм принял "Бенаресъ"
  • "Земля и люди. Всеобщая география" (1899) - и тут "Бенаресъ"
  • "Советские профсоюзы" (1897), но и тут, понятно, ложное срабатывание - это 1969 год.
  • "Журнал Министерства народнаго просвѣщения" (1895), "Большая энциклопедия" и "Подробный словарь русскихъ граверовъ XVI-XIX" - тут нет превью, а потому ничего проверить невозможно.

Иными словами: везде, где была такая возможность, мы наблюдали ложные срабатывания. Bogomolov.PL (обс.) 21:09, 23 ноября 2020 (UTC)Ответить