Академия Google (англ. Google Scholar) — бесплатная поисковая система по научным публикациям, запущенная в ноябре 2004 года по инициативе инженеров Google Алекса Верстака и Анурага Ачария[en]. С помощью поисковых роботов портал индексирует метаданные и осуществляет полнотекстовый поиск по научной литературе, включая журнальные статьи, препринты, диссертации, книги и технические отчёты. Пользователи могут искать нужные работы по авторам, ключевым словам, названию журнала. Углублённый поиск позволяет ранжировать материалы по публикации, дате и предметной области.

Google Scholar
Изображение логотипа
URL scholar.google.com
Коммерческий нет
Тип сайта Поиск по научным публикациям
Регистрация Необязательная
Язык (-и) 40 поддерживаемых языков
Владелец Google
Начало работы 20 ноября 2004 года
Текущий статус Работает
Логотип Викисклада Медиафайлы на Викискладе

Академия Google не предоставляет данные о точном количестве проиндексированных работ, однако, по предварительным подсчётам, на 2019 год их было не менее 390 млн. Несмотря на отсутствие достоверных данных о размере базы, портал считается крупнейшей в мире академической поисковой системой, со степенью охвата до 90 % всех англоязычных статей.

История править

 
Логотип портала

Идея создания Академии Google принадлежит Алексу Верстаку и Анурагу Ачария[en]. В начале 2000-х годов инженеры совместно работали над улучшением веб-индексирования научных публикаций в Google. Впоследствии они решили создать аналогичную поисковую систему для научной литературы[1][2][3]. По словам Ачария, он задумал подобный проект ещё во время учёбы в Индийском институте технологии. Тогда инженер впервые столкнулся с проблемой пейволлов, из-за которых научные работы не попадали в результаты поиска, и учёным приходилось проделывать двойную работу для составления обзора литературы[4][5][3][6]. Верстак и Ачария стремились облегчить доступ к научному знанию. Слоганом Академии Google стала фраза «Стоя на плечах гигантов», приписываемая Бернару Шартрскому и Исааку Ньютону[7].

Бесплатная поисковая система была запущена в 2004 году[5][8][5]. На момент создания Академия Google индексировала работы из баз данных журналов Nature, Online Computer Library Center, Association for Computing Machinery и других[9]. При этом отсутствовали некоторые базовые функции, такие как фильтрация данных по дате[10].

В 2006 году в Академию Google добавили новую функцию, автоматически формирующую и импортирующую библиографические ссылки на индексированные научные работы в коммерческие системы управления библиографической информацией, включая RefWorks[en], Reference Manager[en], EndNote и BibTeX[7]. С 2007 по 2011 год ссылка на Академию Google была на главной странице Google[11]. В 2007 году по соглашению с издательствами сервис запустил программу оцифровки научных журналов. Главной её целью было получение доступа к метаданным публикаций, чтобы облегчить процесс поиска, идентификации и цитирования[7]. В 2010 году Академия Google анонсировала новую функцию — «будильник» на определённые запросы — пользователи могли получить обновления о новых публикациях по почте[12][13]. С 2012 году исследователей получили возможность создавать личные профили, самостоятельно добавлять и регулярно обновлять информацию обо всех опубликованных работах. При этом сервис автоматически подсчитывает индивидуальные наукометрические показатели[7]. Опция не только улучшила поисковые возможности системы, но и позволила отслеживать индивидуальные карьеры исследователей[1]. В 2013 году сервис подключил функцию личной библиотеки для подборок научной литературы и результатов поиска по определённым запросам в личном кабинете[7].

В мае 2014 года Академию Google заблокировали в Китае[14]. Многие китайские учёные заявили, что блокировка негативно повлияет на развитие науки в стране[15][16].

В 2021 году портал ввёл дополнительную функцию, позволяющую отслеживать доступность для чтения тех исследовательских работ, которые попадают под мандаты открытого доступа — политику грантодателей, требующей от исследователей открыть свои работы через архивирование в репозиториях[17][18].

Принцип работы править

Индексация править

 
Стартовая страница

Поисковые роботы Академии Google постоянно сканируют сеть и автоматически добавляют материалы, подходящие по содержанию и оформлению под формат научной статьи[1]. Так, новостные статьи, книги, обзоры, коммерческие сайты, блоги и страницы Википедии не подлежат индексации[19]. Поисковые роботы сканируют материалы из двух основных групп источников. В первую входят журнальные публикации, препринты, диссертации и технические отчёты. Выявленные таким образом материалы включают как полнотекстовые документы, так и цитирования с аннотациями. Ко второй группе относят материалы, предоставленные партнёрскими организациями — издателями журналов, научными обществами, поставщиками баз данных и исследовательскими учреждениями. Большая часть таких работ представлена в Академии Google в виде цитирования с аннотациями, поскольку полный текст по-прежнему скрыт за пейволлами[20][21][22][23].

Поисковым роботам предоставлен доступ к крупнейшим базам данных коммерческих научных и университетских издательств, включая Association for Computing Machinery, Nature, Institute of Electrical and Electronics Engineers, Online Computer Library Center, Macmillan Publishers, John Wiley & Sons, University of Chicago Press[5]. Помимо этого, роботы сканируют и их цифровые хосты, включая HighWire Press[en], Metapress[en], Ingenta[en], сайты научных и государственных учреждений, таких как Американское физическое общество, Национальные институты здравоохранения США, Национальное управление океанических и атмосферных исследований и серверы препринтов, например, arXiv.org, Астрофизической информационной системы НАСА, RePEc и Citebase[24][25][22]. В 2007 году издательство Elsevier также открыло доступ Google к своей базе данных ScienceDirect[26].

В некоторых случаях Академия Google индексирует и веб-сайты. Для этого порталы должны соответствовать определённым критериям: публиковать в основном научные работы (оригинальные исследовательские статьи, технические отчёты, журнальные публикации, материалы конференций, диссертации и рефераты), находиться в публичном доступе, а также следовать всем необходимым техническим рекомендациям[27].

Система не предоставляет данные о точном количестве проиндексированных работ, поэтому исследователи вынуждены проводить самостоятельные оценки. Предположительно, в 2010 году количество добавленных в Академию Google документов составило около 82 млн, в 2014 году — 99,3-109,3 млн, в 2015-м — 160—165 млн, а в 2019-м — более чем 390 млн[28][29]. Несмотря на отсутствие достоверных данных о размере базы данных, Академия Google считается крупнейшей в мире академической поисковой системой, со степенью охвата до 90 % всех англоязычных статей и 50 % всех полнотекстовых документов[25][30][6][31][21][32].

Поисковые роботы Академии Google индексируют научные работы всех языков и дисциплин[27][21]. Бо́льшая часть индексируемого контента хранится на серверах издателей, где полнотекстовые документы доступны для платного скачивания[8].

Алгоритм ранжирования править

Для изучения ссылочной структуры статьи и определения её «важности» Академия Google использует аналогичные PageRank алгоритмы[33]. Поисковые роботы извлекают библиографические данные и информацию о цитированиях, которые впоследствии используются для ранжирования результатов поиска. Наибольший вес алгоритм придаёт количеству цитирований научной работы — чем их больше, тем выше статья будет отображаться в результатах поиска. Это отличается от подхода большинства аналогичных научных баз данных, использующих обратный хронологический порядок[23]. Важную роль играет и качество цитирующих работ; так, если на публикацию ссылаются материалы с высоким рейтингом, то и её позиция в поисковой выдаче растет[34][35]. Поисковая система ранжирует результаты поиска и по степени их релевантности запросу. Наличие ключевых слов в названии работы оказывает существенное влияние на положение статьи в списке. При этом частота встречаемости ключевых слов запроса в полном тексте не имеет значения[36][37][27]. Возраст статьи также не играет существенной роли для алгоритма[38].

Отдельные организации, включая Elsevier, OpenScience, Mendeley, SAGE Publishing советуют авторам следовать принципам поисковой оптимизации и модифицировать свои работы таким образом, чтобы академическим поисковым системам было легче её сканировать и индексировать[39]. Авторам также советуют самостоятельно адаптировать свои тексты под стандарты Google Scholar, чтобы как можно большее количество людей смогли получить к ним доступ[40][41][42].

Цитирование править

Функция отслеживания цитирований появилась в Академии Google в декабре 2004 года, почти сразу после запуска платформы[43][44]. Исследователи часто полагаются на количественный показатель цитирований, импакт-фактор, чтобы отслеживать наиболее влиятельные работы по определённой теме[22][23]. Функция позволила Академии Google соревноваться с платными поисковыми системами традиционных издательств. До этого подобную опцию предлагал только портал Web of Science от Thomson Scientific[en][23][22][21][45].

Академия Google автоматически рассчитывает и отображают три показателя цитирования автора[25]:

  • цитирование — общий необработанный подсчёт того, сколько раз исследование было процитировано в других публикациях[25];
  • индекс Хирша — наукометрический показатель, изобретённый физиком Хорхе Хиршем в 2005 году. Показатель отражает общий вклад автора в отдельную научную область и основывается на количестве публикаций и цитирований этих работ[25];
  • I10-index — показатель, внедрённый Академией Google в 2011 году, рассчитывающий количество научных публикаций, которые были процитированы как минимум 10 разными источниками[25].

Доступные функции править

Интерфейс Академии Google аналогичен заглавной странице Google. Пользователи могут осуществлять поиск по авторам, ключевым словам, названию журналов. Углублённый поиск позволяет фильтровать выдачу по определённым журналам, дате и предметной области[46][47]. После введения запроса, портал выдаёт до 1000 результатов, каждый из которых содержит библиографические данные (название, имена авторов, источник публикации), а также ссылки на аннотацию или полную версию работы, если она есть в открытом доступе. Пользователи могут просмотреть цитирования публикации в других источниках, ссылки на онлайн ресурсы, где представлен материал, или на библиотеки, в которых есть физическая копия работы. При этом цифровой идентификатор объекта не отображается. Академия Google предоставляет пользователям доступ к нескольким версиям одного и того же документа[46][21].

Функция «Моя библиотека» позволяет «сохранять» личные коллекции статей, которые можно систематизировать с помощью тегов. Пользователи могут сформировать библиографические ссылки на любую научную статью. Система формирует ссылки во всех наиболее часто используемых международных библиографических стандартах, таких как стиль MLA Modern Language Association[en], стиль APA, стиль Турабиан (Чикагский)[en], Гарвардский стиль[en], стиль American Chemical Society[en], стиль AIP American Institute of Physics, стиль IEEE[en], стиль Ванкувер и других[7]. Также портал позволяет импортировать цитирование для таких программ, как EndNote, BibTeX, RefMan или RefWorks. Пользователи могут настраивать и редактировать профили авторов, в том числе указывать свою институциональную принадлежность, пять областей научных интересов, добавлять публикации. При этом в результатах поиска отображаются только профили с подтверждёнными академическими адресами электронной почты. Также существует возможность подписаться на обновления других авторов, чтобы получать уведомления по электронной почте о новых статьях или цитированиях[25].

Влияние править

Современные учёные называют появление Академию Google революцией в области поиска научной литературы. По разным данным, портал используют от 43,7 % до 88 % исследователей. Академия Google снижает вероятность непреднамеренного дублирования исследований, что особенно важно для областей науки с высокой стоимостью проведения экспериментов, таких как физика и медицина[4][47][48][49][50][28].

Распространение Академии Google привело к росту значимости «непрестижных» научных журналов и старых статей. Это можно объяснить влиянием алгоритма ранжирования, который ставит приоритет на соответствие работы запросу пользователя, а не на элитность журнала, в котором они опубликованы. Старые статьи имеют больше преимуществ, потому что система фокусируется на работах с бо́льшим количеством цитирований[50][51][52].

Функционал Академии Google способствовал популяризации использования наукометрических показателей для оценки работы исследователей: многие работодатели стали опираться на них при оценке кандидатов[48]. Поисковая система оказала влияние и на движение за открытый доступ. Благодаря сотрудничеству с ведущими издательствами Академия Google подтолкнула коммерческих издателей на оцифровку аннотаций закрытых за пейволлами работ — до этого краткое содержание не было доступно для просмотра и пользователи могли просмотреть его только получив полный доступ к работе[4].

Критика править

Многие исследователи предостерегают об опасности использования Академии Google как единственного источника для составления обзора научной литературы. Причинами этого являются недочёты работы алгоритма ранжирования, иногда показывающего неточные результаты, ошибки каталогизации, приписывание ошибочных цитат или включение не строго академического материала. Охват проиндексированных работ также ограничен доступом к определённым организациям и зависит от соглашения с издателями[28]. Поиск в Академии Google не воспроизводим и не прозрачен — повторные запросы часто выдают разные результаты[53][54][31]. Помимо этого, индексируемые журналы не подлежат ручной проверке, что приводит к попаданию в базу данных хищнических журналов[55]. Также исследование 2021 года обнаружило лингвистическую предвзятость в алгоритме работы Академии Google — документы, опубликованные не на английском языке, систематически отводятся на позиции, которые делают их практически невидимыми[56].

Распространение Академии Google способствовало усилению эффекта Матфея — относительно небольшое количество публикаций привлекает непропорционально растущее число цитирований, в то время как большинство других работ остаются в значительной степени незамеченными[57]. Это происходит потому, что исследователи продолжают выбирать статьи из лучших результатов, автоматически предполагая их достоверность (например, основываясь на большом количестве предшествующих цитирований), и также цитировать их в своих работах[58][59]. При этом алгоритм ранжирования Академии Google обладает рядом уязвимостей. Исследователи проводили эксперименты по манипулированию собственным индивидуальным рейтингом цитирования, добавляя невидимые слова на первую страницу одного из своих докладов на конференции и меняя содержание и библиографию некоторых из своих уже опубликованных статей. Это привело к увеличению числа цитирований и улучшению индивидуальных показателей[60][61]. Помимо этого, популяризация порталом индивидуальных показателей цитирований потенциально приводит к ухудшению качества научных работ, поскольку исследователи больше обеспокоены индивидуальными показателями, чем содержанием[62].

Примечания править

  1. 1 2 3 Noorden, 2014.
  2. Anurag Acharya. Tech Guru Anurag Acharya. New Indian Express (15 ноября 2014). Дата обращения: 10 мая 2022. Архивировано 2 ноября 2021 года.
  3. 1 2 It's Gonna Get a Lot Easier to Break Science Journal Paywalls. Wired. Дата обращения: 11 мая 2022. Архивировано 11 мая 2022 года.
  4. 1 2 3 Steven Levy. The Gentleman Who Made Scholar. Wired (17 октября 2014). Дата обращения: 6 мая 2022. Архивировано 17 мая 2022 года.
  5. 1 2 3 4 John Markoff. Google Plans New Service for Scientists and Scholars. The New York Times (18 ноября 2004). Дата обращения: 6 мая 2022. Архивировано 17 мая 2022 года.
  6. 1 2 Gusenbauer, 2019, pp. 177—214.
  7. 1 2 3 4 5 6 Бизенков, 2017.
  8. 1 2 Mayr, 2007.
  9. Daniel Terdiman. A Tool for Scholars Who Like to Dig Deep. The New York Times (25 ноября 2004). Дата обращения: 6 мая 2022. Архивировано 17 мая 2022 года.
  10. Google Nouveau. Nature. Дата обращения: 10 мая 2022.
  11. Google Scholar Makes The Grade. Wired (7 мая 2007). Дата обращения: 11 мая 2022. Архивировано 17 мая 2022 года.
  12. Amy Cavender. Google Scholar Library. The Chronicle of Higher Education (19 декабря 2013). Дата обращения: 12 мая 2022. Архивировано 17 мая 2022 года.
  13. Ryan Cordell. Automating Research with Google Scholar Alerts. The Chronicle of Higher Education (1 июля 2010). Дата обращения: 12 мая 2022. Архивировано 17 мая 2022 года.
  14. Paul Stapleton. China must unblock Google Scholar and keep the internet open for its researchers. South China Morning Post (27 мая 2015). Дата обращения: 11 мая 2022. Архивировано 17 мая 2022 года.
  15. Alexis Modrigal. Chinese Scientists Say Losing Google Would Hurt Research. Wired (24 февраля 2010). Дата обращения: 11 мая 2022. Архивировано 17 мая 2022 года.
  16. Science suffers as China plugs holes in Great Firewall. Science (1 сентября 2017). Дата обращения: 12 мая 2022. Архивировано 17 мая 2022 года.
  17. Richard Van Noorden. Do you obey public-access mandates? Google Scholar is watching. Nature (31 марта 2021). Дата обращения: 6 мая 2022. Архивировано 17 мая 2022 года.
  18. Pola Lem. Google Scholar’s open-access move ‘sends a powerful message’. Research Professional News (25 марта 2021). Дата обращения: 12 мая 2022. Архивировано 21 апреля 2021 года.
  19. Dewan, 2012, pp. 41—42.
  20. Walters, 2007, pp. 1121—1132.
  21. 1 2 3 4 5 Thelwall, 2021, pp. 871—906.
  22. 1 2 3 4 Jim Giles. Start your engines // Nature. — 2005. Архивировано 17 мая 2022 года.
  23. 1 2 3 4 Bakkabalbasi, 2006.
  24. Jasco, 2005, pp. 208.
  25. 1 2 3 4 5 6 7 How Google Scholar Judges Research. Social Science Space (19 марта 2019). Дата обращения: 11 мая 2022. Архивировано 21 января 2021 года.
  26. Science Direct-ly into Google. O’relly radar (3 июля 2007). Дата обращения: 14 мая 2022. Архивировано 21 апреля 2008 года.
  27. 1 2 3 Jonathan Knepper. The Current State of Google Scholar: Everything We’ve Learned After Working with Journal Sites. Business 2 community (4 ноября 2021). Дата обращения: 11 мая 2022.
  28. 1 2 3 Ayllon, 2015, pp. 931—949.
  29. Jia You. Just how big is Google Scholar? Ummm … Science (30 сентября 2014). Дата обращения: 12 мая 2022. Архивировано 17 мая 2022 года.
  30. David Matthews. Drowning in the literature? These smart software tools can help. Nature. Дата обращения: 11 мая 2022. Архивировано 27 апреля 2022 года.
  31. 1 2 Jasco, 2005.
  32. Khabsa, 2014.
  33. Aalst, 2010, pp. 387—399.
  34. Declan Butler. Science searches shift up a gear as Google starts Scholar engine. Nature. Дата обращения: 6 мая 2022. Архивировано 17 мая 2022 года.
  35. Maharana, 2006, pp. 475—481.
  36. Beel, 2009, pp. 160—164.
  37. Google puts new slant on scholarship. The Guardian (22 ноября 2004). Дата обращения: 11 мая 2022. Архивировано 17 мая 2022 года.
  38. Beel, 2009, pp. 230—241.
  39. Schilhan, 2021.
  40. Wilde, 2010.
  41. Wietold Kinc. Academic SEO: 7 steps to optimize research articles for search engines. De Gruyter Conversation (9 апреля 2014). Дата обращения: 16 мая 2022. Архивировано 20 января 2022 года.
  42. Get found — optimize your research articles for search engines. Elsevier. Дата обращения: 16 мая 2022. Архивировано 23 октября 2019 года.
  43. James Fallows. At I.B.M., That Google Thing Is So Yesterday. The New York Times (26 декабря 2004). Дата обращения: 6 мая 2022. Архивировано 17 мая 2022 года.
  44. Bauer, 2005.
  45. Alakangas, 2015, pp. 787—804.
  46. 1 2 Maharana, 2006.
  47. 1 2 Haddaway, 2015.
  48. 1 2 Grofman, 2020.
  49. Ричард Ван Норден. Онлайн-сотрудничество: ученые и социальная сеть. Nature (13 августа 2014). Дата обращения: 6 мая 2022. Архивировано 11 мая 2022 года.
  50. 1 2 Standing on the shoulders of the Google giant: Sustainable discovery and Google Scholar’s comprehensive coverage. LSE blog (19 ноября 2015). Дата обращения: 12 мая 2022. Архивировано 17 мая 2022 года.
  51. Varshney, 2012.
  52. 101 Innovations in Scholarly Communication: how researchers are getting to grip with the myriad new tools. LSE blog (11 ноября 2015). Дата обращения: 12 мая 2022. Архивировано 23 апреля 2022 года.
  53. Neal Haddaway. A broken system – why literature searching needs a FAIR revolution. блог LSE (3 февраля 2020). Дата обращения: 6 мая 2022. Архивировано 26 апреля 2022 года.
  54. Halevi, 2017.
  55. Gina Kolata. Many Academics Are Eager to Publish in Worthless Journals. New York Times (30 октября 2017). Дата обращения: 15 мая 2022. Архивировано 8 ноября 2017 года.
  56. Rovira, 2021.
  57. Perc, 2014.
  58. Dumay, 2015.
  59. Hilda Bastian. Google Scholar Risks and Alternatives. PLOS (27 сентября 2019). Дата обращения: 11 мая 2022. Архивировано 17 января 2022 года.
  60. Jacso, 2011, pp. 154—160.
  61. John Bonannon. Google Scholar Wins Raves—But Can It Be Trusted? Science (3 января 2014). Дата обращения: 12 мая 2022. Архивировано 17 мая 2022 года.
  62. How Has Google Scholar Changed Academia? Forbes (8 августа 2017). Дата обращения: 12 мая 2022. Архивировано 17 мая 2022 года.

Литература править