Архив Интернета

Архи́в Интерне́та (сокр. АИ; англ. Internet Archive) — некоммерческая организация, основанная в 1996 году в Сан-Франциско американским программистом Брюстером Кейлом. Главной заявленной целью Архива является предоставление всеобщего доступа к накопленной в Интернете информации. Коллекция АИ состоит из множества подколлекций архивированных веб-сайтов, оцифрованных книг, аудио- и видеофайлов, игр, программного обеспечения.

Internet Archive
Изображение логотипа
URL archive.org
Коммерческий нет
Тип сайта универсальная электронная библиотека
Язык (-и) английский
Расположение сервера  США
 Египет
 Нидерланды
Владелец Internet Archive
Создатель Брюстер Кейл[1]
Начало работы 24 января 1996 года
Текущий статус временно приостановил работу в связи с DDoS атакой
Оборот
  • 29,4 млн $ (2021)[2]
Чистая прибыль
  • 4,09 млн $ (2021)[2]
Число сотрудников
  • 122 чел. (2021)[2]
Слоган universal access to all knowledge[3]
Страна
Логотип Викисклада Медиафайлы на Викискладе

К крупнейшим проектам Архива относят запущенный в 2001 году сервис Wayback Machine, который архивирует и предоставляет доступ к бо́льшей части «открытого» интернета. Пользователи Wayback Machine могут отследить происходящие на выбранных сайтах изменения и сравнивать разные версии правок[5]. Другой крупной инициативой АИ является Open Library — открытая онлайн-библиотека, через которую пользователи могут брать на 2 недели оцифрованные версии книг[6]. Также по инициативе Архива был создан сервис Archive It — служба веб-архивирования, помогающая организациям и частным лицам собирать, создавать и сохранять коллекции цифрового контента. На начало мая 2022 года коллекция Архива Интернета состояла из более чем 35 млн книг, 7,9 млн фильмов, видео и телепередач, 842 тыс. программ, 14 млн аудиофайлов, 4 млн изображений, 2,4 млн телеклипов, 237 тыс. концертов и более 682 млрд веб-страниц в Wayback Machine.

Для долгосрочного хранения данных «Архив» использует систему зеркальных сайтов, расположенных в географически отдалённых друг от друга местах[7]. Копии Wayback Machine существуют в Сан-Франциско, Ричмонде, Александрии, Амстердаме. Для эффективного хранения файлов «Архив» использует формат файла (WARC), позволяющий сохранять файлы без потерь при архивировании[7].

История

править

Создание

править
 
Брюстер Кейл в 2009 году

Главную роль в создании «Архива Интернета» сыграл выпускник Массачусетского технологического института Брюстер Кейл. Во время учёбы Кейл и его одногруппники имели доступ к прототипу интернета — сети ARPANET. Однажды они решили посмотреть, что произойдёт, если поместить отдельные сообщества (на тот момент — небольшие списки рассылок и группы Usenet) в общее виртуальное пространство — единый список рассылки. Как позже вспоминал программист: «Это был хаос, анархия и дезинформация — это было ужасно!». Однако именно тогда Кейл осознал потенциал сети в предоставлении людям из разных учреждений возможности общаться друг с другом без задержек и трений. Благодаря экспериментам с ARPANET у программиста появилась идея создать первое цифровое хранилище[8].

Начиная с 1980-х годов Кейл участвовал в создании компании по производству мини-суперкомпьютеров Thinking Machines Corporation, а в 1989 году программист основал первую сетевую информационную поисковую систему WAIS и одноимённую компанию, которую он продал в 1995 году America Online за 15 млн $. Впоследствии WAIS стала прообразом современных поисковых систем и одной из первых программ, индексирующих большое количество информации. Одновременно с этим Брюстер переехал из Бостона в Сан-Франциско — город, который в то время только начал становиться центром Кремниевой долины[9][10][11][12].

В этот период Кейл заинтересовался вопросом архивирования всего интернета. Для этих целей он создал в 1996 году две взаимосвязанные организации — НКО Internet Archive и коммерческую систему веб-архивирования Alexa Internet, которая была создана совместно с Брюсом Гиллиатом[англ.] и получила название в честь Александрийской библиотеки. Задачей Alexa Internet стало финансирование некоммерческого проекта за счёт средств, вырученных от веб-архивирования. Помимо этого, все архивированные через Alexa данные также автоматически сохранялись в коллекцию. Начальные инвестиции в проект Alexa Internet составили около 1 млн $. Уже спустя год после создания «Архив Интернета» и Alexa совместно разработали браузерный плагин — программа автоматически определяла и сохраняла «ценные» веб-страницы, ранжируя их по количеству посещений и перекрёстных ссылок и кликов[13]. Цикл создания и архивирования страниц составлял восемь недель, после чего процесс сканирования запускали заново. Встроенная в браузер панель инструментов Alexa помогала пользователям в навигации по интернету и одновременно занималась его каталогизацией, собирая метаданные о том, как страницы связаны друг с другом. Первое время для хранения данных использовали магнитную ленту — несмотря на то, что только появившиеся дисковые хранилища выигрывали в вопросе экономии пространства и удобства, ленты были примерно в 10 раз дешевле[14][9][15][16][13].

Целью «Архива Интернета» стала борьба с вымиранием ссылок — большинство создававшихся веб-страниц не было долговечным. Все собранные данные сохранялись в коллекцию «Архива Интернета»[13][7]. Так, 72 % опубликованных в 1998 году ссылок стали «мёртвыми» к 2021 году[17][18]. Чтобы продемонстрировать важность сканирования и сохранения копий веб-страниц, «Архив» инициировал совместный проект со Смитсоновским институтом в Вашингтоне по сбору скриншотов веб-сайтов всех кандидатов в президенты 1996 года. Впоследствии эти данные были включены в архив института о партиях и кандидатах, собирающий данные по политическим партиям США и всем кандидатам в президенты[13][7][7].

1997—1999-й год

править

В 1998 году Alexa Internet передала Библиотеке Конгресса 2 терабайта заархивированного за два года контента или 500 000 веб-сайтов. Тогда Брюстер Кейл упомянул, что надеется вдохновить Библиотеку Конгресса и другие исследовательские библиотеки сохранять знания не только в печатном, но и в онлайновом виде[19][20]. В 1998—1999 годах «Архив Интернета» и Alexa заключили контракт с Microsoft и Netscape Communications на включение своего программного обеспечения в браузеры Internet Explorer и Netscape Navigator. Соглашения позволили значительно расширить инфраструктуру «Архива» — Alexa была внедрена на 90 % персональных компьютеров того времени. К концу 1998 года руководство «Архива» решило перейти с магнитной ленты на жёсткие диски[13][21]. В 1999 году Брюс Кейл получил предложение от компании Amazon продать ей коммерческий успешный Alexa Internet за $250 млн, на что создатель ответил согласием. После покупки Alexa по-прежнему продолжила отправку данных в «Архив Интернета». В этом же году Энди Джуэл создал новый веб-краулер, позволяющий параллельно совершать сразу несколько сканирований и сохранять результаты в формате ARC. В этом же году НКО внедрило разработанный Джуэлом новый краулер, который позволил собирать не только веб-страницы, но и другие виды данных, например, анимацию. Благодаря партнёрству с Риком Прелингером[англ.] из Prelinger Archives[англ.] был реализован проект по оцифровке 1000 фильмов (общей стоимостью в $160 000) и по архивированию телевизионных новостных трансляций[13][22]. В 2005 году Библиотека Конгресса приобрела Prelinger Archives, доступ к материалам по-прежнему осуществляется через «Архив»[23].

2000—2010 годы

править
 
С 2009 года главный офис «Архива» располагается в бывшей христианской церкви[англ.]

В период за 2000—2001 год размер архива увеличился втрое и составил около 40 терабайт[13]. Одновременно с этим перед руководством встал вопрос о предоставлении доступа к собранной коллекции. Отдельные данные были доступны широкой публике, но требовали от пользователя знания Unix. Чтобы открыть доступ к информации, программисты Alexa создали Wayback Machine — онлайн-сервис, через который пользователи могли осуществить поиск по вводимому URL-адресу. Сервис был запущен 24 октября 2001 года и предлагал доступ к более чем 10 млрд заархивированных веб-страниц и 100 ТБ данных. В то время данные хранились на серверах Hewlett-Packard и uslab.com под управлением операционных систем FreeBSD и Linux. На каждом сервере было около 512 МБ оперативной памяти и чуть более 300 ГБ на жёстких дисках[13]. К декабрю 2014 года руководство Wayback Machine сообщило, что сохранило 435 млрд веб-страниц по всему миру[24]. С технической точки зрения WM не является архивом, а скорее общедоступным интерфейсом к ограниченному подмножеству всех хранилищ[25][26].

В связи с президентскими выборами в США 2000 года «Архив Интернета» инициировал совместный с Библиотекой Конгресса проект по сбору информации о политических кампаниях кандидатов[13]. Другим крупным проектом того периода стал «Архив 11 сентября», посвященный событиям 11 сентября 2001 года. Работая с Библиотекой Конгресса, «Архив» собрал изображения с более 30 000 избранных веб-сайтов в период по 1 декабря 2001 года включительно, а также сотни часов телетрансляций[13][27][28].

В 2002 году «Архив» реализовал сразу несколько крупных проектов, значительно расширивших его коллекцию. Первым и самым крупным из них стал зеркальный сайт библиотеки в городе Александрия. Всего в Египет было отправлено серверов с более чем 100 ТБ данных, общей стоимостью около $5 млн[13]. Также «Архив Интернета» передал в Библиотеку Александрина 10 млрд веб-страниц, собранных с 1996 по 2001 год, 2000 часов записей передач египетского и американского телевидения и 1000 старых фильмов[29][30].

Летом 2002 года «Архив Интернета» сотрудничал с центром Карнеги-Меллона в проекте «Миллион книг[англ.]» (MBP) по оцифровке более одного миллиона книг и размещению их для бесплатного чтения в интернете[13]. Проект осуществляли при полноправном участии других американских университетов и цифровых собраний Индии, Китая, Египта. Деньги на MBP выделили Национальный научный фонд США ($3,63 млн), правительство Индии (25 млн), а также Министерство образования КНР (8,46 млн). В свою очередь, «Архив Интернета» предоставил оборудование, персонал и денежные средства для оцифровки необходимых документов. Впоследствии собранная коллекция была доступна через зеркальные сайты Индии, Китая, порталов Университета Карнеги-Меллона и «Архива Интернета»[31]. В декабре 2004 года АИ объявил о новом сотрудничестве с несколькими международными библиотеками по помещению оцифрованных книг в архивы с открытым доступом[32]. Вторым крупным проектом этого периода стал «Букбомбиль» — передвижная библиотека, по желанию печатающая работы из коллекции архива. Букмобиль передвигался по Сан-Франциско и, по заказу пользователей, мог печатать около 20 страниц в минуту, после чего волонтёры проекта собирали их вручную, помещали в обложку и переплетали с помощью нагревающего клей устройства, нанесённого на корешок страниц. Для обрезки книги использовали гильотинный резак для бумаги[33][13].

В 2003 году «Архив» продолжил сотрудничать с национальными библиотеками. В июле АИ принял участие в создании International Internet Preservation Consortium[англ.] — группы из 12 национальных библиотек США, согласившихся объединиться для разработки стандартов, инструментов и практик по приобретению, сохранению и созданию доступного знания и информации из интернета. Для достижения этой цели консорциум собирает интернет-контент со всего мира, таким образом, чтобы его можно было заархивировать и защитить, а также содействует разработке и использованию общих инструментов, методов и способов поощрения развития национальных библиотек. В этом же году «Архив Интернета» запустил Heritrix[англ.] — веб-краулер с открытым исходным кодом на основе Java, который впоследствии был внедрён многими учреждениями по всему миру[13][34].

В 2004 году «Архив Интернета» начал перенос данных на оборудование третьего поколения — PetaBox[англ.]. PetaBox основан на операционной системе Linux и представляет RAID-хранилище по цене примерно $2000 за терабайт или $2 млн за петабайт. Первым новое оборудование установили в Амстердамском отделении «Архива» — EU Web archive, которое собирает документы в странах Европейского союза и также служит зеркалом основной коллекции[13][34][35].

«Архив Интернета» ставит перед собой цель предоставить универсальный доступ ко всему человеческому знанию и стать масштабной интернет-библиотекой. В июне 2007 года штат Калифорния присвоил «Архиву Интернета» статус библиотеки, таким образом сделав его доступным для федерального финансирования и включив его в сеть организаций, занимающихся сохранением открытого доступа к информации[7][36].

В начале 2000-х годов руководство Архива выкупило старую христианскую церковь в Сан-Франциско и переоборудовало её под библиотеку[7]. На 2009-й в организации было задействовано меньше пяти сотрудников, занятых эксплуатацией и техническим обслуживанием сайтов[36].

2010—2020-е

править

К 2012 году коллекция «Архива» увеличилась до 10 петабайт, с более чем 1,5 млн аудиофайлов и более миллиона видео в открытом доступе[37]. Уже к 2014-му «Архив» обслуживал от двух до трёх млн посетителей в день, а коллекция составляла более 7 млн текстов, 2,1 млн аудиозаписей и 1,8 млн видео[38]. В 2016 году «Архив» отпраздновал 20-летие со дня основания. К этому моменту в коллекции архива было 370 млн веб-сайтов и 273 млрд веб-страниц[39].

В 2013 году в офисе «Архива» произошёл пожар, уничтоживший часть оборудования, однако коллекция не пострадала[40]. В этом же году, в ответ на разоблачения Эдварда Сноудена Агентства национальной безопасности, «Архив Интернета» ввёл шифрование веб-трафика читателей[41].

После победы Дональда Трампа на президентских выборах США 2016 года «Архив» принял решение создать копию своей коллекции в Канаде на тот случай, если Трамп решит ужесточить закон о цензуре или закон о клевете — Брюстер Кейл в своём блоге призвал сторонников финансово помочь в закупке необходимого оборудования, поскольку переезд будет стоить несколько миллионов долларов[42].

В 2019 году Google заявил, что вскоре удалит информацию закрывшейся социальной сети Google+, однако «Архив Интернета» и Archive Team подписали соглашение о сохранении публичных постов на своих платформах[43] — только за первые четыре недели архивации было собрано 1,56 петабайта данных[44].

В 2018—2019 годах «Архив» осуществил ряд совместных проектов с Википедией. В 2018 году «Архив» заменил ряд мёртвых ссылок в энциклопедии на те, которые уже были архивированы в Wayback Machine — специальный бот вычислял мёртвые ссылки, впоследствии копируя и обновляя их, ссылаясь на архивированные копии. За первый год проекта было восстановлена работоспособность 9 млн ссылок[45]. В 2019 году «Архив» инициировал проект по улучшению работы Википедии — портал предоставлял предпросмотр книг, на которые ссылались в статьях. Для этого пользователи могли кликнуть на название книги и посмотреть двухстраничный материал. В первый год существования сервиса «Архив» превратил 130 000 ссылок в статьях энциклопедии в прямые ссылки на 50 000 книг, которые организация отсканировала и сделала доступными для широкой публики. В конечном итоге АИ надеется позволить пользователям просматривать и брать взаймы все книги, цитируемые Википедией[46]. Чтобы сервис корректно отображал книгу, редакторам энциклопедии необходимо правильно оформлять сноски, с указанием номеров страниц[47][48].

В 2020 году «Архив Интернета» запустил кооперацию с Brave — теперь браузер может автоматически определять недоступность веб-страницы и взамен предлагать резервную копию через сервис Wayback Machine. Функция доступна для ошибок: 404, 408, 410, 451, 500, 502, 503, 504, 509, 520, 521, 523, 524, 525 и 526[49]. В этом же году была объявлена кооперация с компанией Cloudflare, предлагающей функцию Always On, которая кэширует статические версии сайтов. Партнёрство позволило Wayback Machine находить ещё больше веб-сайтов для сканирования[50].

Пандемия COVID-19 и борьба с дезинформацией

править

«Архив Интернета» активно выступает за борьбу с дезинформацией. В 2019 году организация вместе с Public Knowledge[англ.], Фондом Викимедиа, Samuelson Law, Technology and Public Policy Clinic провели конференцию для обмена опытом по практикам борьбы с заведомо ложной информацией[51]. С началом пандемии COVID-19 в марте 2020 года сторонники конспиративных теорий использовали сохранённые порталом скриншоты для распространения ложной информации о коронавирусе[52]. Например, в Medium была опубликована статья, в которой утверждалось, что от COVID-19 в Китае скончалось 21 млн человек. После того как эту статью начали широко распространять в Facebook, социальная сеть заблокировала ссылку. Однако статья сохранилась в «Архиве» и пользователи начали распространять её через Wayback Machine[53]. В качестве контрмер в ноябре 2020 года «Архив Интернета» внедрил в Wayback Machine инструменты проверки информации на достоверность. При открытии заархивированной версии сайта Wayback Machine предоставляет пользователям сведения о причине её удаления в виде жёлтого баннера вверху экрана. При наличии подозрений, что веб-страница задействована в кампании по дезинформации, Wayback Machine предоставляет данные об организации, проводившей проверку на достоверность, а также ссылку на её отчёт[54][55][56]. Сервис проверки фактов позволяет пользователям лучше понять причины удаления или изменения определённых страниц в какой-то момент. В число участников проверки фактов, представляемых на Wayback Machine, входят FactCheck.org[англ.], PolitiFact[англ.], Graphika, Stanford Internet Observatory и другие. «Архив Интернета» объяснил причины добавления проверки фактов на эти страницы, заявив: «Мы пытаемся сохранить нашу цифровую историю, но признаём проблемы, связанные с предоставлением доступа к ложной и вводящей в заблуждение информации, поступающей из разных источников»[57].

Хранение

править
 
PetaBox в «Архиве Интернета», 2011 год

Во второй половине 1990-х годов решения для хранения данных были дорогостоящими. Для решения этой проблемы «Архив Интернета» в первом поколении инфраструктуры использовал магнитные ленты. В 2004 году «Архив» разработал недорогую и мощную систему хранения больших объёмов данных — PetaBox, вмещающую один петабайт, или тысячу терабайт данных[7][13]. Для долгосрочного хранения «Архив» использует систему зеркальных сайтов, расположенных в географически отдалённых друг от друга местах[7]. Копии Wayback Machine существуют в Сан-Франциско, Ричмонде, Александрии, Амстердаме. Файлы сохраняются в формате (ARC). Каждый документ формата ARC размером около 100 мб и содержит несколько файлов, полученных во время сканирования. Каждый вложенный элемент содержит метаданных о файле и его поиске: имя файла (его URL), его размер, тип содержимого, дату и время извлечения и название организации, которая его получила[7]. Из ценовых соображений «Архив» хранит данные на дисках ATA, расположенных в pizza box form factor[англ.], вмещающих четыре диска, из которых один является загрузочным диском ОС Linux, а другие хранят данные, настроенные под JBOD. В каждой стойке действуют 40 узлов хранения. В конце 2000-х только кластер Сан-Франциско вмещал около 36 стоек[58][59].

Веб-архивирование

править
 
Сообщение о том, что поисковый робот сервиса Wayback Machine не может сканировать сайт и сохранить материалы сайта в Архиве Интернета из-за содержимого файла robots.txt, запрещающего сканирование.

Коллекция Архива состоит из множества подколлекций, созданных различными организациями, каждая из которых имеет разный подход к веб-архивированию. Некоторые данные напрямую управляются «Архивом», а другие — многочисленными партнёрами организации[60]. Первые годы основным источником получения регулярных данных был веб-краулер Alexa Internet. Однако с увеличением объёма обрабатываемого трафика руководство НКО осознало необходимость внедрения масштабного и легко настраиваемого поискового робота. Но существовавшие на рынке программы не обладали достаточной мощностью и возможностями для широкого и глубокого сканирования интернета. Принципиальным моментом была открытость программного обеспечения, что способствовало бы развитию кооперации между учреждениями, заинтересованными в архивировании интернета. В первой половине 2003 года «Архив» начал работу над разработкой нового поискового робота с открытым исходным кодом под названием Heritrix[англ.]. Краулер был написан на основе Java, в его разработке принимали участие Международный консорциум по сохранению Интернета и другие партнёрские библиотеки и учреждения. К Heritrix выдвигались те же требования, что и к краулеру Alexa Internet — робот должен подчиняться всем инструкциям по сканированию, заложенным в файл robots.txt сайта, и избегать агрессивного архивирования, которое может затруднить работу портала. Помимо этого, все захваченные сканером файлы должны объединяться в более крупные файлы для простоты управления и доступа. Сканер начинает фиксировать страницы, начиная с уже известных URL-адресов и далее передвигается по ссылкам внутри каждого сайта[7][34]. Робот анализирует и переходит по встроенным ссылкам и затем добавляет все URL-адреса в список файлов для извлечения. Затем он повторяет этот процесс со следующими ссылками и проверяет, чтобы все сохранённые сайты были «захвачены»[7]. Heritrix обладает рядом ограничений — он не может сканировать глубокую сеть или какие-либо материалы в базах данных или на страницах, требующих аутентификацию для доступа. Робот также не будет сканировать защищённые паролем сайты и будет подчиняться исключениям, описанным в robot.txt. Также сканирование с большими трудностями обрабатывает элементы JavaScript, потоковое мультимедиа, карты изображений[61].

Alexa Internet использует собственные алгоритмы для сканирования сети, чаще всего анализируя сайты по статистике посещения и количеству ведущих на них ссылок. Поэтому если пользователи хотят отдельно сохранить собственный сайт, они могут сохранить страницу через специальную панель инструментов, внедрённую в Alexa. Начиная с 2010 года «Архив Интернета» выполняет Worldwide Web Crawling по глобальной сети, собирая веб-элементы, страницы, сайты и части сайтов по всему интернету. С марта по декабрь 2011 года Worldwide Web Crawling захватил 2,7 млрд снимков и 2,3 млрд уникальных URL-адресов с 29 млн веб-сайтами[60]. Каждое сканирование начинается со списка определённых URL-адресов, известных как «списки исходных адресов», а также подчиняется отдельному алгоритму, которое определяет глубину сканирования. Большинство сайтов будет захвачено только один раз, однако, отдельные порталы (такие, как новостные сайты) могут быть заархивированы чаще за счёт других обходов[60].

В 2013 году «Архив Интернета» совместно с Википедией и WordPress инициировал программу Archive No More 404, постоянно мониторящую порталы на предмет мёртвых ссылок. Впоследствии к программе присоединился GDELT[англ.][62]. В рамках этого проекта в 2016 году «Архив» вместе с Mozilla Firefox создал плагин, позволяющий пользователям просматривать «мёртвые» страницы, если они были заархивированы[63]. Подобное сотрудничество значительно расширило коллекцию статьями и материалами о текущих событиях. Также в «Архиве» сохраняются данные о веб-страницах, отсканированных Фондом Альфреда Слоуна и Alexa, NARA и Internet Memory Foundation[англ.], реестрами DNS, содержащими более 2,5 млрд записей с 2013 года. Также многие специализированные архивы сохраняют в коллекцию «Архива Интернета» окончательные скриншоты своих страниц. Например, к ним относят GeoCities и Wretch[60].

Обходы могут быть нацелены как на единовременный «захват» сайта, чтобы гарантировать сохранение хотя бы одной копии портала, так и предназначаться для частого повторного сканирования небольшого подмножества выбранных вручную сайтов с регулярным интервалом — частота сканирования напрямую зависит от того, насколько популярен сайт[60].

Wayback Machine

править

Wayback Machine является бесплатным онлайн-сервисом, обеспечивающим доступ к веб-архивам «Архива Интернета». Сервис стал доступен для общественности только в 2001 году. За первые 20 лет существования Wayback Machine каталогизировал и сохранил коллекцию из более чем 286 млрд веб-сайтов. Архивные снимки поддерживают страницы с HTML, JavaScript и CSS[64]. Через Wayback Machine пользователи могут отслеживать изменения сайтов и сравнивать разные версии правок[65]. На май 2022 года Wayback Machine предоставлял доступ к более чем 682 млрд сохранённых веб-страниц[5][66]. В 2017 году «Архив Интернета» представил модернизированную версию Wayback Machine[67]. С технической точки зрения программное обеспечение Wayback Machine не является архивом, а скорее общедоступным интерфейсом к ограниченному подмножеству всех хранилищ[25]. Функционирование платформы осуществляется за счёт веб-краулеров и пользователей, добавляющих собственные сайты[64][68][69][70][71] через ввод URL интересующего портала[72][25][36][73].

Любой пользователь может сохранить URL-адреса для архивирования, а с бесплатной учётной записью в архиве можно создать и заархивировать любые исходящие или внешние ссылки на исходной странице[74][74]. Согласно исследованию 2014 года, большинство пользователей «Архива» заходят на Wayback Machine в поисках англоязычных материалов, которые не могут найти в «живом» сегменте интернета[75].

В 2006 году «Архив» представил сервис под названием Archive It — службу веб-архивирования, помогающую организациям и частным лицам собирать, создавать и сохранять собственные коллекции цифровых данных. Archive It предоставляет возможности для веб-сканирования сайтов, организацию и управление данными, техническими отчётами для мониторинга краулинга, интерфейс для ввода метаданных сайта и полнотекстовый поиск. Служба работает на программном обеспечении с открытым исходным кодом Heritrix[61][76].

Весь контент размещён в дата-центрах «Архива Интернета». Для пользователей доступны более 200 коллекций, связанных с историей, культурой, наукой, правами человека и другими общественно важными темами[66][76][60].

Human Rights Web Archive

править

Human Rights Web Archive (HRWA) — это коллекция архивных копий веб-сайтов более 600 неправительственных организаций, национальных институтов по правам человека и блогов, так или иначе освещающих тему прав человека. HRWA была собрана различными неправительственными организациями, национальными правозащитными учреждениями и отдельными лицами. Создание HRWA было инициировано библиотеками и информационными службами Колумбийского университета и его Центра документации и исследований в области прав человека (CHRDR) при поддержке Фонда[англ.] Эндрю У. Меллона. Сбор данных начался в 2008 году, идентификацией необходимых порталов занимались специалисты в области прав человека из различных регионов мира. По состоянию на 2022-й коллекция регулярно обновлялась. Сайты межправительственных организаций, такие как ООН, не были включены в сборник. Коллекция включает более 711 веб-сайтов, из которых более 50 млн доступны для поиска[66]. Сбор данных начался с пилотного проекта в 2008 году, веб-сайты сканировались ежеквартально с помощью службы Archive It[77]. Копии коллекций хранятся в «Архиве Интернета» и Библиотеке Колумбийского университета. На 2022-й HRWA включал более тысячи сайтов и 50 млн документов[66][78].

Захвати Уолл-стрит

править

С началом в 2011 году серии протестов в Нью-Йорке под названием «Захвати Уолл-стрит», призывающих к социальному и экономическому равенству, члены команды Archive It и представители онлайн-сообщества добровольно выявляли и фиксировали все связанные с движением ресурсы. Коллекция включает в себя веб-сайты, блоги, социальные порталы и новостные статьи из традиционных или альтернативных СМИ[66]. Информацию о протестах за пределами Нью-Йорка собирал Roy Rosenzweig Center for History and New Media[англ.] при Университете Джорджа Мейсона[79][80][81].

Книжная коллекция

править
Количество всех текстов
(17 мая, 2022)
34 739 370[82]
Язык Количество текстов
Английский 25 779 040
Французский 740 679
Немецкий 727 010
Нидерландский 722 451
Китайский 568 727
Арабский 475 878
Итальянский 396 364
Испанский 311 750
Японский 154 282
Греческий 144 773
Латинский 136 532
Урду 98 953
Русский 76 979
Португальский 71 961
 
Логотип Open Library, 2020 год

Open Content Alliance

править
 
Процесс сканирования, 2011

В 2005 году «Архив» инициировал создание Open Content Alliance (ОСА) — консорциума организаций и компаний, совместно занимающихся оцифровкой библиотечных фондов и размещением их в открытом доступе. В проекте участвовали, кроме «Архива Интернета», Yahoo, Калифорнийский университет, Торонтский университет, Национальный архив Великобритании и другие[83]. В OCA входил и Microsoft[84], однако в 2008 году компания объявила, что сокращает свои инвестиции в проект по оцифровке книг. При этом Microsoft снял все договорные ограничения на книги, являющиеся общественным достоянием, и позволил «Архиву» оставить себе всё необходимое оборудование[85][86]. Решение Microsoft заставило «Архив» искать новые источники финансирования[87].

На май 2022 года «Архив» предлагал более 35 000 000 книг и текстов в открытом доступе. Существует также коллекция из 2,3 млн современных электронных книг, доступных всем зарегистрированным пользователям[6]. Пользователи могут осуществлять поиск по контенту, виду медиа, году, теме и предметам. На главной странице раздела книги также перечислены коллекции, сортированные по просмотрам, названию, дате публикации и автору. Для создания книжной коллекции «Архив» сотрудничал с более чем 1100 библиотечными учреждениями, такими как Бостонская публичная библиотека, Библиотека Конгресса и другие. В ходе партнёрства были оцифрованы разные типы носителей, в том числе микрофильмы, журналы и серийные публикации, в основном на английском, нидерландском, немецком, французском, арабском, итальянском. В день сканировали около 3 500 книг в 18 местах по всему миру. Книги, изданные более 95 лет назад, доступны для скачивания[88]. Подобный механизм цифрового распространения использует те же технологии защиты, которые издатели используют для своих печатных электронных книг, распространяемых коммерческими предприятиями, такими как OverDrive, Inc.[англ.] и Google Книги[89].

Open Library

править
 
Станция сканирования книг, 2012 год

«Архив Интернета» функционирует как онлайн-библиотека и выдаёт цифровые копии пользователям при условии, что одновременно в обращении находится не более одной цифровой копии книги[26]. В 2006 году был запущен Open Library — онлайн-сервис, позволяющий пользователям читать электронные копии книг в соответствии с «контролируемой цифровой выдачей» (или CDL), ограничивающим количество одновременных заимствований одного отсканированного изображения. «Архив Интернета» обходит традиционные формы лицензионных ограничений — копии снимаются с физических копий, а не приобретаются в цифровой форме, поэтому проект никогда не заключает лицензионное соглашение с издателем[90].

Количество текстов по десятилетиям
XIX век
Десятилетие Количество текстов[91]
(Май 17, 2022)
1800-е 90 206
1810-е 111 212
1820-е 177 361
1830-е 230 717
1840-е 269 639
1850-е 333 956
1860-е 352 204
1870-е 377 678
1880-е 496 878
1890-е 632 531
XX век
Десятилетие Количество текстов
(Май 17, 2022)
1900-е 836 646
1910-е 849 519
1920-е 623 578
1930-е 557 552
1940-е 631 979
1950-е 671 795
1960-е 806 789
1970-е 2 672 101
1980-е 1 320 636
1990-е 1 645 563
XXI век
Десятилетие Количество текстов
(Май 17, 2022)
2000-е 2 033 226
2010-е 3 543 643
Количество аудиофайлов
(Май 17, 2022)
14 099 859[92]
Количество изображений
(Май 17, 2022)
4 301 137[93]
Количество видеофайлов
(Май 17, 2022)
7 930 236[94]
 
Видеокассеты и VCR, 2013 год
 
Микрофильмы из коллекции «Архива», 2011 год

В 2017 году «Архив» инициировал проект The Great 78 Project, посвящённый сохранению тысяч виниловых пластинок, работающих со скоростью 78 об/мин, некоторые из которых были сделаны в начале 1900-х. Помимо «Архива», в проекте принимают участие ARChive of Contemporary Music[англ.] и George Blood Audio. The Great 78 Project ставит перед собой цель найти, очистить, оцифровать и архивировать около тысячи записей со старых проигрывателей в день[95]. Для этого каждая пластинка очищается на специальной машине, которая распыляет на её поверхность дистиллированную воду. Впоследствии небольшой пылесос всасывает воду вместе с грязью, накопившейся в пластинках за эти годы. Затем диски фотографируют и на основе этих фотографий изготавливают этикетки для добавления в общую базу данных архива. Большая часть всех обработанных записей принадлежит крупным звукозаписывающим компаниям, таким как Columbia Records, RCA Records и Capitol Studios, однако в коллекцию вошли и около 1700 других лейблов[96]. Только за первый год работы было размещено около 50 000 оцифрованных дисков. В рамках проекта «Архив Интернета» планирует оцифровать более 200 000 физических записей, большинство из которых относится к 1950-м годам и ранее[97].

Значительную часть аудиоколлекции «Архива Интернета» составляет Live Music Archive — коллекция более чем 220 000 концертных записей, сжатых без потерь. Часть этой коллекции досталась от музыкального сообщества etree[англ.], распространяющего записи живых концертов[98]. «Архив» содержит записи живых выступлений различных артистов, включая Grateful Dead, Джона Мейера, Эллиотта Смита, The Smashing Pumpkins[99].

На 2022 год фото коллекция «Архива» состояла из 4,3 млн изображений[100]. Одной из крупнейших подколлекций являются полученные с 2007-го в сотрудничестве с NASA. Организации совместно сканировали и архивировали фотографии, исторические фильмы и видео из архива агентства. Благодаря этому партнёрству коллекции доступны в едином архиве снимков NASA на сайте «Архива»[101].

В 2014 году исследователь Kalev Leetaru[англ.] из Университета Джорджа Вашингтона выгрузил 2,6 млн фотографий из находящихся в открытом доступе книг из «Архива». Впоследствии он добавил все изображения на сервис Flickr, заранее добавив тэги ко всем картинкам, чтобы пользователям был доступен поиск по материалам[102].

Видео и игры

править

Видеоколлекция «Архива» состоит из множества подколлекций, включая более 3 млн часов записанных новостных телетрансляций[39]. Проект по записи и хранению новостных репортажей был инициирован Philly Political Media Watch Project — программой, созданной Sunlight Foundation[англ.], Philadelphia City Council[англ.], Консорциумом лингвистических данных при Пенсильванском университете и Центром общественных исследований и обслуживания Делавэрского университета. Благодаря проекту на сайте «Архива» доступны сотни тысяч новостных репортажей и сохранённых политических реклам[38].

В 2019 году «Архив» пополнил коллекцию 2,5 тысячами старых игр, написанных под систему DOS. Это произошло по результатам проекта eXoDOS, в рамках которого старые игры анализировались и оптимизировались для работы на современных компьютерах[103]. В 2021 году компания Adobe заявила о прекращении работы Flash Player. В ответ «Архив» опубликовал на сайте коллекцию из несколько сотен игр и флеш-анимации[англ.]*[104][105].

Операционные системы

править

В 2016 году «Архив Интернета» опубликовал крупную коллекцию программ для семейства операционных систем Windows 3.x. Всего в разделе The Windows 3.x Showcase размещено 1523 программы, работа которых возможна благодаря встроенному эмулятору Windows 3.1 на JavaScript. Помимо этого в коллекцию входят программы, игры и демонстрационная версия Windows 95. Для защищённых авторским правом файлов сотрудники «Архива» опубликовали бесплатные аналоги[106].

Авторское право

править

Контролируемая цифровая выдача

править

Для предоставления доступа к книжным работам через сервис Open Library руководство «Архива» следует принципам контролируемой цифровой выдачи — интерпретации закона об авторском праве, согласно которому библиотеки могут одалживать оцифрованные печатные книги по тому же принципу, что и печатные — количество выданных цифровых изданий должно соответствовать тем копиям, которыми владеет библиотека. «Архив» приобретает все книги из своей коллекции, либо в печатном, либо в электронном виде. Затем он сканирует их для создания собственных цифровых файлов, которые впоследствии делает доступным для читателей. Поэтому проект никогда не заключает лицензионное соглашение с издателем. Все выдаваемые онлайн-файлы имеют встроенный код, благодаря которому доступ к работе может получить только один пользователь через электронную очередь. Подобная модель позволяет библиотекам делать свои книги доступными в цифровом виде, но также позволяет издателям и авторам расширений получать оплату за свою работу без потери продаж. Когда печатная библиотечная книга очень популярна, библиотеки, как правило, покупают больше экземпляров. Читатели не имеют права на копирование или распространение материалов. Таким образом система CDL позволяет обходить часть ограничений, заложенных в законодательство по авторскому праву[107][90][108].

Веб-архивирование

править

«Архив» удаляет данные из Wayback Machine по просьбам правообладателей, которые могут доказать авторские права, предоставить описание материала, контактные данные заявителя и подписанное заявление[109][26].

Влияние

править

Деятельность «Архива Интернета» оказала существенное влияние на развитие практик веб-архивирования по всему миру. По примеру АИ было создано множество масштабных программ и порталов веб-архивирования, часто — национальных. Одними из первых начали сохранять онлайн-контент крупные международные библиотеки — Библиотека Конгресса, Национальная библиотека Австралии, Национальная библиотека Швеции, Национальная библиотека Норвегии и Национальная библиотека Новой Зеландии[110]. В 2013 году стартовал проект EU web archive, занимающийся сканированием и архивированием веб-сайтов Европейского союза для сохранения европейского веб-контента в долгосрочной перспективе и в открытом доступе[35]. В 2000 году Чехия инициировала проект Webarchiv[англ.] по веб-архивации национальных сайтов[111]. Позже аналогичные инициативы были реализованы в Хорватии[110], Венгрии[112], Ирландии[113], Бельгии и других странах[114]. В большинстве случаев архивирование осуществлялось созданным «Архивом» веб-краулером Heritrix[7]. Также «Архив Интернета» предоставляет бо́льшую часть техники, которая используется другими учреждениями для создания приложений по архивированию[7].

Коллекции «Архива» часто используют исследователи из различных областей науки. Так, данные анализируют на предмет изменений лингвистических и социальных практик[115], поведения компаний, стратегий продаж[24][116]. Помимо этого, учёные могут использовать архивированные материалы для установления права на открытие или публикацию[117], а также чтобы получить доступ к журналам открытого доступа — согласно исследованиям 2020 года, с начала 2000-х из интернета исчезло 84 журнала ОД по естественным наукам и ещё около 100 — по социальным и гуманитарным[118][119][120].

Правовые споры и блокировки

править

Церковь Саентологии

править

В 2002 году юристы Церкви Саентологии потребовали от «Архива Интернета» удалить из Wayback Machine архивные копии страницы портала Xenu.net, принадлежащего критику церкви Андреасу Хельдал-Лунду. Причиной послужило наличие выдержек из документов Церкви на портале Хельдала-Лунду. Однако в ответ «Архив» удалил не только страницы сайта с выдержками, но и закрыл доступ к всему порталу Xenu.net. Решение «Архива» вызвала масштабные публичные споры об этике и свободе слова[121][122].

National Emergency Library

править

Из-за пандемии COVID-19 и вынужденной изоляции многих людей в 2020 году «Архив» запустил временную службу «Национальная библиотека на случай чрезвычайных ситуаций», выложив в открытый доступ копии 1,4 млн книг для тех людей, которые не могли попасть в библиотеки. В отличие от традиционной работы сервиса Open Library, пользователи Библиотеки на случай чрезвычайных ситуаций могли одолжить тексты без очереди[123]. В ответ американское объединение авторов Authors Guild[англ.] выпустило открытое письмо, в котором обвинило организацию в «фактическом воровстве»[124] — проект нарушил ряд положений CDL, разрешив более чем одному пользователю доступ к текстам. В ответ на нарушения на «Архив Интернета» четыре коммерческих издательства — Hachette, Penguin Random House, Wiley — подали иск, обвинив портал в пиратстве[125]. По этой причине «Архив Интернета» завершил свою программу раньше, чем планировалось, − 16 июня 2020 года, вместо 30 июня[26][126][127][107]. Иск был направлен на запрет функционирования Open Library как схемы, которая оцифровывает и выдаёт охраняемые авторским правом работы[26][90][128].

25 марта 2023 года суд признал виновным «Архив Интернета» в нарушении авторских прав четырёх издателей. По мнению суда, организация должна была получить разрешение на распространение литературы у правообладателей книг. «Архив Интернета» заявил о решении подать апелляцию[129][130][131][132].

4 сентября 2024 года Апелляционный суд США по второму округу оставил в силе решение окружного суда, назвав аргумент Internet Archive о том, что они были защищены доктриной добросовестного использования, «неубедительным». [133]

Страны СНГ

В 2014 году Роскомнадзор внёс «Архив Интернета» в реестр запрещённых сайтов за наличие копии документального фильма «Звон мечей», выпущенного Исламским государством[134]. Через год Прокуратура Российской Федерации вынесла решение о блокировке сайта «Архива Интернета» на основании статьи 15.3 закона «Об информации, информационных технологиях и о защите информации». Причиной для блокировки портала послужила архивированная статья «Одиночный джихад в России», которая, согласно прокуратуре, содержала призывы к массовым беспорядкам и осуществлению экстремистской деятельности[135][136]. После удаления ресурсом всех ссылок на запрещённые в России сайты доступ к порталу был восстановлен[137].

В 2015 году портал «Архив Интернета» попал в список нежелательных сайтов, заблокированных в Казахстане[138].

6 июня 2017 года Октябрьский суд Бишкека заблокировал сайт в Кыргызстане из-за материалов «экстремистского содержания»[139].

В 2019 году Ассоциация по защите авторских прав в интернете (АЗАПИ) выступила за блокировку «Архива Интернета» в России. Причиной для этого послужило присутствие в коллекции библиотеки копий аудиокниг российских писателей — Дмитрия Глуховского и Дарьи Донцовой. Иск по делу был подан 13 марта 2019 года, рассмотрение Мосгорсудом состоялось 13 мая 2019 года в экстренном порядке. Согласно решению суда «Архиву Интернета» запретили создавать технические условия для размещения аудиокниг[140].

12 мая 2022 года Роскомнадзор подал иск против «Архива Интернета» по статье 13.41 КоАП РФ («Неудаление информации, признанной в РФ запрещённой»)[141][142]. Причиной стало архивированное сервисом видео, в котором показывалось как изготовить коктейль Молотова. Судебное заседание прошло 28 июня 2022 года, по его результатам «Архив Интернета» оштрафовали на 800 тысяч рублей[143].

В 2022 году общественный фонд «Digital Paradigm» совместно с юридической фирмой Digital Rights Center Qazaqstan провёл успешную работу по разблокировке доступа к сайту «Архив Интернета» в Казахстане. Министерство информации и общественного развития Республики Казахстан внесло более 30 URL-ссылок в реестр запрещённых интернет-ресурсов, что привело к блокировке всего сайта, поскольку доступ к нему осуществляется через HTTPS. Запрет был наложен как самим Министерством, так и судами Есильского района города Астаны и Алатауского района. Благодаря активным переговорам с Министерством и администраторами «Архива Интернета», был достигнут компромисс, и доступ к сайту был восстановлен [144] для всех пользователей в Казахстане.

Турция

9 октября 2016 года «Архив» был временно заблокирован в Турции после того, как он был использован хакерами для размещения 17 ГБ правительственных электронных писем[145].

Индия

В 2017 году сайт сервиса WayBackMachine был заблокирован в Индии по решению суда Мадраса в ответ на иск болливудских правообладателей, указавших на наличие на портале нескольких тысяч ссылок на пиратские копии фильмов[146]. После блокировки индийское правительство обвинили в цензуре[147][148].

См. также

править

Примечания

править
  1. Internet Archive: Bios (англ.)
  2. 1 2 3 https://projects.propublica.org/nonprofits/organizations/943242767/202233199349312193/full
  3. https://www.youtube.com/watch?v=8YYJPtCXf4I
  4. Global Research Identifier Database (англ.) — 2015.
  5. 1 2 Wayback Machine. Wayback Machine. Дата обращения: 7 июня 2021.
  6. 1 2 eBooks and Texts. Internet Archive. Дата обращения: 16 мая 2022.
  7. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Rackley, 2010, с. 2966—2976.
  8. Joel Khalili. The story of the fight to archive the internet (англ.). TechRadar. Дата обращения: 23 декабря 2021. Архивировано 22 декабря 2021 года.
  9. 1 2 Recode Staff. Full transcript: Internet Archive founder Brewster Kahle on Recode Decode. Vox. Recode (8 марта 2017). Дата обращения: 12 июня 2021. Архивировано 2 июня 2021 года.
  10. Brewster Kahle. Harvard University. Дата обращения: 12 июня 2021. Архивировано 25 октября 2021 года.
  11. Timeline. Internet. Hall of Fame. Дата обращения: 12 июня 2021. Архивировано 21 июня 2021 года.
  12. Quentin Hardy. The Big Deal: Brewster Kahle. Forbes (27 ноября 2009). Дата обращения: 12 июня 2021. Архивировано 25 октября 2021 года.
  13. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Kimpton, 2006.
  14. Brewster Kahle, 2008, с. 265—280.
  15. Kara Swisher. Ideas of Web's 'Librarian' Pave a Path to a Fortune. The Wall Street Journal (20 мая 1999). Дата обращения: 12 июня 2021. Архивировано 25 октября 2021 года.
  16. Carolyn Said. Archiving the Internet / Brewster Kahle makes digital snapshots of Web. SF Gate (7 мая 1998). Дата обращения: 12 июня 2021. Архивировано 2 апреля 2019 года.
  17. Mitchell Clark. New research shows how many important links on the web get lost to time. The Verge (21 мая 2021). Дата обращения: 13 июня 2021. Архивировано 20 июня 2021 года.
  18. Цифра дня: Сколько интернет-ссылок с 1998 года уже «мертвы»? Ferra (22 мая 2021). Дата обращения: 13 июня 2021. Архивировано 22 мая 2021 года.
  19. Barbara Quint. A "Gift of the Web' for the Library of Congress from Alexa Internet. Information Today (19 октября 1998). Дата обращения: 13 июня 2021. Архивировано 31 марта 2019 года.
  20. John Alderman. Alexa's Gift to the Government. Wired (14 октября 1998). Дата обращения: 12 июня 2021. Архивировано 25 октября 2021 года.
  21. David BankStaff. Microsoft Releases New Browser, Announces Deal With RealNetworks. The Wall Street Journal (17 марта 1999). Дата обращения: 13 июня 2021. Архивировано 19 мая 2021 года.
  22. Jon Christian. Why does Amazon have two completely different products called Alexa? The Outline (июнь 2017). Дата обращения: 13 июня 2021. Архивировано 1 июня 2021 года.
  23. Rick Prelinger. Creative Commons (1 октября 2005). Дата обращения: 13 июня 2021. Архивировано 24 ноября 2020 года.
  24. 1 2 Arora, 2015.
  25. 1 2 3 Bowyer, 2021, с. 43—57.
  26. 1 2 3 4 5 Aja Romano. A lawsuit is threatening the Internet Archive — but it’s not as dire as you may have heard. Vox (23 января 2020). Дата обращения: 12 июня 2021. Архивировано 18 августа 2021 года.
  27. The events of September 11th, 2001 affected the entire world. Internet Archive. Дата обращения: 13 июня 2021.
  28. Lucas Mearian. Online archive chronicles 3,000 hours of 9/11 TV coverage. Computer world (10 сентября 2011). Дата обращения: 13 июня 2021. Архивировано 25 октября 2021 года.
  29. Bibliotheca Alexandrina. Internet Archive. Дата обращения: 13 июня 2021.
  30. Alexandria 2.0: One Millionaire's Quest to Build the Biggest Library on Earth. Wired (20 августа 2012). Дата обращения: 13 июня 2021. Архивировано 7 марта 2021 года.
  31. Савицкая, 2019, с. 67—76.
  32. Witten, 2007, с. 29—59.
  33. Steve Cisler. Letter from San Francisco. The Internet Bookmobile. Journal of the Internet. Дата обращения: 13 июня 2021. Архивировано 25 октября 2021 года.
  34. 1 2 3 Mohr, 2004.
  35. 1 2 EU web archive. Publications Office of the European Union. Дата обращения: 17 июня 2021. Архивировано 19 июня 2021 года.
  36. 1 2 3 Jaffe, 2009.
  37. Aaron Souppouris. The Internet Archive is now home to 10 petabytes of data. The Verge (27 октября 2012). Дата обращения: 12 июня 2021. Архивировано 11 апреля 2021 года.
  38. 1 2 David Streitfeld. The Internet Archive, Trying to Encompass All Creation. New York Times (31 октября 2014). Дата обращения: 13 июня 2021. Архивировано 10 мая 2021 года.
  39. 1 2 Benny Evangelista. Internet Archive, repository of modern culture, turns 20. San Francisco Chronicle (28 октября 2016). Дата обращения: 12 июня 2021. Архивировано 20 мая 2021 года.
  40. Kurtis Alexander. Internet Archive's S.F. office damaged in fire. SF gate (6 ноября 2013). Дата обращения: 13 июня 2021. Архивировано 15 мая 2021 года.
  41. David Streitfeld. Internet Archive Will Shield Visitors. New York Times (24 октября 2013). Дата обращения: 13 июня 2021. Архивировано 26 октября 2021 года.
  42. Крупнейший в мире архив интернета бежит из США из-за Трампа. C News (30 ноября 2016). Дата обращения: 11 июня 2021. Архивировано 15 апреля 2021 года.
  43. Andrew Liptak. The Internet Archive is working to preserve public Google+ posts before it shuts down. The Verge (17 марта 2019). Дата обращения: 12 июня 2021. Архивировано 29 августа 2021 года.
  44. Mark Hill. Meet The Activist Archivists Saving The Internet From The Digital Dustbin. Discover (13 мая 2021). Дата обращения: 13 июня 2021. Архивировано 8 июня 2021 года.
  45. Wikipedia's broken links fixed by the Internet Archive. BBC News (3 октября 2018). Дата обращения: 13 июня 2021. Архивировано 9 июля 2021 года.
  46. Klint Finley. The Internet Archive Is Making Wikipedia More Reliable. Wired (11 марта 2019). Дата обращения: 13 июня 2021. Архивировано 24 ноября 2019 года.
  47. Jon Porter. The Internet Archive is adding digital previews of book sources to Wikipedia articles. The Verge (4 ноября 2019). Дата обращения: 12 июня 2021. Архивировано 25 февраля 2021 года.
  48. Adam Smith. The Internet Archive is linking digital books to Wikipedia citations. PC Mag (4 ноября 2019). Дата обращения: 13 июня 2021. Архивировано 7 марта 2021 года.
  49. Jon Porter. Brave browser now automatically points to Wayback Machine on 404. The Verge (26 февраля 2020). Дата обращения: 12 июня 2021. Архивировано 22 июня 2021 года.
  50. Lily Hay Newman. The Wayback Machine and Cloudflare Want to Backstop the Web. Wired (17 сентября 2020). Дата обращения: 13 июня 2021. Архивировано 18 мая 2021 года.
  51. Lila Bailey. Fighting Misinformation Online. Internet Archive Blogs (30 октября 2019). Дата обращения: 13 июня 2021.
  52. Acker, 2020.
  53. Elizabeth Dwoskin. Misinformation about coronavirus finds new avenues on unexpected sites. Washington Post (20 июня 2020). Дата обращения: 13 июня 2021. Архивировано 16 июня 2021 года.
  54. Wayback Machine теперь проверяет информацию на достоверность для архивных веб-страниц. Trash Box (2 ноября 2020). Дата обращения: 5 июня 2021. Архивировано 28 июня 2021 года.
  55. Adi Robertson. The Internet Archive is warning users about debunked ‘zombie’ coronavirus misinformation. The Verge (12 мая 2020). Дата обращения: 12 июня 2021. Архивировано 20 мая 2021 года.
  56. J. Fingas. Internet Archive adds fact checks to explain web page takedowns. Engadget (1 ноября 2020). Дата обращения: 13 июня 2021. Архивировано 23 июля 2021 года.
  57. Victor Barreiro. Internet Archive adds fact checks to pages on Wayback Machine. Rappler (2 ноября 2020). Дата обращения: 13 июня 2021. Архивировано 26 октября 2021 года.
  58. Schwarz, 2006.
  59. Toyoda, 2012, с. 1441—1443.
  60. 1 2 3 4 5 6 Kalev Leetaru. The Internet Archive Turns 20: A Behind The Scenes Look At Archiving The Web. Forbes (11 июня 2021). Дата обращения: 12 июня 2021. Архивировано 26 октября 2021 года.
  61. 1 2 Simon, 2006.
  62. Archiving the World: GDELT Joins the Internet Archive’s “No More 404” Initiative. GDELT Project. Дата обращения: 20 июня 2021. Архивировано 8 марта 2021 года.
  63. Mark Graham. No More 404s! Resurrect dead web pages with our new Firefox add-on. Archive.org (9 августа 2016). Дата обращения: 20 июня 2021.
  64. 1 2 Lerner, 2017, с. 1741—1755.
  65. Michael Bryant. What is the Wayback Machine and Why is it Useful? Groovy Post (22 апреля 2021). Дата обращения: 29 мая 2021. Архивировано 18 мая 2021 года.
  66. 1 2 3 4 5 Fernando, 2016, с. 109—112.
  67. Chris Welch. The Internet Archive will launch a modernized Wayback Machine in 2017. The Verge (22 октября 2015). Дата обращения: 12 июня 2021. Архивировано 11 апреля 2021 года.
  68. Rogers, 2017, с. 160—172.
  69. Laura Bohannon. Wayback Machine archives websites for over 20 years. Spartan News Room (7 декабря 2017). Дата обращения: 5 июня 2021. Архивировано 24 июня 2021 года.
  70. O'Connor, 2008, с. 64.
  71. Maemura, 2018.
  72. Notess, 2002.
  73. Антон Благовещенский. Вперёд в прошлое. Российская газета (7 марта 2012). Дата обращения: 12 июня 2021. Архивировано 26 октября 2021 года.
  74. 1 2 Mark Graham. Tips for Using the Internet Archive’s Wayback Machine in Your Next Investigation. Global Investigative Journalism Network (5 мая 2021). Дата обращения: 29 мая 2021. Архивировано 29 мая 2021 года.
  75. AlNoamany, 2014.
  76. 1 2 Jones, 2018.
  77. Graham, 2019, с. 103—110.
  78. Human Rights Web Archive-Archived Index. Columbia University Libraries. Дата обращения: 16 мая 2022. Архивировано 11 мая 2021 года.
  79. Jennifer Schuessler. Occupy Wall Street: From the Streets to the Archives. New York Times (2 мая 2012). Дата обращения: 13 июня 2021. Архивировано 28 октября 2021 года.
  80. Occupy Movement 2011/2012. Archive it (ноябрь 2011). Дата обращения: 15 июня 2021. Архивировано 3 июня 2021 года.
  81. Lischer-Katz, 2013.
  82. Search. Internet Archive. Internet Archive. Дата обращения: 17 мая 2022.
  83. Katie Hafner. In Challenge to Google, Yahoo Will Scan Books. The New York Times (3 октября 2005). Дата обращения: 16 июня 2021. Архивировано 1 сентября 2021 года.
  84. Microsoft to Offer Online Book-Content Searches. The New York Times (26 октября 2005). Дата обращения: 16 июня 2021. Архивировано 1 сентября 2021 года.
  85. Books Scanning to be Publicly Funded. Internet Archive. Дата обращения: 15 июня 2021.
  86. Nate Anderson. Why killing Live Book Search is good for the future of books. Ars Technica (26 мая 2008). Дата обращения: 15 июня 2021. Архивировано 1 сентября 2021 года.
  87. Miguel Helft. Microsoft Will Shut Down Book Search Program. The New York Times (24 мая 2008). Дата обращения: 15 июня 2021. Архивировано 12 декабря 2020 года.
  88. Michael Bryant. What is the Internet Archive and What Can I Find on It? G Post (22 апреля 2021). Дата обращения: 15 июня 2021. Архивировано 16 июня 2021 года.
  89. Brewster Kahle. Transforming Our Libraries from Analog to Digital: A 2020 Vision. Educause review (13 марта 2017). Дата обращения: 15 июня 2021. Архивировано 2 августа 2021 года.
  90. 1 2 3 Russell Brandom. Publishers sue Internet Archive over Open Library ebook lending. The Verge (1 июня 2020). Дата обращения: 12 июня 2021. Архивировано 1 июня 2020 года.
  91. Search. Internet Archive. Дата обращения: 16 июня 2021.
  92. Search. Internet Archive. Internet Archive. Дата обращения: 17 мая 2022.
  93. Search. Internet Archive. Internet Archive. Дата обращения: 17 мая 2022.
  94. Search. Internet Archive. Internet Archive. Дата обращения: 17 мая 2022.
  95. Will Pritchard. How The Great 78 Project is saving half a million songs from obscurity. The Vinyl Factory (18 августа 2017). Дата обращения: 16 июня 2021. Архивировано 7 ноября 2017 года.
  96. Kait Sanchez. Here’s how the Internet Archive digitizes 78rpm records. The Verge (26 апреля 2021). Дата обращения: 12 июня 2021. Архивировано 25 мая 2021 года.
  97. Dani Deahl. Over 50,000 digitized pieces of vinyl can now be listened to on Internet Archive. The Verge (12 августа 2017). Дата обращения: 12 июня 2021. Архивировано 12 июля 2021 года.
  98. Jake Coyle. On the Net: Concerts on the Web. Taiwan News. Дата обращения: 16 июня 2021. Архивировано 28 октября 2021 года.
  99. Verge Staff. The Verge’s favorite music streaming services. The Verge (13 апреля 2021). Дата обращения: 16 июня 2021. Архивировано 20 апреля 2021 года.
  100. Images. Internet Archive. Дата обращения: 16 июня 2021.
  101. Bob Jacobs, Paul Hickman. NASA and Internet Archive Team to Digitize Space Imagery. NASA. Дата обращения: 16 июня 2021. Архивировано 28 августа 2021 года.
  102. Leo Kelion. Millions of historical images posted to Flickr. BBC News (29 августа 2014). Дата обращения: 16 июня 2021. Архивировано 5 августа 2021 года.
  103. Василий Парфенов. В «Архиве интернета» появилось 2500 причин установить DOS. Популярная Механика (17 октября 2019). Дата обращения: 12 июня 2021. Архивировано 28 октября 2021 года.
  104. Александр Абрамов. «Архив Интернета» сохранит проекты на базе Flash. SpB IT (23 ноября 2020). Дата обращения: 12 июня 2021. Архивировано 28 января 2021 года.
  105. Ian Carlos Campbell. The Internet Archive is now preserving Flash games and animations. The Verge (19 ноября 2020). Дата обращения: 12 июня 2021. Архивировано 20 ноября 2020 года.
  106. Опубликован архив из 1500 запускаемых в браузере программ для Windows 3.x. N+1 (15 февраля 2016). Дата обращения: 12 июня 2021. Архивировано 28 октября 2021 года.
  107. 1 2 Ojala, 2021.
  108. Constance Grady. Why authors are so angry about the Internet Archive’s Emergency Library. Vox (2 апреля 2020). Дата обращения: 12 июня 2021. Архивировано 4 апреля 2020 года.
  109. Berčič, 2005, с. 17—24.
  110. 1 2 Holub, 2014.
  111. Webarchiv: 20 Years of Web Archiving in the Czech Republic. International Internet Preservation Consortium (8 декабря 2020). Дата обращения: 17 июня 2021. Архивировано 4 июля 2021 года.
  112. From pilot to portal: a year of web archiving in Hungar. International Internet Preservation Consortium (26 июня 2020). Дата обращения: 17 июня 2021. Архивировано 4 июля 2021 года.
  113. National Library of Ireland Collections 2011-2018. Archive It. Дата обращения: 17 июня 2021. Архивировано 2 июля 2021 года.
  114. Brügger, 2019.
  115. Harrison, 2005.
  116. Milligan, 2016.
  117. Pearce, 2009, с. 875.
  118. Jeffrey Brainard. Dozens of scientific journals have vanished from the internet, and no one preserved them. Science (8 сентября 2020). Дата обращения: 1 июня 2021. Архивировано 15 октября 2020 года.
  119. Diana Kwon. More than 100 scientific journals have disappeared from the Internet. Nature (10 сентября 2020). Дата обращения: 1 июня 2021. Архивировано 3 октября 2020 года.
  120. avouner. Десятки научных журналов исчезли из интернета за последние 20 лет и никто их не сохранил. Хабр (10 сентября 2020). Дата обращения: 5 июня 2021. Архивировано 29 октября 2021 года.
  121. Lisa M. Bowman. Net archive silences Scientology critic. CNet (24 сентября 2002). Дата обращения: 10 июня 2021. Архивировано 15 мая 2012 года.
  122. Ernest Miller. Features: Sherman, Set the Wayback Machine for Scientology. LawMeme (24 сентября 2002). Дата обращения: 10 июня 2021. Архивировано 16 ноября 2012 года.
  123. Дмитрий Кинский. «Архив Интернета» выложил в открытый доступ больше миллиона редких книг. Мир Фантастики (3 апреля 2020). Дата обращения: 12 июня 2021. Архивировано 4 ноября 2021 года.
  124. Американские издатели книг подали в суд на Internet Archive. Ведомости (2 июня 2020). Дата обращения: 12 июня 2021. Архивировано 30 июня 2021 года.
  125. Западные книжные издательства сживают со света «машину времени» интернета. CNews (2 июня 2020). Дата обращения: 12 июня 2021. Архивировано 1 сентября 2021 года.
  126. Kim Lyons. The Internet Archive has ended its ‘emergency library’ early. The Verge (14 июня 2020). Дата обращения: 12 июня 2021. Архивировано 9 июля 2021 года.
  127. Elizabeth A. Harris. Publishers Sue Internet Archive Over Free E-Books. New York Times (1 июня 2020). Дата обращения: 13 июня 2021.
  128. Andrew Albanese. Judge Sets Tentative Schedule for Internet Archive Copyright Case. Publishers Weekly (1 сентября 2020). Дата обращения: 18 июня 2021. Архивировано 8 сентября 2020 года.
  129. Anna Lovine. Internet Archive loses first ruling in copyright lawsuit. Mashable (25 марта 2023). Дата обращения: 4 апреля 2023. Архивировано 6 апреля 2023 года.
  130. Paul Hill. Court rules against Internet Archive in favour of book publishers on digital lending. NeoWin (25 марта 2023). Дата обращения: 4 апреля 2023. Архивировано 2 апреля 2023 года.
  131. Jay Peters and Sean Hollister. The Internet Archive has lost its first fight to scan and lend e-books like a library. The Verge (23 мая 2023). Дата обращения: 7 апреля 2023. Архивировано 25 марта 2023 года.
  132. Internet Archive Loses Lawsuit Over E-Book Copyright Infringement. Here’s What to Know. Time (31 марта 2023). Дата обращения: 7 апреля 2023. Архивировано 7 апреля 2023 года.
  133. Kate Knibbs. The Internet Archive Loses Its Appeal of a Major Copyright Case (англ.) // Wired. — ISSN 1059-1028.
  134. Роскомнадзор внёс «архив интернета» в реестр запрещённых сайтов. Meduza (25 октября 2014). Дата обращения: 18 июня 2021. Архивировано 15 июня 2021 года.
  135. Георгий Перемитин. Роскомнадзор заблокировал архив интернета. РБК (25 июня 2015). Дата обращения: 12 июня 2021. Архивировано 21 августа 2021 года.
  136. "Архив интернета" внесли в список запрещённых сайтов. Москва 24 (1 сентября 2015). Дата обращения: 12 июня 2021. Архивировано 27 ноября 2021 года.
  137. Дмитрий Шестоперов, Анастасия Евтушенко. «Архив интернета» снова в сети. Газета.ru (18 апреля 2016). Дата обращения: 13 июня 2021. Архивировано 3 мая 2021 года.
  138. Experts explain reason for websites blocking in Kazakhstan. Kaz Pravda (21 октября 2015). Дата обращения: 18 июня 2021. Архивировано 3 октября 2021 года.
  139. Наталия Козина. Власти Кыргызстана заблокировали «Архив интернета» из-за «экстремистских материалов». Kloop (18 июля 2017). Дата обращения: 12 июня 2021. Архивировано 28 июня 2021 года.
  140. «Архив интернета» могут навечно заблокировать в России. C News (23 августа 2019). Дата обращения: 12 июня 2021. Архивировано 24 июня 2021 года.
  141. В России завели дело против «архива всего интернета». РБК (12 мая 2022). Дата обращения: 13 мая 2022. Архивировано 12 мая 2022 года.
  142. Internet Archive грозит 4 млн рублей штрафа из-за неудаления запрещённого контента. Интерфакс (12 мая 2022). Дата обращения: 17 мая 2022. Архивировано 16 мая 2022 года.
  143. Валерий Романов. Российский суд оштрафовал Архив интернета за коктейль Молотова. газета.ru (29 июня 2022). Дата обращения: 1 июля 2022. Архивировано 1 июля 2022 года.
  144. Архив интернета разблокирован в Казахстане. Internet Freedom. Дата обращения: 9 августа 2024.
  145. Turkey restores access to Google Drive after blocking cloud storage services. Daily News (10 октября 2016). Дата обращения: 18 июня 2021. Архивировано 14 апреля 2021 года.
  146. В Индии заблокировали архив интернета. Nag (16 августа 2017). Дата обращения: 12 июня 2021. Архивировано 29 октября 2021 года.
  147. Colm Gorey. India accused of censorship as Internet Archive is blocked unexpectedly. Silicon Republic (9 августа 2017). Дата обращения: 18 июня 2021. Архивировано 2 марта 2021 года.
  148. Leo Kelion. 'Bollywood blocks the Internet Archive'. BBC. Дата обращения: 18 июня 2021. Архивировано 6 августа 2018 года.

Литература

править
  • Acker, A., & Chaiet, M. The weaponization of web archives: Data craft and COVID-19 publics. // Harvard Kennedy School (HKS) Misinformation Review. — 2020. — doi:10.37016/mr-2020-41.
  • Arora S., Li Y., Youtie J., Shapira P. Using the wayback machine to mine websites in the social sciences: A methodological resource. — 2015. — Т. 67, вып. 8. — С. 1904—1915. — doi:10.1002/asi.23503.
  • AlNoamany Y., AlSum A., Weigle M., Nelson M. Who and what links to the Internet Archive // Int J Digit Libr. — 2014. — Вып. 14. — С. 101—115. — doi:10.1007/s00799-014-0111-5.
  • Berčič B. Protection of Personal Data and Copyrighted Material on the Web: The Cases of Google and Internet Archive // Communications Technology Law. — 2005. — Т. 14, вып. 1. — С. 17—24. — doi:10.1080/1360083042000325283.
  • Bowyer S. The Wayback Machine: notes on a re‑enchantment // Archival Science. — 2021. — Т. 21. — С. 43—57.
  • Fernando Z., Marenzi I., Nejdl W., Kalyani R. ArchiveWeb: Collaboratively Extending and Exploring Web Archive Collections // Research and Advanced Technology for Digital Libraries. — 2016. — С. 107—121.
  • Harrison T. The Internet Archive and Content Analysis // Qualitative Social Research on ICT. — 2005.
  • Graham P. Guest Editorial: Reflections on the Ethics of Web Archiving // Journal of Archival Organization. — 2019. — С. 103—110. — doi:10.1080/15332748.2018.1517589.
  • Jaffe E., Kirkpatrick S. Architecture of The Internet Archive // Proceedings of of SYSTOR 2009: The Israeli Experimental Systems Conference 2009, Haifa, Israel, May 4-6, 2009. — 2009. — doi:10.1145/1534530.1534545.
  • Kahle B. Brewster Kahle. Founder,WAIS, Internet Archive, Alexa Internet // Founders at Work. Stories of Startups' Early Days. — 2008. — С. 265—280.
  • Karolina Holub. Croatian Web Archive: An Overview // Преглед НЦД. — 2014. — Вып. 25. — С. 11—16.
  • Kimpton M., Ubois J. Year-by-Year: From an Archive of the Internet to an Archive on the Internet // Web Archiving. — 2006. — С. 201—212.
  • Lischer-Katz Z. Conceptualizing emergent archival forms: A case study of the occupy wall street “archive” // Association for Information Science & Technology. — 2013. — doi:10.1002/meet.14504901275.
  • Lerner A., Kohno T., Roesner F. Rewriting History: Changing the Archived Web from the Present // Association for Computing Machinery. — 2017. — doi:10.1145/3133956.3134042.
  • Maemura E., Worby N., Milligan I., Becker C. If These Crawls Could Talk: Studying and Documenting Web Archives Provenance // Journal of the association for information science and technology. — 2018. — Т. 69, вып. 10. — С. 1223—1233.
  • Milligan I. Lost in the Infinite Archive: The Promise and Pitfalls of Web Archives // International Journal of Humanities and Arts Computing. — 2016.
  • Mohr G., Stack M.,Ranitovic I.,Avery D., Kimpton M. An Introduction to Heritrix // 4th International Web Archiving Workshop (2004). — 2004.
  • Murphy J., Hashim N., O’Connor P. Take Me Back: Validating the Wayback Machine // Journal of Computer-Mediated Communication. — 2008. — Вып. 13. — С. 60—75.
  • Niels Brügger, Ditte Laursen. The Historical Web and Digital Humanities. The Case of National Web Domain. — Routledge. — 2019. — 206 с. — ISBN 9780367671181.
  • Notess G. The Wayback Machine: The Web's Archive // Online. — 2002. — Т. 26, вып. 2.
  • Ojala M. Controlled Digital Lending: Legal Lending or Piracy? // Information Today. — 2021. — Т. 45, вып. 1.
  • Pearce D., Charlton B. Plagiarism of online material may be proven using the Internet Archive Wayback Machine (archive.org) // Medical Hypothesis. — 2009. — С. 875.
  • Rackley M. Internet Archive // Encyclopedia of Library and Information Sciences. — 2010. — Т. 1, вып. 1. — С. 2966—2976.
  • Rogers R. Doing Web history with the Internet Archive: screencast documentaries // Internet Histories. — 2017. — Т. 1, вып. 1—2. — С. 160—172. — doi:10.1080/24701475.2017.1307542.
  • Simon J. Center for Research Libraries Middle Eastern Political Parties Web Harvesting and other efforts // "International Collections Development Workshop". — 2006.
  • Shawn M. Jones, Michele C. Weigle, Alexander Nwala, Michael L. Nelson. The Many Shapes of Archive-It. Characteristics of Archive-It Collections // ArXiv.org. — 2018.
  • Schwarz T., Baker M., Bassi S., Baumgart B., Flagg W., Ingen C., Joste K., Manasse M., Shah M. Disk Failure Investigations at the Internet Archive // NASA/IEEE Conference on Mass Storage Systems and Technologies. — 2006.
  • Toyoda M., Kitsuregawa M. The History of Web Archiving // Proceedings of the IEEE. — 2012. — Т. 100. — С. 1441—1443.
  • Witten I.,Gori M., Numerico T. Literature and the web // Web Dragons. — 2007. — С. 29—59.
  • Савицкая Т.Е. Проект "Миллион книг" // Библиотековедение. — 2019. — Т. 68, вып. 1. — С. 67—76.

Ссылки

править