Wayback Machine

Wayback Machine

Wayback Machine logo 2010.svg

Владелец::: Архив Интернета

Начало работы::: 24 октября 2001

Wayback Machine (с англ. — «Машина времени») — бесплатный онлайн-архив некоммерческой библиотеки Архив Интернета. С помощью поисковых роботов или веб-краулеров Wayback Machine архивирует и делает общедоступной бо́льшую часть «открытого» интернета^[1]. Сервис был запущен в 1996 году, однако стал доступен для общественности только в 2001-м. За первые 20 лет существования Wayback Machine каталогизировал и сохранил коллекцию из более чем 286 млрд веб-сайтов. Архивные снимки отображаются в формате HTML, JavaScript и CSS^[2]. Благодаря сохранённым в Wayback Machine документам пользователи могут отслеживать происходящие на сайтах изменения и сравнивать разные версии правок^[3]. На июнь 2021 года Wayback Machine предоставлял доступ к более чем 581 млрд сохранённым веб-страницам^[4].

как дела?

Сервера Архива Интернета, 2008 год

Брюстер Кейл в 2009 году

В 1989 году английский учёный Тим Бернерс-Ли создал всемирную паутину — систему, позволяющую передавать данные через подключённые к интернету компьютеры. Однако с распространением всемирной паутины были выявлены две основные проблемы. Первая состояла в нехватке мест для хранения всех данных, из-за чего многие документы и веб-страницы удалялись. Другая проблема заключалась в том, что после редактирования веб-страницы (например, по юридическим причинам), пользователи не могли посмотреть её изначальную версию. Решить эти недостатки стремилась американская цифровая библиотека Архив Интернета, — некоммерческая организация, созданная программистами Брюстером Кейлом и Брюсом Галлиатом^[англ.] в 1996 году. При сотрудничестве с Alexa Internet (дочерней компанией Amazon, занимающейся веб-индексированием) Архив инициировал создание и хранение копий существующих сайтов для развития «универсального доступа к знанию». Организация предоставляла бесплатный публичный доступ к оцифрованным материалам, таким как веб-страницы, книги, аудиозаписи, включая живые концерты, видео, изображения и программное обеспечение. На 2021 год штаб-квартира Архива Интернета находится в Сан-Франциско, в здании бывшей христианской церкви, расположенной в районе Ричмонд. Журналист местной радиостанции Kawl^[англ.] в 2019 году сравнивал офис Архива с римским храмом^[5]^[6]^[7]. Организация ставит перед собой цель спасти интернет от исчезновения^[8].

Wayback Machine стал самым известным проектом Архива. Онлайн-сервис был назван в честь машины времени из мультсериала 1960-х годов «Шоу Рокки и Буллвинкля». Он предоставляет доступ к цифровой коллекции из примерно 562 млрд веб-страниц^[3]^[9]^[10]. Проект Wayback Machine был задуман как решение проблемы ошибки 404, означающей, что сервер не может найти данные по запрошенному адресу. Это связано с так называемым вымиранием ссылок — нарастающей недоступностью некогда опубликованных данных. Так, в 1997 году средняя продолжительность жизни веб-страницы составляла 44 дня. В 2003 году этот показатель составил 100 дней. Проведённый в 2008 году анализ ссылок на 2700 цифровых ресурсов, большинство из которых не имеют печатных аналогов, показал, что около 8 процентов ссылок переставали работать через год. К 2011 году, по прошествии трёх лет, 30 процентов ссылок в коллекции были мертвы^[11]. Благодаря интеграции с Alexa, столкнувшийся с сообщением об ошибке пользователь мог получить доступ к заархивированной версии страницы через внедрённую в браузер панель инструментов. Если копия недоступной страницы присутствовала в базе данных Wayback Machine, то загоралась специальная кнопка. При этом пользователи могли предоставить браузеру разрешение на просмотр и регистрацию активности — в таком случае все посещаемые сайты архивировались на портале^[12].

Wayback Machine был запущен в мае 1996 года, однако стал доступным для общественности только в 2001-м — до этого вся записанная на цифровых магнитных лентах информация была открыта только для ограниченного числа учёных и исследователей^[13]. К моменту «открытия» архив содержал более 10 млрд заархивированных страниц^[3]. К декабрю 2014 года руководство Wayback Machine сообщило, что сохранило 435 млрд веб-страниц по всему миру^[1]. С технической точки зрения программное обеспечение Wayback Machine не является архивом, а скорее общедоступным интерфейсом к ограниченному подмножеству всех хранилищ^[14]. Так, Wayback Machine нельзя считать поисковой системой коллекции организации, так как она не осуществляет поиск по базе данных другой крупной виртуальной библиотеки — Open Library, позволяющей пользователям бесплатно получать доступ к цифровым копиям книг, которые загружаются и архивируются в рамках проекта^[15]^[16].

Характеристика

С запуском Wayback Machine Архив Интернета стал одним из самых популярных и узнаваемых онлайн-порталов и главным сервисом веб-архивирования^[3]^[8]. В 1999 году Архив начал расширять коллекцию за пределы архивного веб-контента, чтобы обеспечить статус как к оцифрованным так и изначально цифровым ресурсам, в том числе книгам, аудио, фильмам, изображениям, документам, программному обеспечению и видеоиграм^[6]. Некоторые сканирования выполняются поисковыми роботами самого архива, а другие — партнёрскими организациями. Отдельные базы данных могут приобретаться за счёт пожертвований пользователей и целевых приобретений^[16]. Сами создатели организации сравнивали свою коллекцию с Александрийской библиотекой^[6]. На 2021 год Wayback Machine содержал более 424 млрд веб-страниц^[14] — больше, чем документов в Библиотеке Конгресса^[17]^[6]^[16].

Принцип работы

Платформа Wayback Machine функционирует за счёт двух основных элементов — поисковых роботов (или веб-краулеров) и интерфейса. Веб-краулеры занимаются посещением, извлечением, загрузкой и архивацией веб-страниц. В свою очередь, через интерфейс пользователи получают доступ к онлайн-коллекциям^[2].

Поисковые роботы

Шаблон:Bar chart Изначально коллекция архива пополнялась за счёт браузерного плагина от Alexa Internet, который автоматически фиксировал и сохранял каждую веб-страницу по мере её посещения, затем передавая всю собранную информацию в Архив Интернета. Пользователи также могли установить бесплатную панель инструментов, позволявшую проверять статус архивирования выбранного веб-сайта^[16].

В 2002 году Архив запустил собственный поисковой робот — Heritrix^[англ.] с открытым исходным кодом. Коды краулеров записаны с помощью комбинации программных языков Cи и Perl. Помимо этого, Архив Интернета также принимает данные сканирования от других доноров^[6]. Отсканированные копии веб-сайтов автоматически конвертируются в файлы размером около 100 МБ, которые затем сохраняются на серверах. Общая скорость пополнения архива составляет около 10 терабайт в месяц^[18].

Веб-краулеры запечатляют версию сайта такой, какой она была сохранена на момент доступа к ней через URL. Роботы регулярно сканируют большое количество веб-страниц, рекурсивно загружая, анализируя и отображая HTML, JavaScript и CSS страницы^[2]. Механизм работы краулеров похож на работу поисковых систем — роботы самостоятельно ищут порталы для архивирования через систему поиска путей, сканируя страницы и связанные с ними сайты, таким образом формируя сеть порталов. На момент создания Архива, всемирная сеть была настолько маленькой, что веб-краулеры могли совершить обход всех сайтов за один сеанс. Однако со временем постоянный рост онлайн-порталов и их изменчивость сделали полный обход всей сети практически невозможным. Таким образом, не все изменения на сайтах зафиксированы в Wayback Machine^[8]. Руководство Архива не уточняет то, как роботы находят и выбирают страницы для сканирования, однако заявляет, что чаще всего краулеры направляются на те сайты, которые имеют перекрёстные ссылки с других порталов и находятся в открытом доступе. Сканер начинает с веб-страницы, а затем следует по каждой гиперссылке на этой веб-странице, чтобы перейти на новые сайты. На каждой из новых веб-страниц поисковый робот повторяет процесс^[14]. Он будет продолжаться до того момента, пока архивация не будет остановлена или не достигнет установленного скриптом лимита^[19]. Помимо этого, каждый пользователь может использовать специальную форму на портале и вызвать краулер, который сохранит страницу в текущем состоянии^[2]. Wayback Machine сканирует только общедоступные веб-страницы и не может получить доступ к контенту, защищённому паролем или расположенному на частном сервере^[10]^[14]^[3].

Интерфейс

Интерфейс Wayback Machine позволяет пользователям осуществить два основных действия — получить доступ к истории изменений сайта и просмотреть все сделанные на порталах правки. Также доступна функция сравнения разных версий сайтов^[12]^[20]^[17]^[21]. Для этого в специальное окно поиска вводится URL интересующего портала, после чего Wayback Machine выдаёт список дат архивации. Звёздочка после некоторых дат используется для обозначения обнаруженных на странице изменений. URL-адрес заархивированной страницы начинается с web.archive.org^[22]^[14].

Любой пользователь может сохранить URL-адреса для архивирования, а с бесплатной учётной записью в архиве можно создать и заархивировать любые исходящие или внешние ссылки на исходной странице и получить обзорный отчёт^[23]^[23].

Примечания

↑ ^1,0 ^1,1 Arora, 2015.
↑ ^2,0 ^2,1 ^2,2 ^2,3 Lerner, 2017, с. 1741—1755.
↑ ^3,0 ^3,1 ^3,2 ^3,3 ^3,4 Michael Bryant. What is the Wayback Machine and Why is it Useful? (неопр.) Groovy Post (22 апреля 2021). Дата обращения: 29 мая 2021.
↑ Wayback Machine (неопр.). Wayback Machine. Дата обращения: 7 июня 2021.
↑ Dominic Cummings: how the internet knows when you’ve updated your blog (неопр.). The Conversation (28 мая 2020). Дата обращения: 3 июня 2021.
↑ ^6,0 ^6,1 ^6,2 ^6,3 ^6,4 Odgen, 2017.
↑ In An Old Church, The Internet Archive Stores Our Digital History (неопр.). Kalw. San Francisco local public radio (11 сентября 2019). Дата обращения: 3 июня 2021.
↑ ^8,0 ^8,1 ^8,2 Price, 2011.
↑ Jack Schofield. The Time Machine (неопр.). The Guardian (19 ноября 2007). Дата обращения: 1 июня 2021.
↑ ^10,0 ^10,1 Jenni McKinnon. Using the Wayback Machine to Archive (and Backup) WordPress (неопр.). WPMudev (25 мая 2017). Дата обращения: 29 мая 2021.
↑ Adrienne LaFrance. Raiders of the Lost Web (неопр.). The Atlantic (14 октября 2015). Дата обращения: 7 июня 2021.
↑ ^12,0 ^12,1 Rogers, 2017, с. 160—172.
↑ Hartelius, 2020, с. 378.
↑ ^14,0 ^14,1 ^14,2 ^14,3 ^14,4 Bowyer, 2021, с. 43—57.
↑ Aja Romano. A lawsuit is threatening the Internet Archive — but it’s not as dire as you may have heard (неопр.). Vox (23 января 2020). Дата обращения: 29 мая 2021.
↑ ^16,0 ^16,1 ^16,2 ^16,3 Kalev Leetaru. The Internet Archive Turns 20: A Behind The Scenes Look At Archiving The Web (неопр.). Forbes (18 января 2016). Дата обращения: 5 июня 2021.
↑ ^17,0 ^17,1 O'Connor, 2008, с. 64.
↑ Richard Koman. How the Wayback Machine Works (неопр.). Xml.com (21 января 2002). Дата обращения: 5 июня 2021.
↑ A. Rossi. Worldwide Web Crawls (неопр.). Internet Archive (5 октября 2010). Дата обращения: 5 июня 2021.
↑ Laura Bohannon. Wayback Machine archives websites for over 20 years (неопр.). Spartan News Room (7 декабря 2017). Дата обращения: 5 июня 2021.
↑ Maemura, 2018.
↑ Notess, 2002.
↑ ^23,0 ^23,1 Mark Graham. Tips for Using the Internet Archive’s Wayback Machine in Your Next Investigation (неопр.). Global Investigative Journalism Network (5 мая 2021). Дата обращения: 29 мая 2021.

Литература

Acker, A., & Chaiet, M. The weaponization of web archives: Data craft and COVID-19 publics. // Harvard Kennedy School (HKS) Misinformation Review. — doi:10.37016/mr-2020-41.
Anat Ben-David, Adam Amram. The Internet Archive and the socio-technical construction of historical facts // Internet Histories. — 2018. — doi:10.1080/24701475.2018.1455412.
Arora S., Li Y., Youtie J., Shapira P. Using the wayback machine to mine websites in the social sciences: A methodological resource. — 2015. — Т. 67, вып. 8. — С. 1904—1915. — doi:10.1002/asi.23503.
Bowyer S. The Wayback Machine: notes on a re‑enchantment // Archival Science. — 2021. — Т. 21. — С. 43—57.
Deborah R. Eltgroth. Best Evidence and the Wayback Machine: Toward a Workable Authentication Standard for Archived Internet Evidence // Fordham L. Rev.. — 2009. — Т. 78, вып. 181.
Greg R. Notess. The Wayback Machine: The Web's Archive // Online. — 2002. — Т. 26, вып. 2.
Hartelius J. The anxious flâneur: Digital archiving and the Wayback Machine // Quarterly Journal of Speech. — 2020. — Т. 106, вып. 4. — С. 377—398.
James L. Quarles III and Richard A. Crudo. [Way]Back to the Future: Using the Wayback Machine in Patent Litigation // Landslide. — 2014. — Т. 6, вып. 3.
Lerner A., Kohno T., Roesner F. Rewriting History: Changing the Archived Web from the Present // Association for Computing Machinery. — 2017. — doi:10.1145/3133956.3134042.
Maemura E., Worby N., Milligan I., Becker C. If These Crawls Could Talk: Studying and Documenting Web Archives Provenance // Journal of the association for information science and technology. — 2018. — Т. 69, вып. 10. — С. 1223—1233.
Milligan I. Lost in the Infinite Archive: The Promise and Pitfalls of Web Archives // International Journal of Humanities and Arts Computing. — 2016.
Murphy J., Hashim N., O’Connor P. Take Me Back: Validating the Wayback Machine // Journal of Computer-Mediated Communication. — 2008. — Вып. 13. — С. 60—75.
Odgen J., Halford S., Carr L. Observing Web Archives // WebSci. — 2017. — С. 299—308.
Pearce D., Charlton B. Plagiarism of online material may be proven using the Internet Archive Wayback Machine (archive.org) // Medical Hypothesis. — 2009. — С. 875.
Price. Internet Archiving – The Wayback machine // MLA Commons. — 2011.
Phyllis Holman Weisbard. Oldies but Goodies: Archiving WebBased Information // Feminist Collections. — 2011. — Т. 32, вып. 2.
Rogers R. Doing Web history with the Internet Archive: screencast documentaries // Internet Histories. — 2017. — Т. 1, вып. 1—2. — С. 160—172. — doi:10.1080/24701475.2017.1307542.

[_9c1a42788b53e5b6-1] 1,0 ^1,1 Arora, 2015.

[_98bc3d47ef78975e-2] 2,0 ^2,1 ^2,2 ^2,3 Lerner, 2017, с. 1741—1755.

[Bryant-3] 3,0 ^3,1 ^3,2 ^3,3 ^3,4 Michael Bryant. What is the Wayback Machine and Why is it Useful? (неопр.) Groovy Post (22 апреля 2021). Дата обращения: 29 мая 2021.

[web-4] Wayback Machine (неопр.). Wayback Machine. Дата обращения: 7 июня 2021.

[5] Dominic Cummings: how the internet knows when you’ve updated your blog (неопр.). The Conversation (28 мая 2020). Дата обращения: 3 июня 2021.

[_66b33144e28d4382-6] 6,0 ^6,1 ^6,2 ^6,3 ^6,4 Odgen, 2017.

[7] In An Old Church, The Internet Archive Stores Our Digital History (неопр.). Kalw. San Francisco local public radio (11 сентября 2019). Дата обращения: 3 июня 2021.

[_a9b0e6b41a5bcb6e-8] 8,0 ^8,1 ^8,2 Price, 2011.

[9] Jack Schofield. The Time Machine (неопр.). The Guardian (19 ноября 2007). Дата обращения: 1 июня 2021.

[McKinnon-10] 10,0 ^10,1 Jenni McKinnon. Using the Wayback Machine to Archive (and Backup) WordPress (неопр.). WPMudev (25 мая 2017). Дата обращения: 29 мая 2021.

[11] Adrienne LaFrance. Raiders of the Lost Web (неопр.). The Atlantic (14 октября 2015). Дата обращения: 7 июня 2021.

[_f0b6fcdc2c677cd2-12] 12,0 ^12,1 Rogers, 2017, с. 160—172.

[_b12247b5f2af2886-13] Hartelius, 2020, с. 378.

[_e55ba1d7c4c1795b-14] 14,0 ^14,1 ^14,2 ^14,3 ^14,4 Bowyer, 2021, с. 43—57.

[Vox-15] Aja Romano. A lawsuit is threatening the Internet Archive — but it’s not as dire as you may have heard (неопр.). Vox (23 января 2020). Дата обращения: 29 мая 2021.

[Forbes-16] 16,0 ^16,1 ^16,2 ^16,3 Kalev Leetaru. The Internet Archive Turns 20: A Behind The Scenes Look At Archiving The Web (неопр.). Forbes (18 января 2016). Дата обращения: 5 июня 2021.

[_f259a07ca14d7f24-17] 17,0 ^17,1 O'Connor, 2008, с. 64.

[Kahle-18] Richard Koman. How the Wayback Machine Works (неопр.). Xml.com (21 января 2002). Дата обращения: 5 июня 2021.

[19] A. Rossi. Worldwide Web Crawls (неопр.). Internet Archive (5 октября 2010). Дата обращения: 5 июня 2021.

[20] Laura Bohannon. Wayback Machine archives websites for over 20 years (неопр.). Spartan News Room (7 декабря 2017). Дата обращения: 5 июня 2021.

[_40b9b0a6acda679c-21] Maemura, 2018.

[_878a6881a283ec1b-22] Notess, 2002.

[Graham-23] 23,0 ^23,1 Mark Graham. Tips for Using the Internet Archive’s Wayback Machine in Your Next Investigation (неопр.). Global Investigative Journalism Network (5 мая 2021). Дата обращения: 29 мая 2021.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]