Wayback Machine
Wayback Machine Wayback Machine logo 2010.svg
|
- Владелец::
- Архив Интернета
- Начало работы::
- 24 октября 2001
Wayback Machine (с англ. — «Машина времени») — бесплатный онлайн-архив некоммерческой библиотеки Архив Интернета. С помощью поисковых роботов или веб-краулеров Wayback Machine архивирует и делает общедоступной бо́льшую часть «открытого» интернета[1]. Сервис был запущен в 1996 году, однако стал доступен для общественности только в 2001-м. За первые 20 лет существования Wayback Machine каталогизировал и сохранил коллекцию из более чем 286 млрд веб-сайтов. Архивные снимки отображаются в формате HTML, JavaScript и CSS[2]. Благодаря сохранённым в Wayback Machine документам пользователи могут отслеживать происходящие на сайтах изменения и сравнивать разные версии правок[3]. На июнь 2021 года Wayback Machine предоставлял доступ к более чем 581 млрд сохранённым веб-страницам[4].
как дела?

В 1989 году английский учёный Тим Бернерс-Ли создал всемирную паутину — систему, позволяющую передавать данные через подключённые к интернету компьютеры. Однако с распространением всемирной паутины были выявлены две основные проблемы. Первая состояла в нехватке мест для хранения всех данных, из-за чего многие документы и веб-страницы удалялись. Другая проблема заключалась в том, что после редактирования веб-страницы (например, по юридическим причинам), пользователи не могли посмотреть её изначальную версию. Решить эти недостатки стремилась американская цифровая библиотека Архив Интернета, — некоммерческая организация, созданная программистами Брюстером Кейлом и Брюсом Галлиатом[англ.] в 1996 году. При сотрудничестве с Alexa Internet (дочерней компанией Amazon, занимающейся веб-индексированием) Архив инициировал создание и хранение копий существующих сайтов для развития «универсального доступа к знанию». Организация предоставляла бесплатный публичный доступ к оцифрованным материалам, таким как веб-страницы, книги, аудиозаписи, включая живые концерты, видео, изображения и программное обеспечение. На 2021 год штаб-квартира Архива Интернета находится в Сан-Франциско, в здании бывшей христианской церкви, расположенной в районе Ричмонд. Журналист местной радиостанции Kawl[англ.] в 2019 году сравнивал офис Архива с римским храмом[5][6][7]. Организация ставит перед собой цель спасти интернет от исчезновения[8].
Wayback Machine стал самым известным проектом Архива. Онлайн-сервис был назван в честь машины времени из мультсериала 1960-х годов «Шоу Рокки и Буллвинкля». Он предоставляет доступ к цифровой коллекции из примерно 562 млрд веб-страниц[3][9][10]. Проект Wayback Machine был задуман как решение проблемы ошибки 404, означающей, что сервер не может найти данные по запрошенному адресу. Это связано с так называемым вымиранием ссылок — нарастающей недоступностью некогда опубликованных данных. Так, в 1997 году средняя продолжительность жизни веб-страницы составляла 44 дня. В 2003 году этот показатель составил 100 дней. Проведённый в 2008 году анализ ссылок на 2700 цифровых ресурсов, большинство из которых не имеют печатных аналогов, показал, что около 8 процентов ссылок переставали работать через год. К 2011 году, по прошествии трёх лет, 30 процентов ссылок в коллекции были мертвы[11]. Благодаря интеграции с Alexa, столкнувшийся с сообщением об ошибке пользователь мог получить доступ к заархивированной версии страницы через внедрённую в браузер панель инструментов. Если копия недоступной страницы присутствовала в базе данных Wayback Machine, то загоралась специальная кнопка. При этом пользователи могли предоставить браузеру разрешение на просмотр и регистрацию активности — в таком случае все посещаемые сайты архивировались на портале[12].
Wayback Machine был запущен в мае 1996 года, однако стал доступным для общественности только в 2001-м — до этого вся записанная на цифровых магнитных лентах информация была открыта только для ограниченного числа учёных и исследователей[13]. К моменту «открытия» архив содержал более 10 млрд заархивированных страниц[3]. К декабрю 2014 года руководство Wayback Machine сообщило, что сохранило 435 млрд веб-страниц по всему миру[1]. С технической точки зрения программное обеспечение Wayback Machine не является архивом, а скорее общедоступным интерфейсом к ограниченному подмножеству всех хранилищ[14]. Так, Wayback Machine нельзя считать поисковой системой коллекции организации, так как она не осуществляет поиск по базе данных другой крупной виртуальной библиотеки — Open Library, позволяющей пользователям бесплатно получать доступ к цифровым копиям книг, которые загружаются и архивируются в рамках проекта[15][16].
Характеристика
С запуском Wayback Machine Архив Интернета стал одним из самых популярных и узнаваемых онлайн-порталов и главным сервисом веб-архивирования[3][8]. В 1999 году Архив начал расширять коллекцию за пределы архивного веб-контента, чтобы обеспечить статус как к оцифрованным так и изначально цифровым ресурсам, в том числе книгам, аудио, фильмам, изображениям, документам, программному обеспечению и видеоиграм[6]. Некоторые сканирования выполняются поисковыми роботами самого архива, а другие — партнёрскими организациями. Отдельные базы данных могут приобретаться за счёт пожертвований пользователей и целевых приобретений[16]. Сами создатели организации сравнивали свою коллекцию с Александрийской библиотекой[6]. На 2021 год Wayback Machine содержал более 424 млрд веб-страниц[14] — больше, чем документов в Библиотеке Конгресса[17][6][16].
Принцип работы
Платформа Wayback Machine функционирует за счёт двух основных элементов — поисковых роботов (или веб-краулеров) и интерфейса. Веб-краулеры занимаются посещением, извлечением, загрузкой и архивацией веб-страниц. В свою очередь, через интерфейс пользователи получают доступ к онлайн-коллекциям[2].
Поисковые роботы
Шаблон:Bar chart Изначально коллекция архива пополнялась за счёт браузерного плагина от Alexa Internet, который автоматически фиксировал и сохранял каждую веб-страницу по мере её посещения, затем передавая всю собранную информацию в Архив Интернета. Пользователи также могли установить бесплатную панель инструментов, позволявшую проверять статус архивирования выбранного веб-сайта[16].
В 2002 году Архив запустил собственный поисковой робот — Heritrix[англ.] с открытым исходным кодом. Коды краулеров записаны с помощью комбинации программных языков Cи и Perl. Помимо этого, Архив Интернета также принимает данные сканирования от других доноров[6]. Отсканированные копии веб-сайтов автоматически конвертируются в файлы размером около 100 МБ, которые затем сохраняются на серверах. Общая скорость пополнения архива составляет около 10 терабайт в месяц[18].
Веб-краулеры запечатляют версию сайта такой, какой она была сохранена на момент доступа к ней через URL. Роботы регулярно сканируют большое количество веб-страниц, рекурсивно загружая, анализируя и отображая HTML, JavaScript и CSS страницы[2]. Механизм работы краулеров похож на работу поисковых систем — роботы самостоятельно ищут порталы для архивирования через систему поиска путей, сканируя страницы и связанные с ними сайты, таким образом формируя сеть порталов. На момент создания Архива, всемирная сеть была настолько маленькой, что веб-краулеры могли совершить обход всех сайтов за один сеанс. Однако со временем постоянный рост онлайн-порталов и их изменчивость сделали полный обход всей сети практически невозможным. Таким образом, не все изменения на сайтах зафиксированы в Wayback Machine[8]. Руководство Архива не уточняет то, как роботы находят и выбирают страницы для сканирования, однако заявляет, что чаще всего краулеры направляются на те сайты, которые имеют перекрёстные ссылки с других порталов и находятся в открытом доступе. Сканер начинает с веб-страницы, а затем следует по каждой гиперссылке на этой веб-странице, чтобы перейти на новые сайты. На каждой из новых веб-страниц поисковый робот повторяет процесс[14]. Он будет продолжаться до того момента, пока архивация не будет остановлена или не достигнет установленного скриптом лимита[19]. Помимо этого, каждый пользователь может использовать специальную форму на портале и вызвать краулер, который сохранит страницу в текущем состоянии[2]. Wayback Machine сканирует только общедоступные веб-страницы и не может получить доступ к контенту, защищённому паролем или расположенному на частном сервере[10][14][3].
Интерфейс
Интерфейс Wayback Machine позволяет пользователям осуществить два основных действия — получить доступ к истории изменений сайта и просмотреть все сделанные на порталах правки. Также доступна функция сравнения разных версий сайтов[12][20][17][21]. Для этого в специальное окно поиска вводится URL интересующего портала, после чего Wayback Machine выдаёт список дат архивации. Звёздочка после некоторых дат используется для обозначения обнаруженных на странице изменений. URL-адрес заархивированной страницы начинается с web.archive.org[22][14].
Любой пользователь может сохранить URL-адреса для архивирования, а с бесплатной учётной записью в архиве можно создать и заархивировать любые исходящие или внешние ссылки на исходной странице и получить обзорный отчёт[23][23].
Примечания
- ↑ 1,0 1,1 Arora, 2015.
- ↑ 2,0 2,1 2,2 2,3 Lerner, 2017, с. 1741—1755.
- ↑ 3,0 3,1 3,2 3,3 3,4 Michael Bryant. What is the Wayback Machine and Why is it Useful? Groovy Post (22 апреля 2021). Дата обращения: 29 мая 2021.
- ↑ Wayback Machine . Wayback Machine. Дата обращения: 7 июня 2021.
- ↑ Dominic Cummings: how the internet knows when you’ve updated your blog . The Conversation (28 мая 2020). Дата обращения: 3 июня 2021.
- ↑ 6,0 6,1 6,2 6,3 6,4 Odgen, 2017.
- ↑ In An Old Church, The Internet Archive Stores Our Digital History . Kalw. San Francisco local public radio (11 сентября 2019). Дата обращения: 3 июня 2021.
- ↑ 8,0 8,1 8,2 Price, 2011.
- ↑ Jack Schofield. The Time Machine . The Guardian (19 ноября 2007). Дата обращения: 1 июня 2021.
- ↑ 10,0 10,1 Jenni McKinnon. Using the Wayback Machine to Archive (and Backup) WordPress . WPMudev (25 мая 2017). Дата обращения: 29 мая 2021.
- ↑ Adrienne LaFrance. Raiders of the Lost Web . The Atlantic (14 октября 2015). Дата обращения: 7 июня 2021.
- ↑ 12,0 12,1 Rogers, 2017, с. 160—172.
- ↑ Hartelius, 2020, с. 378.
- ↑ 14,0 14,1 14,2 14,3 14,4 Bowyer, 2021, с. 43—57.
- ↑ Aja Romano. A lawsuit is threatening the Internet Archive — but it’s not as dire as you may have heard . Vox (23 января 2020). Дата обращения: 29 мая 2021.
- ↑ 16,0 16,1 16,2 16,3 Kalev Leetaru. The Internet Archive Turns 20: A Behind The Scenes Look At Archiving The Web . Forbes (18 января 2016). Дата обращения: 5 июня 2021.
- ↑ 17,0 17,1 O'Connor, 2008, с. 64.
- ↑ Richard Koman. How the Wayback Machine Works . Xml.com (21 января 2002). Дата обращения: 5 июня 2021.
- ↑ A. Rossi. Worldwide Web Crawls . Internet Archive (5 октября 2010). Дата обращения: 5 июня 2021.
- ↑ Laura Bohannon. Wayback Machine archives websites for over 20 years . Spartan News Room (7 декабря 2017). Дата обращения: 5 июня 2021.
- ↑ Maemura, 2018.
- ↑ Notess, 2002.
- ↑ 23,0 23,1 Mark Graham. Tips for Using the Internet Archive’s Wayback Machine in Your Next Investigation . Global Investigative Journalism Network (5 мая 2021). Дата обращения: 29 мая 2021.
Литература
- Acker, A., & Chaiet, M. The weaponization of web archives: Data craft and COVID-19 publics. // Harvard Kennedy School (HKS) Misinformation Review. — doi:10.37016/mr-2020-41.
- Anat Ben-David, Adam Amram. The Internet Archive and the socio-technical construction of historical facts // Internet Histories. — 2018. — doi:10.1080/24701475.2018.1455412.
- Arora S., Li Y., Youtie J., Shapira P. Using the wayback machine to mine websites in the social sciences: A methodological resource. — 2015. — Т. 67, вып. 8. — С. 1904—1915. — doi:10.1002/asi.23503.
- Bowyer S. The Wayback Machine: notes on a re‑enchantment // Archival Science. — 2021. — Т. 21. — С. 43—57.
- Deborah R. Eltgroth. Best Evidence and the Wayback Machine: Toward a Workable Authentication Standard for Archived Internet Evidence // Fordham L. Rev.. — 2009. — Т. 78, вып. 181.
- Greg R. Notess. The Wayback Machine: The Web's Archive // Online. — 2002. — Т. 26, вып. 2.
- Hartelius J. The anxious flâneur: Digital archiving and the Wayback Machine // Quarterly Journal of Speech. — 2020. — Т. 106, вып. 4. — С. 377—398.
- James L. Quarles III and Richard A. Crudo. [Way]Back to the Future: Using the Wayback Machine in Patent Litigation // Landslide. — 2014. — Т. 6, вып. 3.
- Lerner A., Kohno T., Roesner F. Rewriting History: Changing the Archived Web from the Present // Association for Computing Machinery. — 2017. — doi:10.1145/3133956.3134042.
- Maemura E., Worby N., Milligan I., Becker C. If These Crawls Could Talk: Studying and Documenting Web Archives Provenance // Journal of the association for information science and technology. — 2018. — Т. 69, вып. 10. — С. 1223—1233.
- Milligan I. Lost in the Infinite Archive: The Promise and Pitfalls of Web Archives // International Journal of Humanities and Arts Computing. — 2016.
- Murphy J., Hashim N., O’Connor P. Take Me Back: Validating the Wayback Machine // Journal of Computer-Mediated Communication. — 2008. — Вып. 13. — С. 60—75.
- Odgen J., Halford S., Carr L. Observing Web Archives // WebSci. — 2017. — С. 299—308.
- Pearce D., Charlton B. Plagiarism of online material may be proven using the Internet Archive Wayback Machine (archive.org) // Medical Hypothesis. — 2009. — С. 875.
- Price. Internet Archiving – The Wayback machine // MLA Commons. — 2011.
- Phyllis Holman Weisbard. Oldies but Goodies: Archiving WebBased Information // Feminist Collections. — 2011. — Т. 32, вып. 2.
- Rogers R. Doing Web history with the Internet Archive: screencast documentaries // Internet Histories. — 2017. — Т. 1, вып. 1—2. — С. 160—172. — doi:10.1080/24701475.2017.1307542.