Wayback Machine
Wayback Machine Wayback Machine logo 2010.svg
|
- Владелец::
- Архив Интернета
- Начало работы::
- 24 октября 2001
Wayback Machine (с англ. — «Машина времени») — бесплатный онлайн-архив некоммерческой библиотеки Архив Интернета. С помощью поисковых роботов или веб-краулеров Wayback Machine архивирует и делает общедоступной бо́льшую часть «открытого» интернета[1]. Сервис был запущен в 1996 году, однако стал доступен для общественности только в 2001-м. За первые 20 лет существования Wayback Machine каталогизировал и сохранил коллекцию из более чем 286 млрд веб-сайтов. Архивные снимки отображаются в формате HTML, JavaScript и CSS[2]. Благодаря сохранённым в Wayback Machine документам пользователи могут отслеживать происходящие на сайтах изменения и сравнивать разные версии правок[3]. На июнь 2021 года Wayback Machine предоставлял доступ к более чем 581 млрд сохранённым веб-страницам[4].
Создание

В 1989 году английский учёный Тим Бернерс-Ли создал всемирную паутину — систему, позволяющую передавать данные через подключённые к интернету компьютеры. Однако с распространением всемирной паутины были выявлены две основные проблемы. Первая состояла в нехватке мест для хранения всех данных, из-за чего многие документы и веб-страницы удалялись. Другая проблема заключалась в том, что после редактирования веб-страницы (например, по юридическим причинам), пользователи не могли посмотреть её изначальную версию. Решить эти недостатки стремилась американская цифровая библиотека Архив Интернета, — некоммерческая организация, созданная программистами Брюстером Кейлом и Брюсом Галлиатом[англ.] в 1996 году. При сотрудничестве с Alexa Internet (дочерней компанией Amazon, занимающейся веб-индексированием) Архив инициировал создание и хранение копий существующих сайтов для развития «универсального доступа к знанию». Организация предоставляла бесплатный публичный доступ к оцифрованным материалам, таким как веб-страницы, книги, аудиозаписи, включая живые концерты, видео, изображения и программное обеспечение. На 2021 год штаб-квартира Архива Интернета находится в Сан-Франциско, в здании бывшей христианской церкви, расположенной в районе Ричмонд. Журналист местной радиостанции Kawl[англ.] в 2019 году сравнивал офис Архива с римским храмом[5][6][7]. Организация ставит перед собой цель спасти интернет от исчезновения[8].
Wayback Machine стал самым известным проектом Архива. Онлайн-сервис был назван в честь машины времени из мультсериала 1960-х годов «Шоу Рокки и Буллвинкля». Он предоставляет доступ к цифровой коллекции из примерно 562 млрд веб-страниц[3][9][10]. Проект Wayback Machine был задуман как решение проблемы ошибки 404, означающей, что сервер не может найти данные по запрошенному адресу. Это связано с так называемым вымиранием ссылок — нарастающей недоступностью некогда опубликованных данных. Так, в 1997 году средняя продолжительность жизни веб-страницы составляла 44 дня. В 2003 году этот показатель составил 100 дней. Проведённый в 2008 году анализ ссылок на 2700 цифровых ресурсов, большинство из которых не имеют печатных аналогов, показал, что около 8 процентов ссылок переставали работать через год. К 2011 году, по прошествии трёх лет, 30 процентов ссылок в коллекции были мертвы[11]. Благодаря интеграции с Alexa, столкнувшийся с сообщением об ошибке пользователь мог получить доступ к заархивированной версии страницы через внедрённую в браузер панель инструментов. Если копия недоступной страницы присутствовала в базе данных Wayback Machine, то загоралась специальная кнопка. При этом пользователи могли предоставить браузеру разрешение на просмотр и регистрацию активности — в таком случае все посещаемые сайты архивировались на портале[12].
Wayback Machine был запущен в мае 1996 года, однако стал доступным для общественности только в 2001-м — до этого вся записанная на цифровых магнитных лентах информация была открыта только для ограниченного числа учёных и исследователей[13]. К моменту «открытия» архив содержал более 10 млрд заархивированных страниц[3]. К декабрю 2014 года руководство Wayback Machine сообщило, что сохранило 435 млрд веб-страниц по всему миру[1]. С технической точки зрения программное обеспечение Wayback Machine не является архивом, а скорее общедоступным интерфейсом к ограниченному подмножеству всех хранилищ[14]. Так, Wayback Machine нельзя считать поисковой системой коллекции организации, так как она не осуществляет поиск по базе данных другой крупной виртуальной библиотеки — Open Library, позволяющей пользователям бесплатно получать доступ к цифровым копиям книг, которые загружаются и архивируются в рамках проекта[15][16].
Характеристика
С запуском Wayback Machine Архив Интернета стал одним из самых популярных и узнаваемых онлайн-порталов и главным сервисом веб-архивирования[3][8]. В 1999 году Архив начал расширять коллекцию за пределы архивного веб-контента, чтобы обеспечить статус как к оцифрованным так и изначально цифровым ресурсам, в том числе книгам, аудио, фильмам, изображениям, документам, программному обеспечению и видеоиграм[6]. Некоторые сканирования выполняются поисковыми роботами самого архива, а другие — партнёрскими организациями. Отдельные базы данных могут приобретаться за счёт пожертвований пользователей и целевых приобретений[16]. Сами создатели организации сравнивали свою коллекцию с Александрийской библиотекой[6]. На 2021 год Wayback Machine содержал более 424 млрд веб-страниц[14] — больше, чем документов в Библиотеке Конгресса[17][6][16].
Примечания
- ↑ 1,0 1,1 Arora, 2015.
- ↑ Lerner, 2017, с. 1741—1755.
- ↑ 3,0 3,1 3,2 3,3 Michael Bryant. What is the Wayback Machine and Why is it Useful? Groovy Post (22 апреля 2021). Дата обращения: 29 мая 2021.
- ↑ Wayback Machine . Wayback Machine. Дата обращения: 7 июня 2021.
- ↑ Dominic Cummings: how the internet knows when you’ve updated your blog . The Conversation (28 мая 2020). Дата обращения: 3 июня 2021.
- ↑ 6,0 6,1 6,2 6,3 Odgen, 2017.
- ↑ In An Old Church, The Internet Archive Stores Our Digital History . Kalw. San Francisco local public radio (11 сентября 2019). Дата обращения: 3 июня 2021.
- ↑ 8,0 8,1 Price, 2011.
- ↑ Jack Schofield. The Time Machine . The Guardian (19 ноября 2007). Дата обращения: 1 июня 2021.
- ↑ Jenni McKinnon. Using the Wayback Machine to Archive (and Backup) WordPress . WPMudev (25 мая 2017). Дата обращения: 29 мая 2021.
- ↑ Adrienne LaFrance. Raiders of the Lost Web . The Atlantic (14 октября 2015). Дата обращения: 7 июня 2021.
- ↑ Rogers, 2017, с. 160—172.
- ↑ Hartelius, 2020, с. 378.
- ↑ 14,0 14,1 Bowyer, 2021, с. 43—57.
- ↑ Aja Romano. A lawsuit is threatening the Internet Archive — but it’s not as dire as you may have heard . Vox (23 января 2020). Дата обращения: 29 мая 2021.
- ↑ 16,0 16,1 16,2 Kalev Leetaru. The Internet Archive Turns 20: A Behind The Scenes Look At Archiving The Web . Forbes (18 января 2016). Дата обращения: 5 июня 2021.
- ↑ O'Connor, 2008, с. 64.
Литература
- Acker, A., & Chaiet, M. The weaponization of web archives: Data craft and COVID-19 publics. // Harvard Kennedy School (HKS) Misinformation Review. — doi:10.37016/mr-2020-41.
- Anat Ben-David, Adam Amram. The Internet Archive and the socio-technical construction of historical facts // Internet Histories. — 2018. — doi:10.1080/24701475.2018.1455412.
- Arora S., Li Y., Youtie J., Shapira P. Using the wayback machine to mine websites in the social sciences: A methodological resource. — 2015. — Т. 67, вып. 8. — С. 1904—1915. — doi:10.1002/asi.23503.
- Bowyer S. The Wayback Machine: notes on a re‑enchantment // Archival Science. — 2021. — Т. 21. — С. 43—57.
- Deborah R. Eltgroth. Best Evidence and the Wayback Machine: Toward a Workable Authentication Standard for Archived Internet Evidence // Fordham L. Rev.. — 2009. — Т. 78, вып. 181.
- Greg R. Notess. The Wayback Machine: The Web's Archive // Online. — 2002. — Т. 26, вып. 2.
- Hartelius J. The anxious flâneur: Digital archiving and the Wayback Machine // Quarterly Journal of Speech. — 2020. — Т. 106, вып. 4. — С. 377—398.
- James L. Quarles III and Richard A. Crudo. [Way]Back to the Future: Using the Wayback Machine in Patent Litigation // Landslide. — 2014. — Т. 6, вып. 3.
- Lerner A., Kohno T., Roesner F. Rewriting History: Changing the Archived Web from the Present // Association for Computing Machinery. — 2017. — doi:10.1145/3133956.3134042.
- Maemura E., Worby N., Milligan I., Becker C. If These Crawls Could Talk: Studying and Documenting Web Archives Provenance // Journal of the association for information science and technology. — 2018. — Т. 69, вып. 10. — С. 1223—1233.
- Milligan I. Lost in the Infinite Archive: The Promise and Pitfalls of Web Archives // International Journal of Humanities and Arts Computing. — 2016.
- Murphy J., Hashim N., O’Connor P. Take Me Back: Validating the Wayback Machine // Journal of Computer-Mediated Communication. — 2008. — Вып. 13. — С. 60—75.
- Odgen J., Halford S., Carr L. Observing Web Archives // WebSci. — 2017. — С. 299—308.
- Pearce D., Charlton B. Plagiarism of online material may be proven using the Internet Archive Wayback Machine (archive.org) // Medical Hypothesis. — 2009. — С. 875.
- Price. Internet Archiving – The Wayback machine // MLA Commons. — 2011.
- Phyllis Holman Weisbard. Oldies but Goodies: Archiving WebBased Information // Feminist Collections. — 2011. — Т. 32, вып. 2.
- Rogers R. Doing Web history with the Internet Archive: screencast documentaries // Internet Histories. — 2017. — Т. 1, вып. 1—2. — С. 160—172. — doi:10.1080/24701475.2017.1307542.