Wayback Machine: различия между версиями
In.wiki (комментарии | вклад) м (3 версии импортировано: Импорт из Википедии) |
|||
(не показана 31 промежуточная версия 21 участника) | |||
Строка 1: | Строка 1: | ||
+ | {{значения|Машина времени (значения)}} | ||
+ | {{Сайт | ||
+ | | название = Wayback Machine | ||
+ | | логотип = Wayback Machine logo 2010.svg | ||
+ | | скриншот = Wayback Machine.png | ||
+ | | подпись = Стартовая страница портала | ||
+ | | url = {{URL|https://web.archive.org/}} | ||
+ | | язык программирования = [[Java]], [[Python]] | ||
+ | | расположение = | ||
+ | | владелец = [[Архив Интернета]] | ||
+ | | открыт = 24 октября 2001 | ||
+ | | текущий статус = работает | ||
+ | | alexa = 173<ref>{{cite web |url=https://www.alexa.com/siteinfo/archive.org |lang=en |website=alexa.com |title=Overview |accessdate=2021-12-08 |archive-date=2020-05-18 |archive-url=https://web.archive.org/web/20200518192525/https://www.alexa.com/siteinfo/archive.org |deadlink=no }}</ref> | ||
+ | }} | ||
+ | '''Wayback Machine''' ({{tr-en|Машина времени}}) — бесплатный онлайн-архив [[Некоммерческая организация|некоммерческой библиотеки]] «[[Архив Интернета]]». С помощью [[Поисковый робот|поисковых роботов]] Wayback Machine архивирует и делает общедоступной бо́льшую часть «открытого» интернета{{sfn|Arora|2015}}. | ||
+ | Сервис был запущен в 1996 году, однако стал доступен для общественности только в 2001 году. | ||
+ | |||
+ | За первые 20 лет существования Wayback Machine каталогизировал и сохранил коллекцию из более чем 286 млрд веб-страниц. Архивные снимки отображаются в формате [[HTML]], [[JavaScript]] и [[CSS]]{{sfn|Lerner|2017|pp=1741—1755}}. Благодаря сохранённым в Wayback Machine документам пользователи могут отслеживать происходящие на сайтах изменения и сравнивать разные версии правок<ref name="Bryant">{{cite web|url=https://www.groovypost.com/explaier/what-is-the-wayback-machine-and-why-is-it-useful/|title=What is the Wayback Machine and Why is it Useful?|author=Michael Bryant|date=2021-04-22|publisher=Groovy Post|accessdate=2021-05-29|lang=en|archive-date=2021-05-18|archive-url=https://web.archive.org/web/20210518200214/https://www.groovypost.com/explaier/what-is-the-wayback-machine-and-why-is-it-useful/ | ||
+ | |deadlink=no}}</ref>. По состоянию на февраль 2024 года Wayback Machine предоставляет доступ к более чем 866 миллиардам сохранённых веб-страниц<ref name="web">{{cite web|url=https://archive.org/web/|title=Wayback Machine|publisher=Wayback Machine|accessdate=2021-06-07|lang=en}}</ref>. | ||
+ | |||
+ | На момент 10 октября 2024 года в связи с начавшейся 9 октября [[DoS-атака|DDoS]] атакой сервис оказался недоступен<ref>{{Cite web|url=https://x.com/brewster_kahle/status/1843761077798220253|title=Заявление основателя сервиса о DDoS атаке|website=Twitter (X)|access-date=2024-10-10|archive-date=2024-10-09|archive-url=https://web.archive.org/web/20241009220927/https://x.com/brewster_kahle/status/1843761077798220253|url-status=live}}</ref>. По заявлению основателя [[Кейл, Брюстер|Брюстера Кейла]] сервис был отключен дабы сохранить данные в ущерб доступности сервиса<ref>{{Cite web|url=https://x.com/brewster_kahle/status/1844326137499177312|title=Сервис отключен дабы сохранить данные|website=Twitter (X)|access-date=2024-10-10|archive-date=2024-12-24|archive-url=https://web.archive.org/web/20241224022328/https://x.com/brewster_kahle/status/1844326137499177312|url-status=live}}</ref>. 11 октября он также заявил, что данные сервиса повреждены не были, а в настоящее время идут работы по модернизации их внутренних систем<ref>{{Cite web|url=https://x.com/brewster_kahle/status/1844485102312751421|title=Данные после атаки повреждены не были|website=Twitter (X)|access-date=2024-10-11|archive-date=2024-10-22|archive-url=https://web.archive.org/web/20241022061508/https://x.com/brewster_kahle/status/1844485102312751421|url-status=live}}</ref>. Кейл предполагает, что это займёт дни, а не недели<ref>{{Cite web|url=https://x.com/brewster_kahle/status/1844790609573277792|title=Информация о сроках восстановления|website=Twitter (X)|access-date=2024-10-12|archive-date=2024-11-05|archive-url=https://web.archive.org/web/20241105110101/https://x.com/brewster_kahle/status/1844790609573277792|url-status=live}}</ref>. 14 октября сервис восстановил работу, временно приостановив возможность сохранять страницы<ref>{{Cite web|url=https://x.com/brewster_kahle/status/1845688309085065571|title=Сервис частично восстановил работу|website=Twitter (X)|access-date=2024-10-18|archive-date=2024-11-04|archive-url=https://web.archive.org/web/20241104120617/https://x.com/brewster_kahle/status/1845688309085065571|url-status=live}}</ref>. | ||
+ | |||
+ | == Создание == | ||
+ | [[Файл:Internet Archive mirror servers - Bibliotheca Alexandrina.jpg|thumb|250px|right|Серверы «Архива Интернета», 2008 год]] | ||
+ | [[Файл:Brewster Kahle 2009.jpg|thumb|250px|right|[[Кейл, Брюстер|Брюстер Кейл]] в 2009 году]] | ||
+ | |||
+ | В [[1989 год]]у английский учёный [[Бернерс-Ли, Тим|Тим Бернерс-Ли]] создал [[всемирная паутина|всемирную паутину]] — систему, позволяющую передавать данные через подключённые к интернету компьютеры. Однако с распространением всемирной паутины были выявлены две основные проблемы. Первая состояла в нехватке мест для хранения всех данных, из-за чего многие документы и веб-страницы удалялись. Другая проблема заключалась в том, что после редактирования веб-страницы (например, по юридическим причинам) пользователи не могли посмотреть её изначальную версию. Решить эти недостатки стремилась американская цифровая библиотека «[[Архив Интернета]]» — некоммерческая организация, созданная программистами [[Кейл, Брюстер|Брюстером Кейлом]] и {{iw|Галлиат, Брюс|Брюсом Галлиатом|en|Bruce Gilliat}} в 1996 году<ref>{{cite web|lang=en|url=https://www.theguardian.com/technology/2007/nov/19/archive.internet|title=The Time Machine|author=Jack Schofield|date=2007-11-19|publisher=[[The Guardian]]|accessdate=2021-06-01|archive-date=2021-04-19|archive-url=https://web.archive.org/web/20210419133845/https://www.theguardian.com/technology/2007/nov/19/archive.internet|deadlink=no}}</ref>. При сотрудничестве с [[Alexa Internet]] ([[Дочернее общество|дочерней компанией]] [[Amazon]], занимающейся веб-индексированием) «Архив» инициировал создание и хранение копий существующих сайтов для развития «универсального доступа к знанию». Организация предоставляла [[открытый доступ|бесплатный публичный доступ]] к оцифрованным материалам, таким как веб-страницы, книги, аудиозаписи, включая живые концерты, видео, изображения и программное обеспечение. На 2021 год штаб-квартира «[[Архив Интернета|Архива Интернета]]» находится в [[Сан-Франциско]], в здании бывшей христианской церкви, расположенной в районе [[Ричмонд (район Сан-Франциско)|Ричмонд]]. Журналист местной радиостанции {{iw|Kawl|||}} в 2019 году сравнивал офис «Архива» с римским храмом<ref>{{cite web|url=https://theconversation.com/dominic-cummings-how-the-internet-knows-when-youve-updated-your-blog-139517|title=Dominic Cummings: how the internet knows when you’ve updated your blog|date=2020-05-28|publisher=The Conversation|accessdate=2021-06-03|lang=en|archive-date=2021-07-25|archive-url=https://web.archive.org/web/20210725222234/https://theconversation.com/dominic-cummings-how-the-internet-knows-when-youve-updated-your-blog-139517|deadlink=no | ||
+ | }}</ref>{{sfn|Odgen|2017}}<ref>{{cite web|url=https://www.kalw.org/show/crosscurrents/2019-09-11/in-an-old-church-the-internet-archive-stores-our-digital-history | ||
+ | |title=In An Old Church, The Internet Archive Stores Our Digital History|date=2019-09-11|publisher=Kalw. San Francisco local public radio|accessdate=2021-06-03|lang=en | ||
+ | |archive-date=2021-05-06|archive-url=https://web.archive.org/web/20210506120243/https://www.kalw.org/show/crosscurrents/2019-09-11/in-an-old-church-the-internet-archive-stores-our-digital-history|deadlink=no}}</ref>. Организация ставит перед собой цель спасти интернет от исчезновения{{sfn|Price|2011}}. | ||
+ | |||
+ | Wayback Machine стал самым известным проектом «Архива». Онлайн-сервис был назван в честь машины времени из мультсериала 1960-х годов «[[Шоу Рокки и Буллвинкля]]». Он предоставляет доступ к цифровой коллекции из более чем 800 млрд различных веб-страниц<ref name=Bryant/><ref name=McKinnon>{{cite web | ||
+ | |url=https://wpmudev.com/blog/archiving-with-wayback-machine/|title=Using the Wayback Machine to Archive (and Backup) WordPress|author=Jenni McKinnon|date=2017-05-25 | ||
+ | |publisher=WPMudev|accessdate=2021-05-29|lang=en|archive-date=2021-04-13|archive-url=https://web.archive.org/web/20210413234350/https://wpmudev.com/blog/archiving-with-wayback-machine/|deadlink=no}}</ref>. Проект Wayback Machine был задуман как решение проблемы [[Ошибка 404|ошибки 404]], означающей, что сервер не может найти данные по запрошенному адресу. Это связано с так называемым [[вымирание ссылок|вымиранием ссылок]] — нарастающей недоступностью некогда опубликованных данных. Так, в 1997 году средняя продолжительность жизни веб-страницы составляла 44 дня. В 2003 году этот показатель составил 100 дней. | ||
+ | |||
+ | Проведённый в 2008 году анализ ссылок на 2700 цифровых ресурсов, большинство из которых не имеет печатных аналогов, показал, что около 8 процентов ссылок переставали работать через год. К 2011 году, по прошествии трёх лет, 30 процентов ссылок в коллекции были неработающими<ref>{{cite web|url=https://www.theatlantic.com/technology/archive/2015/10/raiders-of-the-lost-web/409210/|title=Raiders of the Lost Web|author=Adrienne LaFrance|date=2015-10-14|publisher=The Atlantic|accessdate=2021-06-07|lang=en|archive-date=2017-05-07|archive-url=https://web.archive.org/web/20170507173716/https://www.theatlantic.com/technology/archive/2015/10/raiders-of-the-lost-web/409210/|deadlink=no}}</ref>. Благодаря интеграции с Alexa, столкнувшийся с сообщением об ошибке пользователь мог получить доступ к заархивированной версии страницы через внедрённую в браузер панель инструментов. Если копия недоступной страницы присутствовала в базе данных Wayback Machine, то загоралась специальная кнопка. При этом пользователи могли предоставить браузеру разрешение на просмотр и регистрацию активности — в таком случае все посещаемые сайты архивировались на портале{{sfn|Rogers|2017|pp=160—172}}. | ||
+ | |||
+ | Wayback Machine был запущен в мае 1996 года, однако стал доступным для общественности только в 2001 г. — до этого вся записанная на цифровых магнитных лентах информация была открыта только для ограниченного числа учёных и исследователей{{sfn|Hartelius|2020|p=378}}. К моменту «открытия» архив содержал более 10 млрд заархивированных страниц<ref name="Bryant" />. К декабрю 2014 года руководство Wayback Machine сообщило, что сохранило 435 млрд веб-страниц по всему миру{{sfn|Arora|2015}}. С технической точки зрения программное обеспечение Wayback Machine не является архивом, а скорее общедоступным интерфейсом к ограниченному подмножеству всех хранилищ{{sfn|Bowyer|2021|pp=43—57}}. Так, Wayback Machine нельзя считать поисковой системой коллекции организации, так как она не осуществляет поиск по базе данных другой крупной виртуальной библиотеки — [[Open Library]], позволяющей пользователям бесплатно получать доступ к цифровым копиям книг, которые загружаются и архивируются в рамках проекта<ref name="Vox">{{cite web | ||
+ | |url=https://www.vox.com/2020/6/23/21293875/internet-archive-website-lawsuit-open-library-wayback-machine-controversy-copyright|title=A lawsuit is threatening the Internet Archive — but it’s not as dire as you may have heard|author=Aja Romano|date=2020-01-23|publisher=Vox|accessdate=2021-05-29|lang=en|archive-date=2021-08-18|archive-url=https://web.archive.org/web/20210818211013/https://www.vox.com/2020/6/23/21293875/internet-archive-website-lawsuit-open-library-wayback-machine-controversy-copyright | ||
+ | |deadlink=no}}</ref><ref name="Forbes">{{cite web|url=https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/?sh=533ba6e282e0|title=The Internet Archive Turns 20: A Behind The Scenes Look At Archiving The Web|author=Kalev Leetaru|date=2016-01-18|publisher=[[Forbes]]|accessdate=2021-06-05|lang=en|archive-date=2021-08-15|archive-url=https://web.archive.org/web/20210815171017/https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/?sh=533ba6e282e0|deadlink=no}}</ref>. | ||
+ | |||
+ | == Характеристика == | ||
+ | С запуском Wayback Machine «Архив Интернета» стал одним из самых популярных и узнаваемых онлайн-порталов и главным сервисом [[Архивирование веб-сайтов|веб-архивирования]]<ref name=Bryant/>{{sfn|Price|2011}}. | ||
+ | |||
+ | В 1999 году «Архив» начал расширять коллекцию за пределы архивного веб-контента, чтобы обеспечить статус как к оцифрованным, так и изначально цифровым ресурсам, в том числе книгам, аудио, фильмам, изображениям, документам, программному обеспечению и видеоиграм{{sfn|Odgen|2017}}. Некоторые сканирования выполняются поисковыми роботами самого архива, а другие — партнёрскими организациями. Отдельные базы данных могут приобретаться за счёт пожертвований пользователей и целевых приобретений<ref name="Forbes" />. Сами создатели организации сравнивали свою коллекцию с [[Александрийская библиотека|Александрийской библиотекой]]{{sfn|Odgen|2017}}. | ||
+ | |||
+ | На 2021 год Wayback Machine содержал около 424 млрд веб-страниц{{sfn|Bowyer|2021|pp=43—57}} — больше, чем документов в [[Библиотека Конгресса|Библиотеке Конгресса]]{{sfn|O'Connor|2008|p=64}}{{sfn|Odgen|2017}}<ref name="Forbes" />. | ||
+ | |||
+ | == Принцип работы == | ||
+ | Платформа Wayback Machine функционирует за счёт двух основных элементов — [[Поисковый робот|поисковых роботов]] (или веб-краулеров) и интерфейса. Веб-краулеры занимаются посещением, извлечением, загрузкой и архивацией веб-страниц. В свою очередь, через интерфейс пользователи получают доступ к онлайн-коллекциям{{sfn|Lerner|2017|pp=1741—1755}}. | ||
+ | |||
+ | === Поисковые роботы === | ||
+ | {{Bar chart | ||
+ | | title = Рост коллекции Wayback Machine<ref>{{cite web | ||
+ | | url=https://blog.archive.org/2014/05/09/wayback-machine-hits-400000000000 | ||
+ | | title=Wayback Machine Hits 400,000,000,000! | ||
+ | | author=michelle | ||
+ | | publisher=Internet Archive | ||
+ | | date=2014-05-09 | ||
+ | | lang=en | ||
+ | | archive-url=https://web.archive.org/web/20140826191225/http://blog.archive.org/2014/05/09/wayback-machine-hits-400000000000/ | ||
+ | | archive-date=2014-08-26 |access-date=2015-03-25}}</ref> по годам | ||
+ | | float = right | ||
+ | | label_type = Год | ||
+ | | data_type = Архивированные страницы (в миллиардах) | ||
+ | | bar_width = 35 | ||
+ | | width_units = em | ||
+ | | data_max = 828 | ||
+ | | label1 = 2005 | ||
+ | | data1 = 40 | ||
+ | | label2 = 2008 | ||
+ | | data2 = 85 | ||
+ | | label3 = 2012 | ||
+ | | data3 = 150 | ||
+ | | label4 = 2013 | ||
+ | | data4 = 373 | ||
+ | | label5 = 2014 | ||
+ | | data5 = 400 | ||
+ | | label6 = 2015 | ||
+ | | data6 = 452 | ||
+ | | label7=2016 | ||
+ | | data7=505 | ||
+ | | label8=2020 | ||
+ | | data8=514 | ||
+ | | label9=2021 | ||
+ | | data9=581 | ||
+ | | label10=2022 | ||
+ | | data10=689 | ||
+ | | label11=2023 | ||
+ | | data11=828 | ||
+ | }} | ||
+ | Изначально коллекция архива пополнялась за счёт браузерного [[плагин]]а от [[Alexa Internet]], который автоматически фиксировал и сохранял каждую веб-страницу по мере её посещения, затем передавая всю собранную информацию в «Архив Интернета». Пользователи также могли установить бесплатную панель инструментов, позволявшую проверять статус архивирования выбранного веб-сайта<ref name=Forbes/>. | ||
+ | |||
+ | В 2002 году «Архив» запустил собственного поискового робота с [[Открытое программное обеспечение|открытым исходным кодом]] — {{iw|Heritrix|||}}. Коды краулеров записаны с помощью комбинации [[Си (язык программирования)|программных языков Си]] и [[Perl]]. Помимо этого, «Архив Интернета» также принимает данные сканирования от других доноров{{sfn|Odgen|2017}}. Отсканированные копии веб-сайтов автоматически конвертируются в файлы размером около 100 МБ, которые затем сохраняются на серверах. В 2002 году общая скорость пополнения архива составляла около 10 [[терабайт]] в месяц<ref name=Kahle>{{cite web | ||
+ | |url=https://www.xml.com/pub/a/ws/2002/01/18/brewster.html | ||
+ | |title=How the Wayback Machine Works | ||
+ | |author=Richard Koman | ||
+ | |date=2002-01-21 | ||
+ | |publisher=Xml.com | ||
+ | |accessdate=2021-06-05 | ||
+ | |lang=en | ||
+ | |archive-date=2021-05-28 | ||
+ | |archive-url=https://web.archive.org/web/20210528134057/https://www.xml.com/pub/a/ws/2002/01/18/brewster.html | ||
+ | |deadlink=no | ||
+ | }}</ref>. | ||
+ | |||
+ | Веб-краулеры запечатляют версию сайта такой, какой она была сохранена на момент доступа к ней через URL. Роботы регулярно сканируют большое количество веб-страниц, рекурсивно загружая, анализируя и отображая [[HTML]]-, [[JavaScript]]- и [[CSS]]-страницы{{sfn|Lerner|2017|pp=1741—1755}}. Механизм работы краулеров похож на работу поисковых систем — роботы самостоятельно ищут порталы для архивирования через систему поиска путей, сканируя страницы и связанные с ними сайты, таким образом формируя сеть порталов. На момент создания «Архива Интернета» всемирная сеть была настолько маленькой, что веб-краулеры могли совершить обход всех сайтов за один сеанс. Однако со временем постоянный рост онлайн-порталов и их изменчивость сделали полный обход всей сети практически невозможным. Таким образом, не все изменения на сайтах зафиксированы в Wayback Machine{{sfn|Price|2011}}. Руководство «Архива Интернета» не уточняет то, как роботы находят и выбирают страницы для сканирования, однако заявляет, что чаще всего краулеры направляются на те сайты, которые имеют перекрёстные ссылки с других порталов и находятся в открытом доступе. Сканер начинает с веб-страницы, а затем следует по каждой гиперссылке на этой веб-странице, чтобы перейти на новые сайты. На каждой из новых веб-страниц поисковый робот повторяет процесс{{sfn|Bowyer|2021|pp=43—57}}. Он будет продолжаться до того момента, пока архивация не будет остановлена или не достигнет установленного скриптом лимита<ref>{{cite web | ||
+ | |url=https://archive.org/details/widecrawl&tab=about | ||
+ | |title=Worldwide Web Crawls | ||
+ | |author=A. Rossi | ||
+ | |date=2010-10-05 | ||
+ | |publisher=Internet Archive | ||
+ | |accessdate=2021-06-05 | ||
+ | |lang=en}} | ||
+ | </ref>. Помимо этого, каждый пользователь может использовать специальную форму на портале и вызвать краулер, который сохранит страницу в текущем состоянии{{sfn|Lerner|2017|pp=1741—1755}}. Wayback Machine сканирует только общедоступные веб-страницы и не может получить доступ к контенту, защищённому паролем или расположенному на частном сервере<ref name=McKinnon/>{{sfn|Bowyer|2021|pp=43—57}}<ref name=Bryant/>. | ||
+ | |||
+ | === Интерфейс === | ||
+ | Интерфейс Wayback Machine позволяет пользователям осуществить два основных действия — получить доступ к истории изменений сайта и просмотреть все сделанные на порталах правки. Также доступна функция сравнения разных версий сайтов{{sfn|Rogers|2017|pp=160—172}}<ref>{{cite web | ||
+ | |url=https://news.jrn.msu.edu/2017/12/wayback-machine-archives-websites-for-over-20-years/ | ||
+ | |title=Wayback Machine archives websites for over 20 years | ||
+ | |author=Laura Bohannon | ||
+ | |date=2017-12-07 | ||
+ | |publisher=Spartan News Room | ||
+ | |accessdate=2021-06-05 | ||
+ | |lang=en | ||
+ | |archive-date=2021-06-24 | ||
+ | |archive-url=https://web.archive.org/web/20210624202004/https://news.jrn.msu.edu/2017/12/wayback-machine-archives-websites-for-over-20-years/ | ||
+ | |deadlink=no | ||
+ | }}</ref>{{sfn|O'Connor|2008|p=64}}{{sfn|Maemura|2018}}. Для этого в специальное окно поиска вводится URL интересующего портала, после чего Wayback Machine выдаёт список дат архивации. Звёздочка после некоторых дат используется для обозначения обнаруженных на странице изменений. URL-адрес заархивированной страницы начинается с web.archive.org{{sfn|Notess|2002}}{{sfn|Bowyer|2021|pp=43—57}}. | ||
+ | |||
+ | Любой пользователь может сохранить URL-адреса для архивирования, а с бесплатной учётной записью в архиве можно создать и заархивировать любые исходящие или внешние ссылки на исходной странице и получить обзорный отчёт<ref name=Graham>{{cite web | ||
+ | |url=https://gijn.org/2021/05/05/tips-for-using-the-internet-archives-wayback-machine-in-your-next-investigation/ | ||
+ | |title=Tips for Using the Internet Archive’s Wayback Machine in Your Next Investigation | ||
+ | |author=Mark Graham | ||
+ | |date=2021-05-05 | ||
+ | |publisher=Global Investigative Journalism Network | ||
+ | |accessdate=2021-05-29 | ||
+ | |lang=en | ||
+ | |archive-date=2021-05-29 | ||
+ | |archive-url=https://web.archive.org/web/20210529020740/https://gijn.org/2021/05/05/tips-for-using-the-internet-archives-wayback-machine-in-your-next-investigation/ | ||
+ | |deadlink=no | ||
+ | }}</ref><ref name=Graham/>. | ||
+ | |||
+ | == Хранение == | ||
+ | На 2018 год коллекция «Архива Интернета» составляла более 40 [[петабайт]], или 40 тыс. терабайт данных, Wayback Machine предоставлял доступ к примерно 63 % всех имеющихся материалов<ref>{{cite web | ||
+ | |url=https://thehustle.co/inside-wayback-machine-internet-archive | ||
+ | |title=Inside Wayback Machine, the internet’s time capsule | ||
+ | |author=Zachary Crockett | ||
+ | |date=2018-09-28 | ||
+ | |publisher=The Hustle | ||
+ | |accessdate=2021-05-29 | ||
+ | |lang=en | ||
+ | |archive-date=2018-10-02 | ||
+ | |archive-url=https://web.archive.org/web/20181002145800/https://thehustle.co/inside-wayback-machine-internet-archive | ||
+ | |deadlink=no | ||
+ | }}</ref>. На февраль 2020 года в архиве Wayback Machine числилось более 900 млрд URL-адресов и более 400 млрд веб-страниц<ref name=VC>{{cite web | ||
+ | |url=https://vc.ru/services/109219-brauzer-brave-ot-soosnovatelya-mozilla-stal-predlagat-kopii-iz-arhiva-interneta-vmesto-udalennyh-veb-stranic | ||
+ | |title=Браузер Brave от сооснователя Mozilla стал предлагать копии из «архива интернета» вместо удалённых веб-страниц | ||
+ | |author=Евгений Делюкин | ||
+ | |date=2020-02-26 | ||
+ | |publisher=vc.ru | ||
+ | |accessdate=2021-06-01 | ||
+ | |lang=en | ||
+ | |archive-date=2021-06-24 | ||
+ | |archive-url=https://web.archive.org/web/20210624201130/https://vc.ru/services/109219-brauzer-brave-ot-soosnovatelya-mozilla-stal-predlagat-kopii-iz-arhiva-interneta-vmesto-udalennyh-veb-stranic | ||
+ | |deadlink=no | ||
+ | }}</ref>. На июнь 2021 года Wayback Machine предоставлял доступ к более чем 581 млрд сохранённых веб-страниц<ref name=web/>. | ||
+ | |||
+ | == Использование == | ||
+ | Портал Wayback Machine зачастую применяют в правовой сфере — юристы используют сервис для поиска информации по гражданским искам, уголовным делам, в административном делопроизводстве и патентных процессах. Полученные через Wayback Machine архивные версии сайтов могут использоваться для решения вопросов о [[Патентное право|патентном праве]] или установлении наказания за публикацию материалов, которые впоследствии были удалены из сети{{sfn|Lerner|2017|pp=1741—1755}}{{sfn|Rogers|2017|pp=160—172}}. Несмотря на широкое использование коллекции «Архива Интернета» для предоставления доказательств, некоторые суды США отказывались принимать скриншоты веб-страниц, ссылаясь на юридическую сложность отождествления оригинала документа и его заархивированной версии{{sfn|Eltgroth|2009}}. В 2018 году [[Апелляционный суд второго округа США|Апелляционный суд США по второму федеральному апелляционному округу]] постановил, что скрины с архива веб-страниц Wayback Machine относятся к законным доказательствам, которые могут быть использованы в судебных разбирательствах; ранее аналогичное решение вынес [[Апелляционный суд третьего округа США|Апелляционный суд США по третьему федеральному апелляционному округу]]<ref>{{cite web | ||
+ | |url=https://www.theregister.com/2018/09/04/wayback_machine_legit/ | ||
+ | |title=Archive.org's Wayback Machine is legit legal evidence, US appeals court judges rule | ||
+ | |author=Kieren McCarthy | ||
+ | |date=2018-09-04 | ||
+ | |publisher=The Register | ||
+ | |accessdate=2021-06-04 | ||
+ | |lang=en | ||
+ | |archive-date=2021-06-02 | ||
+ | |archive-url=https://web.archive.org/web/20210602231920/https://www.theregister.com/2018/09/04/wayback_machine_legit/ | ||
+ | |deadlink=no | ||
+ | }}</ref>; позднее [[Апелляционный суд седьмого округа США|Апелляционный суд США по седьмому федеральному апелляционному округу]] также признал скриншоты веб-архивов допустимыми электронными доказательствами<ref>{{cite web | ||
+ | |url=http://www.garant.ru/news/1418353/ | ||
+ | |title=Электронные доказательства в спорах в сфере интеллектуальной собственности | ||
+ | |author=Маргарита Сазонова | ||
+ | |date=2020-10-26 | ||
+ | |publisher=Гарант | ||
+ | |accessdate=2021-06-05 | ||
+ | |lang=ru | ||
+ | |archive-date=2021-06-24 | ||
+ | |archive-url=https://web.archive.org/web/20210624202716/http://www.garant.ru/news/1418353/ | ||
+ | |deadlink=no | ||
+ | }}</ref>. | ||
+ | |||
+ | Благодаря архивированным в Wayback Machine статьям авторы могут устанавливать право на открытие или на публикацию{{sfn|Pearce|2009|p=875}}. Для социологов и историков Wayback Machine предлагает ценный крупномасштабный источник данных для анализа поведения компаний, стратегий продаж, социальных практик{{sfn|Arora|2015}}{{sfn|Milligan|2016}}. Также Wayback Machine позволяет получать доступ к журналам [[открытый доступ|открытого доступа]]. Так, с начала 2000-х годов из интернета исчезло 84 журнала ОД по естественным наукам и ещё около 100 — по социальным и гуманитарным<ref>{{cite web | ||
+ | |url=https://www.sciencemag.org/news/2020/09/dozens-scientific-journals-have-vanished-internet-and-no-one-preserved-them | ||
+ | |title=Dozens of scientific journals have vanished from the internet, and no one preserved them | ||
+ | |author=Jeffrey Brainard | ||
+ | |date=2020-09-08 | ||
+ | |publisher=Science | ||
+ | |accessdate=2021-06-01 | ||
+ | |lang=en | ||
+ | |archive-date=2020-10-15 | ||
+ | |archive-url=https://web.archive.org/web/20201015230626/https://www.sciencemag.org/news/2020/09/dozens-scientific-journals-have-vanished-internet-and-no-one-preserved-them | ||
+ | |deadlink=no | ||
+ | }}</ref><ref>{{cite web | ||
+ | |url=https://www.nature.com/articles/d41586-020-02610-z | ||
+ | |title=More than 100 scientific journals have disappeared from the Internet | ||
+ | |author=Diana Kwon | ||
+ | |date=2020-09-10 | ||
+ | |publisher=Nature | ||
+ | |accessdate=2021-06-01 | ||
+ | |lang=en | ||
+ | |archive-date=2020-10-03 | ||
+ | |archive-url=https://web.archive.org/web/20201003135120/https://www.nature.com/articles/d41586-020-02610-z | ||
+ | |deadlink=no | ||
+ | }}</ref><ref>{{cite web | ||
+ | |url=https://habr.com/ru/news/t/518594/ | ||
+ | |title=Десятки научных журналов исчезли из интернета за последние 20 лет и никто их не сохранил | ||
+ | |author=avouner | ||
+ | |date=2020-09-10 | ||
+ | |publisher=Хабр | ||
+ | |accessdate=2021-06-05 | ||
+ | |lang=ru | ||
+ | |archive-date=2021-06-24 | ||
+ | |archive-url=https://web.archive.org/web/20210624203211/https://habr.com/ru/news/t/518594/ | ||
+ | |deadlink=no | ||
+ | }}</ref>. | ||
+ | |||
+ | Активисты и исследователи используют портал для борьбы с [[Дезинформация|дезинформацией]], особенно усилившейся после избрания президента [[Президентские выборы в США (2016)|Дональда Трампа в США]]. В ответ на участившиеся противоречивые заявления со стороны [[Исполнительный офис президента США|администрации президента]] «Архив» создал отдельную коллекцию под названием «Архив Трампа», содержащую выступления президента на телевидении и [[твиттер|твиты]]. «Архив» надеется, что его хранилище поможет другим выявлять ложную информацию и проверять подозрительный контент<ref>{{cite web | ||
+ | |url=https://www.ft.com/content/5be1f2ee-d60b-11e9-a0bd-ab8ec6435630 | ||
+ | |title=How the Internet Archive is waging war on misinformation | ||
+ | |author=Camilla Hodgson | ||
+ | |date=2019-09-17 | ||
+ | |publisher=Financial Times | ||
+ | |accessdate=2021-06-03 | ||
+ | |lang=en | ||
+ | |archive-date=2021-06-28 | ||
+ | |archive-url=https://web.archive.org/web/20210628083500/https://www.ft.com/content/5be1f2ee-d60b-11e9-a0bd-ab8ec6435630 | ||
+ | |deadlink=no | ||
+ | }}</ref><ref>{{cite web | ||
+ | |url=https://www.pri.org/stories/2017-02-23/where-find-whats-disappeared-online-and-whole-lot-more-internet-archive | ||
+ | |title=Where to find what's disappeared online, and a whole lot more: the Internet Archive | ||
+ | |author=Mary Kay Magistad | ||
+ | |date=2017-02-23 | ||
+ | |publisher=PRI.org | ||
+ | |accessdate=2021-06-07 | ||
+ | |lang=en | ||
+ | |archive-date=2017-03-28 | ||
+ | |archive-url=https://web.archive.org/web/20170328092846/https://www.pri.org/stories/2017-02-23/where-find-whats-disappeared-online-and-whole-lot-more-internet-archive | ||
+ | |deadlink=no | ||
+ | }}</ref>. Однако в некоторых случаях отдельные активисты утверждали, что заархивированные Wayback Machine ресурсы наоборот способствовали распространению дезинформации. Так, с началом [[Пандемия COVID-19|пандемии коронавируса]] сторонники [[Конспирологические теории о пандемии COVID-19|конспиративных теорий]] использовали сохранённые порталом скриншоты для распространения ложной информации о [[COVID-19|коронавирусе]]{{sfn|Acker|2020}}. В качестве [[контрмеры|контрмер]] в ноябре 2020 года «Архив» внедрил в Wayback Machine инструменты проверки информации на достоверность. Для этого некоммерческая организация начала сотрудничать с различными компаниями, занимающимися проверкой фактов, чтобы предоставлять пользователям причины удаления той или иной страницы из коллекции. При открытии заархивированной версии сайта Wayback Machine предоставляет пользователям сведения о причине её удаления в виде жёлтого баннера вверху экрана. При подозрении на причастность веб-страницы к кампании по дезинформации Wayback Machine предоставляет данные об организации, проводившей проверку на достоверность, и ссылку на её отчёт<ref>{{cite web | ||
+ | |url=https://trashbox.ru/link/2020-11-02-wayback-machine-fact-checking | ||
+ | |title=Wayback Machine теперь проверяет информацию на достоверность для архивных веб-страниц | ||
+ | |date=2020-11-02 | ||
+ | |publisher=Trash Box | ||
+ | |accessdate=2021-06-05 | ||
+ | |lang=ru | ||
+ | |archive-date=2021-06-24 | ||
+ | |archive-url=https://web.archive.org/web/20210624203219/https://trashbox.ru/link/2020-11-02-wayback-machine-fact-checking | ||
+ | |deadlink=no | ||
+ | }}</ref>. | ||
+ | |||
+ | В отдельных случаях полученная через Wayback Machine информация фигурировала в крупных скандалах. Так, Wayback Machine хранит копию удалённого сообщения со страницы, озаглавленной «Сводки от [[Стрелков, Игорь Иванович|Стрелкова Игоря Ивановича]]» в социальной сети «[[ВКонтакте]]», о сбитом самолёте АН-26, который в действительности оказался [[Катастрофа Boeing 777 в Донецкой области|пассажирским Boeing 777]]<ref>{{cite web | ||
+ | |url=https://www.openculture.com/2014/07/did-the-wayback-machine-catch-russian-backed-rebels.html | ||
+ | |title=Did the Wayback Machine Catch Russian-Backed Rebels Claiming Responsibility for Malaysian Airlines Flight MH17? | ||
+ | |date=2014-07-19 | ||
+ | |publisher=Open Culture | ||
+ | |accessdate=2021-06-03 | ||
+ | |lang=en | ||
+ | |archive-date=2021-06-24 | ||
+ | |archive-url=https://web.archive.org/web/20210624205440/https://www.openculture.com/2014/07/did-the-wayback-machine-catch-russian-backed-rebels.html | ||
+ | |deadlink=no | ||
+ | }}</ref><ref>{{cite web | ||
+ | |url=https://www.newyorker.com/magazine/2015/01/26/cobweb | ||
+ | |title=The Cobweb | ||
+ | |author=Jil Lepore | ||
+ | |date=2015-01-19 | ||
+ | |publisher=New Yorker | ||
+ | |accessdate=2021-06-07 | ||
+ | |lang=en | ||
+ | |archive-date=2015-01-25 | ||
+ | |archive-url=https://web.archive.org/web/20150125141230/http://www.newyorker.com/magazine/2015/01/26/cobweb | ||
+ | |deadlink=no | ||
+ | }}</ref>. В мае 2021 года издание [[Bellingcat]] выяснило, что находящиеся в Европе американские военные использовали для хранения засекреченных данных детские мобильные приложения для запоминания информации. Из-за неправильно установленных настроек приватности другие пользователи получили доступ к секретной информации. После обнаружения утечки информации военные удалили все карточки, но они остались в сервисе Wayback Machine<ref>{{cite web | ||
+ | |url=https://tjournal.ru/news/389570-v-set-popali-sekretnye-dannye-ob-amerikanskom-yadernom-oruzhii-voennye-zapisyvali-ih-v-shkolnyh-prilozheniyah | ||
+ | |title=В сеть попали секретные данные об американском ядерном оружии — военные записывали их в школьных приложениях | ||
+ | |author=Дамир Камалетдинов | ||
+ | |date=2021-05-30 | ||
+ | |publisher=TJournal | ||
+ | |accessdate=2021-06-05 | ||
+ | |lang=en | ||
+ | |archive-date=2021-06-24 | ||
+ | |archive-url=https://web.archive.org/web/20210624201326/https://tjournal.ru/news/389570-v-set-popali-sekretnye-dannye-ob-amerikanskom-yadernom-oruzhii-voennye-zapisyvali-ih-v-shkolnyh-prilozheniyah | ||
+ | |deadlink=no | ||
+ | }}</ref>. | ||
+ | |||
+ | == Правовой статус == | ||
+ | «Архив Интернета» не запрашивает разрешения на копирование веб-сайтов перед удалённым сбором данных, однако удаляет или ограничивает доступ к архивным материалам по запросу. Ранее владельцам веб-сайтов предоставлялась возможность «отказаться» от архивирования через стандартный файл [[Стандарт исключений для роботов|robots.txt]], который исключает веб-сайты или их отдельные страницы, каталоги, из списка порталов для веб-краулеров{{sfn|Price|2011}}<ref>{{cite web | ||
+ | |url=https://www.lutzker.com/internet-archives-open-library-and-copyright-law/ | ||
+ | |title=Internet Archive’s Open Library and Copyright Law | ||
+ | |author=Carolyn Wimbly Martin | ||
+ | |date=2020-05-15 | ||
+ | |publisher=Lutzker | ||
+ | |accessdate=2021-06-04 | ||
+ | |lang=en | ||
+ | |archive-date=2021-06-24 | ||
+ | |archive-url=https://web.archive.org/web/20210624201547/https://www.lutzker.com/internet-archives-open-library-and-copyright-law/ | ||
+ | |deadlink=no | ||
+ | }}</ref>. По состоянию на 2022 год заявки на удаление сайтов или их страниц из архива принимаются только после прямого запроса от администрации удаляемого сайта. Однако из-за сохранения других данных «Архив Интернета» находится в уязвимом юридическом положении<ref>{{cite web | ||
+ | |url=https://arstechnica.com/tech-policy/2011/01/copy-some-web-pages-owe-more-than-the-national-debt/ | ||
+ | |title=Copy some webpages, owe more than the national debt | ||
+ | |author=Nate Anderson | ||
+ | |date=2011-05-01 | ||
+ | |publisher=Ars Technica | ||
+ | |accessdate=2021-06-05 | ||
+ | |lang=en | ||
+ | |archive-date=2021-06-24 | ||
+ | |archive-url=https://web.archive.org/web/20210624203555/https://arstechnica.com/tech-policy/2011/01/copy-some-web-pages-owe-more-than-the-national-debt/ | ||
+ | |deadlink=no | ||
+ | }}</ref>. Так, в 2005 году Wayback Machine оказался втянутым в спор о товарных знаках между компаниями Healthcare Advocates и Health Advocate. Последняя использовала Wayback Machine для доступа к веб-страницам Healthcare Advocates, датируемым 1999 годом, в попытке найти информацию, которая поддержала бы дело. В ответ Healthcare Advocates подала в суд как на Health Advocate, так и на «Архив», утверждая что архив нарушил [[Digital Millennium Copyright Act|Закон об авторском праве в цифровую эпоху]]. Впоследствии дело было урегулировано в досудебном порядке<ref>{{cite web | ||
+ | |url=https://arstechnica.com/uncategorized/2006/08/7634/ | ||
+ | |title=Internet Archive settles suit over Wayback Machine | ||
+ | |author=Eric Bangeman | ||
+ | |date=2006-08-31 | ||
+ | |publisher=Ars Technica | ||
+ | |accessdate=2021-06-07 | ||
+ | |archive-date=2007-11-05 | ||
+ | |archive-url=https://web.archive.org/web/20071105205430/http://arstechnica.com/news.ars/post/20060831-7634.html | ||
+ | |deadlink=no | ||
+ | }}</ref>. | ||
+ | |||
+ | В 2002 году «Архив» удалил из своей системы ссылки на архивные копии портала Xenu.net, принадлежащего критику церкви Андреасу Хельдал-Лунду. Удаление произошло по требованию юристов [[Церковь саентологии|Церкви саентологии]], заявивших, что владеют правом собственности на выдержки из документов Церкви, опубликованные на сайте<ref>{{cite web | ||
+ | |url=http://news.cnet.com/2100-1023-959236.html | ||
+ | |title=Net archive silences Scientology critic | ||
+ | |author=Lisa M. Bowman | ||
+ | |date=2002-09-24 | ||
+ | |publisher=CNET | ||
+ | |accessdate=2021-06-10 | ||
+ | |lang=en | ||
+ | |archive-date=2012-05-15 | ||
+ | |archive-url=https://web.archive.org/web/20120515210932/http://news.cnet.com/2100-1023-959236.html | ||
+ | |deadlink=unfit | ||
+ | }}</ref><ref>{{cite web | ||
+ | |url=http://lawmeme.research.yale.edu/modules.php?name=News&file=article&sid=350 | ||
+ | |title=Features: Sherman, Set the Wayback Machine for Scientology | ||
+ | |author=Ernest Miller | ||
+ | |date=2002-09-24 | ||
+ | |publisher=LawMeme | ||
+ | |accessdate=2021-06-10 | ||
+ | |lang=en | ||
+ | |archive-date=2012-11-16 | ||
+ | |archive-url=https://web.archive.org/web/20121116072812/http://lawmeme.research.yale.edu/modules.php?name=News&file=article&sid=350 | ||
+ | |deadlink=yes | ||
+ | }}</ref>. | ||
+ | |||
+ | == Ограничения == | ||
+ | Исследователи и активисты критикуют Wayback Machine и деятельность «Архива Интернета» за попытку сохранить все онлайн-материалы, многие из которых не представляют должной ценности. По мнению отдельных исследователей, это связано с устаревшей политикой «Архива», который был основан в конце 1990-х годов — тогда, на заре создания интернет-архивов, считалось, что данные интернета должны сохраняться в полном объёме. Однако с созданием множества однодневных сайтов многие исследователи и активисты поменяли своё мнение<ref>{{cite web | ||
+ | |url=https://harpers.org/archive/2018/12/preservation-acts-archiving-twitter-social-media-movements/ | ||
+ | |title=Preservation Acts | ||
+ | |author=Nora Caplan-Bricker | ||
+ | |date=2018-12 | ||
+ | |publisher=Harper's Magazine | ||
+ | |accessdate=2021-06-02 | ||
+ | |lang=en | ||
+ | |archive-date=2021-05-05 | ||
+ | |archive-url=https://web.archive.org/web/20210505235528/https://harpers.org/archive/2018/12/preservation-acts-archiving-twitter-social-media-movements/ | ||
+ | |deadlink=no | ||
+ | }}</ref>. Другие критические замечания относятся к техническим ограничениям сервиса — Wayback Machine не позволяет сохранять и обрабатывать | ||
+ | определённые элементы JavaScript, а также может создавать заархивированные страницы, содержащие неработающие ссылки, отсутствующую графику или являющиеся неполными по иным причинам{{sfn|Crudo|2014}}. Сканеры захватывают только статический снимок сайта — функции порталов на основе Java или Flash работать не будут. Это означает, что бо́льшая часть функциональных возможностей исходной веб-страницы теряется{{sfn|Price|2011}}. | ||
+ | |||
+ | == Блокировки == | ||
+ | В 2015 году [[Роскомнадзор]] принял решение заблокировать Wayback Machine за копию страницы текста «Одиночный джихад в России», содержащего информацию о «теории и практике партизанского сопротивления». Соответствующая страница в «Архиве Интернета» была добавлена в официальный реестр запрещённых веб-сайтов в России 23 июня 2015 года, из-за чего некоторые российские интернет-провайдеры были вынуждены полностью заблокировать сайт «Архива»<ref>{{cite web | ||
+ | |url=https://www.techdirt.com/articles/20150626/11213631474/russia-blocks-internet-archives-wayback-machine-over-single-page.shtml | ||
+ | |title=Russia Blocks The Internet Archive's Wayback Machine Over A Single Page | ||
+ | |author=Mike Masnick | ||
+ | |date=2015-06-26 | ||
+ | |publisher=Tech dirt | ||
+ | |accessdate=2021-06-03 | ||
+ | |lang=en | ||
+ | |archive-date=2021-06-04 | ||
+ | |archive-url=https://web.archive.org/web/20210604213725/https://www.techdirt.com/articles/20150626/11213631474/russia-blocks-internet-archives-wayback-machine-over-single-page.shtml | ||
+ | |deadlink=no | ||
+ | }}</ref><ref>{{cite web | ||
+ | |url=https://www.mk.ru/social/2015/06/25/roskomnadzor-zablokiroval-arkhiv-interneta-izza-odinochnogo-dzhikhada.html | ||
+ | |title=Роскомнадзор заблокировал архив интернета из-за "Одиночного джихада" | ||
+ | |date=2015-06-25 | ||
+ | |publisher=Московский комсомолец | ||
+ | |accessdate=2021-06-05 | ||
+ | |lang=ru | ||
+ | |archive-date=2021-06-24 | ||
+ | |archive-url=https://web.archive.org/web/20210624201601/https://www.mk.ru/social/2015/06/25/roskomnadzor-zablokiroval-arkhiv-interneta-izza-odinochnogo-dzhikhada.html | ||
+ | |deadlink=no | ||
+ | }}</ref><ref>{{cite web | ||
+ | |url=https://lenta.ru/news/2015/06/25/rkn/ | ||
+ | |title=Роскомнадзор заблокировал страницу «архива интернета» за экстремизм | ||
+ | |date=2015-06-25 | ||
+ | |publisher=Lenta | ||
+ | |accessdate=2021-06-05 | ||
+ | |lang=ru | ||
+ | |archive-date=2021-09-22 | ||
+ | |archive-url=https://web.archive.org/web/20210922150736/https://lenta.ru/news/2015/06/25/rkn/ | ||
+ | |deadlink=no | ||
+ | }}</ref>. Доступ к Wayback Machine был заново открыт в 2016 году, после того как запрещённые ролики удалили с портала<ref>{{cite web | ||
+ | |url=https://www.gazeta.ru/tech/2016/04/18/8183321/archive_is_back.shtml | ||
+ | |title=«Архив интернета» снова в сети | ||
+ | |author=Дмитрий Шестоперов, Анастасия Евтушенко | ||
+ | |date=2016-04-18 | ||
+ | |publisher=Газета.ru | ||
+ | |accessdate=2021-12-09 | ||
+ | |lang=ru | ||
+ | |archive-date=2021-05-03 | ||
+ | |archive-url=https://web.archive.org/web/20210503055621/https://www.gazeta.ru/tech/2016/04/18/8183321/archive_is_back.shtml | ||
+ | |deadlink=no | ||
+ | }}</ref>. | ||
+ | |||
+ | В 2019 году представители «Ассоциации по защите авторских прав в интернете» (АЗАПИ) подали серию исков против сервиса Wayback Machine за нарушение авторских прав. Представители АЗАПИ запросили [[Московский городской суд|Мосгорсуд]] вынести решение о вечной блокировке портала на территории России, однако на август 2020 года «Архив Интернета» по-прежнему продолжал свою работу<ref>{{cite web | ||
+ | |url=https://roskomsvoboda.org/49067/ | ||
+ | |title=АЗАПИ хочет навечно заблокировать «Архив Интернета» | ||
+ | |publisher=Роскомсвобода | ||
+ | |date=2019-08-22 | ||
+ | |accessdate=2021-06-05 | ||
+ | |lang=ru | ||
+ | |archive-date=2021-06-04 | ||
+ | |archive-url=https://web.archive.org/web/20210604024806/https://roskomsvoboda.org/49067/ | ||
+ | |deadlink=no | ||
+ | }}</ref><ref>{{cite web | ||
+ | |url=https://www.cnews.ru/news/top/2019-08-23_arhiv_interneta_mogut | ||
+ | |title=«Архив интернета» могут навечно заблокировать в России | ||
+ | |date=2019-08-23 | ||
+ | |publisher=CNews | ||
+ | |accessdate=2021-06-07 | ||
+ | |lang=ru | ||
+ | |archive-date=2021-06-24 | ||
+ | |archive-url=https://web.archive.org/web/20210624202847/https://www.cnews.ru/news/top/2019-08-23_arhiv_interneta_mogut | ||
+ | |deadlink=no | ||
+ | }}</ref><ref>{{cite web | ||
+ | |url=https://www.cnews.ru/news/top/2020-08-19_rossijskie_izdatelstva | ||
+ | |title=Россияне потребовали запретить в Европе Telegram, YouTube и Mail.ru | ||
+ | |date=2020-08-19 | ||
+ | |publisher=CNews | ||
+ | |accessdate=2021-06-07 | ||
+ | |lang=ru | ||
+ | |archive-date=2021-06-24 | ||
+ | |archive-url=https://web.archive.org/web/20210624211239/https://www.cnews.ru/news/top/2020-08-19_rossijskie_izdatelstva | ||
+ | |deadlink=no | ||
+ | }}</ref><ref>{{cite web | ||
+ | |url=https://www.vedomosti.ru/media/news/2020/06/02/831699-internet-archive | ||
+ | |title=Американские издатели книг подали в суд на Internet Archive | ||
+ | |date=2020-06-02 | ||
+ | |publisher=Ведомости | ||
+ | |accessdate=2021-06-05 | ||
+ | |lang=ru | ||
+ | |archive-date=2021-06-24 | ||
+ | |archive-url=https://web.archive.org/web/20210624203346/https://www.vedomosti.ru/media/news/2020/06/02/831699-internet-archive | ||
+ | |deadlink=no | ||
+ | }}</ref>. | ||
+ | |||
+ | В 2017 году портал был заблокирован в [[Индия|Индии]] и [[Кыргызстан]]е за содержание «экстремистских материалов»<ref>{{cite web | ||
+ | |url=https://thewire.in/tech/access-internet-archives-wayback-machine-blocked | ||
+ | |title=Access to Internet Archive’s Wayback Machine Blocked in India | ||
+ | |date=2017-08-08 | ||
+ | |publisher=The Wire | ||
+ | |accessdate=2021-06-03 | ||
+ | |lang=en | ||
+ | |archive-date=2021-06-24 | ||
+ | |archive-url=https://web.archive.org/web/20210624202300/https://thewire.in/tech/access-internet-archives-wayback-machine-blocked | ||
+ | |deadlink=no | ||
+ | }}</ref><ref>{{cite web | ||
+ | |url=https://www.theverge.com/2017/8/9/16117578/wayback-machine-blocked-india-internet-archive | ||
+ | |title=Wayback Machine has been blocked in India | ||
+ | |date=2017-08-09 | ||
+ | |publisher=The Verge | ||
+ | |accessdate=2021-06-05 | ||
+ | |lang=en | ||
+ | |archive-date=2021-06-24 | ||
+ | |archive-url=https://web.archive.org/web/20210624202435/https://www.theverge.com/2017/8/9/16117578/wayback-machine-blocked-india-internet-archive | ||
+ | |deadlink=no | ||
+ | }}</ref><ref>{{cite web | ||
+ | |url=https://advox.globalvoices.org/2017/07/21/kyrgyzstan-blocks-archive-org-on-extremism-grounds/ | ||
+ | |title=Kyrgyzstan Blocks Archive.org on ‘Extremism’ Grounds | ||
+ | |publisher=Global Voices | ||
+ | |accessdate=2021-06-05 | ||
+ | |lang=en | ||
+ | |archive-date=2021-05-18 | ||
+ | |archive-url=https://web.archive.org/web/20210518164919/https://advox.globalvoices.org/2017/07/21/kyrgyzstan-blocks-archive-org-on-extremism-grounds/ | ||
+ | |deadlink=no | ||
+ | }}</ref>. По данным на 2021 год, сайт заблокирован в Китае<ref>{{cite web | ||
+ | |url=https://www.protocol.com/internet-archive-preserving-future | ||
+ | |title=The internet is splitting apart. The Internet Archive wants to save it all forever | ||
+ | |author=Anna Kramer | ||
+ | |date=2021-03-10 | ||
+ | |publisher=Protocol | ||
+ | |accessdate=2021-06-09 | ||
+ | |lang=en | ||
+ | |archive-date=2021-06-01 | ||
+ | |archive-url=https://web.archive.org/web/20210601200035/https://www.protocol.com/internet-archive-preserving-future | ||
+ | |deadlink=no | ||
+ | }}</ref>. | ||
+ | |||
+ | В июне 2022 года [[Таганский район|Таганский]] [[Районный суд (Россия)|райсуд]] Москвы оштрафовал «Архив Интернета» на 800 тыс. рублей за неудаление из WayBack Machine видео о способах изготовления [[коктейль Молотова|коктейля Молотова]]<ref>{{cite web | ||
+ | |url=https://www.kommersant.ru/doc/5435373 | ||
+ | |title=Машину времени увезли на штрафстоянку | ||
+ | |date=2022-06-28 | ||
+ | |publisher=Коммерсантъ | ||
+ | |accessdate=2022-07-01}} | ||
+ | </ref>. | ||
+ | |||
+ | == Примечания == | ||
+ | {{Примечания|}} | ||
+ | |||
+ | == Литература == | ||
+ | {{refbegin|2}} | ||
+ | * {{статья | ||
+ | |автор=Acker, A., & Chaiet, M. | ||
+ | |заглавие=The weaponization of web archives: Data craft and COVID-19 publics. | ||
+ | |издание=Harvard Kennedy School (HKS) Misinformation Review | ||
+ | |doi=10.37016/mr-2020-41 | ||
+ | |год=2020 | ||
+ | |язык=en | ||
+ | |ref=Acker | ||
+ | |ссылка=https://misinforeview.hks.harvard.edu/article/the-weaponization-of-web-archives-data-craft-and-covid-19-publics/}} | ||
+ | * {{статья | ||
+ | |автор=Anat Ben-David, Adam Amram | ||
+ | |заглавие=The Internet Archive and the socio-technical construction of historical facts | ||
+ | |издание=Internet Histories | ||
+ | |год=2018 | ||
+ | |doi=10.1080/24701475.2018.1455412 | ||
+ | |язык=en | ||
+ | |ref=Ben-David}} | ||
+ | * {{статья | ||
+ | |автор=Arora S., Li Y., Youtie J., Shapira P. | ||
+ | |заглавие=Using the wayback machine to mine websites in the social sciences: A methodological resource | ||
+ | |год=2015 | ||
+ | |doi=10.1002/asi.23503 | ||
+ | |том=67 | ||
+ | |выпуск=8 | ||
+ | |страницы=1904—1915 | ||
+ | |язык=en | ||
+ | |ref=Arora}} | ||
+ | * {{статья | ||
+ | |автор=Bowyer S. | ||
+ | |заглавие=The Wayback Machine: notes on a re‑enchantment | ||
+ | |издание=Archival Science | ||
+ | |год=2021 | ||
+ | |том=21 | ||
+ | |страницы=43—57 | ||
+ | |язык=en | ||
+ | |ref=Bowyer}} | ||
+ | * {{статья | ||
+ | |автор=Deborah R. Eltgroth | ||
+ | |заглавие=Best Evidence and the Wayback Machine: Toward a Workable Authentication Standard for Archived Internet Evidence | ||
+ | |том=78 | ||
+ | |издание=Fordham L. Rev. | ||
+ | |выпуск=181 | ||
+ | |год=2009 | ||
+ | |язык=en | ||
+ | |ссылка=https://ir.lawnet.fordham.edu/flr/vol78/iss1/5 | ||
+ | |ref=Eltgroth}} | ||
+ | * {{статья | ||
+ | |автор=Greg R. Notess | ||
+ | |заглавие=The Wayback Machine: The Web's Archive | ||
+ | |издание=Online | ||
+ | |год=2002 | ||
+ | |том=26 | ||
+ | |выпуск=2 | ||
+ | |ссылка=https://www.infotoday.com/online/mar02/OnTheNet.htm | ||
+ | |язык=en | ||
+ | |ref=Notess}} | ||
+ | * {{статья | ||
+ | |автор= Hartelius J. | ||
+ | |заглавие=The anxious flâneur: Digital archiving and the Wayback Machine | ||
+ | |издание=Quarterly Journal of Speech | ||
+ | |том=106 | ||
+ | |год=2020 | ||
+ | |выпуск=4 | ||
+ | |страницы=377—398 | ||
+ | |язык=en | ||
+ | |ref=Hartelius}} | ||
+ | * {{статья | ||
+ | |автор=James L. Quarles III and Richard A. Crudo | ||
+ | |заглавие=[Way]Back to the Future: Using the Wayback Machine in Patent Litigation | ||
+ | |издание= Landslide | ||
+ | |том=6 | ||
+ | |выпуск=3 | ||
+ | |год=2014 | ||
+ | |язык=en | ||
+ | |ref=Crudo}} | ||
+ | * {{статья | ||
+ | |автор=Lerner A., Kohno T., Roesner F. | ||
+ | |заглавие=Rewriting History: Changing the Archived Web from the Present | ||
+ | |издание=Association for Computing Machinery | ||
+ | |год=2017 | ||
+ | |doi=10.1145/3133956.3134042 | ||
+ | |язык=en | ||
+ | |ref=Lerner | ||
+ | |ссылка=https://acmccs.github.io/papers/p1741-lernerAT3.pdf}} | ||
+ | * {{статья | ||
+ | |автор=Maemura E., Worby N., Milligan I., Becker C. | ||
+ | |заглавие=If These Crawls Could Talk: Studying and Documenting Web Archives Provenance | ||
+ | |издание=Journal of the association for information science and technology | ||
+ | |год=2018 | ||
+ | |том=69 | ||
+ | |выпуск=10 | ||
+ | |страницы=1223—1233 | ||
+ | |язык=en | ||
+ | |ref=Maemura}} | ||
+ | * {{статья | ||
+ | |автор=Milligan I. | ||
+ | |заглавие=Lost in the Infinite Archive: The Promise and Pitfalls of Web Archives | ||
+ | |издание=International Journal of Humanities and Arts Computing | ||
+ | |год=2016 | ||
+ | |язык=en | ||
+ | |ref=Milligan}} | ||
+ | * {{статья | ||
+ | |автор= Murphy J., Hashim N., O’Connor P. | ||
+ | |заглавие=Take Me Back: Validating the Wayback Machine | ||
+ | |издание=Journal of Computer-Mediated Communication | ||
+ | |выпуск=13 | ||
+ | |год=2008 | ||
+ | |страницы=60—75 | ||
+ | |язык=en | ||
+ | |ref=O'Connor}} | ||
+ | * {{статья | ||
+ | |автор=Odgen J., Halford S., Carr L. | ||
+ | |заглавие=Observing Web Archives | ||
+ | |издание=WebSci | ||
+ | |год=2017 | ||
+ | |страницы=299—308 | ||
+ | |язык=en | ||
+ | |ref=Odgen}} | ||
+ | * {{статья | ||
+ | |автор= Pearce D., Charlton B. | ||
+ | |заглавие=Plagiarism of online material may be proven using the Internet Archive Wayback Machine (archive.org) | ||
+ | |издание=Medical Hypothesis | ||
+ | |год=2009 | ||
+ | |страницы=875 | ||
+ | |язык=en | ||
+ | |ref=Pearce}} | ||
+ | * {{статья | ||
+ | |автор=Price | ||
+ | |заглавие=Internet Archiving – The Wayback machine | ||
+ | |издание=MLA Commons | ||
+ | |ссылка=https://mla.hcommons.org/deposits/item/hc:16755/ | ||
+ | |год=2011 | ||
+ | |язык=en | ||
+ | |ref=Price}} | ||
+ | * {{статья | ||
+ | |автор=Phyllis Holman Weisbard | ||
+ | |заглавие=Oldies but Goodies: Archiving WebBased Information | ||
+ | |издание= Feminist Collections | ||
+ | |том=32 | ||
+ | |выпуск=2 | ||
+ | |год=2011 | ||
+ | |язык=en | ||
+ | |ref=Weisbard}} | ||
+ | * {{статья | ||
+ | |автор=Rogers R. | ||
+ | |заглавие=Doing Web history with the Internet Archive: screencast documentaries | ||
+ | |издание=Internet Histories | ||
+ | |год=2017 | ||
+ | |страницы=160—172 | ||
+ | |том=1 | ||
+ | |выпуск=1—2 | ||
+ | |doi=10.1080/24701475.2017.1307542 | ||
+ | |язык=en | ||
+ | |ref=Rogers}} | ||
+ | {{refend}} | ||
+ | |||
+ | {{хорошая статья|Техника}} | ||
+ | |||
+ | [[Категория:История Интернета]] | ||
+ | [[Категория:Сайты, появившиеся в 1996 году]] | ||
+ | [[Категория:Открытый доступ]] |
Текущая версия от 01:52, 12 апреля 2025
Wayback Machine Wayback Machine logo 2010.svg
|
- Владелец::
- Архив Интернета
- Начало работы::
- 24 октября 2001
- Текущий статус::
- работает
Wayback Machine (с англ. — «Машина времени») — бесплатный онлайн-архив некоммерческой библиотеки «Архив Интернета». С помощью поисковых роботов Wayback Machine архивирует и делает общедоступной бо́льшую часть «открытого» интернета[1].
Сервис был запущен в 1996 году, однако стал доступен для общественности только в 2001 году.
За первые 20 лет существования Wayback Machine каталогизировал и сохранил коллекцию из более чем 286 млрд веб-страниц. Архивные снимки отображаются в формате HTML, JavaScript и CSS[2]. Благодаря сохранённым в Wayback Machine документам пользователи могут отслеживать происходящие на сайтах изменения и сравнивать разные версии правок[3]. По состоянию на февраль 2024 года Wayback Machine предоставляет доступ к более чем 866 миллиардам сохранённых веб-страниц[4].
На момент 10 октября 2024 года в связи с начавшейся 9 октября DDoS атакой сервис оказался недоступен[5]. По заявлению основателя Брюстера Кейла сервис был отключен дабы сохранить данные в ущерб доступности сервиса[6]. 11 октября он также заявил, что данные сервиса повреждены не были, а в настоящее время идут работы по модернизации их внутренних систем[7]. Кейл предполагает, что это займёт дни, а не недели[8]. 14 октября сервис восстановил работу, временно приостановив возможность сохранять страницы[9].
Создание[править | править код]

В 1989 году английский учёный Тим Бернерс-Ли создал всемирную паутину — систему, позволяющую передавать данные через подключённые к интернету компьютеры. Однако с распространением всемирной паутины были выявлены две основные проблемы. Первая состояла в нехватке мест для хранения всех данных, из-за чего многие документы и веб-страницы удалялись. Другая проблема заключалась в том, что после редактирования веб-страницы (например, по юридическим причинам) пользователи не могли посмотреть её изначальную версию. Решить эти недостатки стремилась американская цифровая библиотека «Архив Интернета» — некоммерческая организация, созданная программистами Брюстером Кейлом и Брюсом Галлиатом[англ.] в 1996 году[10]. При сотрудничестве с Alexa Internet (дочерней компанией Amazon, занимающейся веб-индексированием) «Архив» инициировал создание и хранение копий существующих сайтов для развития «универсального доступа к знанию». Организация предоставляла бесплатный публичный доступ к оцифрованным материалам, таким как веб-страницы, книги, аудиозаписи, включая живые концерты, видео, изображения и программное обеспечение. На 2021 год штаб-квартира «Архива Интернета» находится в Сан-Франциско, в здании бывшей христианской церкви, расположенной в районе Ричмонд. Журналист местной радиостанции Kawl[англ.] в 2019 году сравнивал офис «Архива» с римским храмом[11][12][13]. Организация ставит перед собой цель спасти интернет от исчезновения[14].
Wayback Machine стал самым известным проектом «Архива». Онлайн-сервис был назван в честь машины времени из мультсериала 1960-х годов «Шоу Рокки и Буллвинкля». Он предоставляет доступ к цифровой коллекции из более чем 800 млрд различных веб-страниц[3][15]. Проект Wayback Machine был задуман как решение проблемы ошибки 404, означающей, что сервер не может найти данные по запрошенному адресу. Это связано с так называемым вымиранием ссылок — нарастающей недоступностью некогда опубликованных данных. Так, в 1997 году средняя продолжительность жизни веб-страницы составляла 44 дня. В 2003 году этот показатель составил 100 дней.
Проведённый в 2008 году анализ ссылок на 2700 цифровых ресурсов, большинство из которых не имеет печатных аналогов, показал, что около 8 процентов ссылок переставали работать через год. К 2011 году, по прошествии трёх лет, 30 процентов ссылок в коллекции были неработающими[16]. Благодаря интеграции с Alexa, столкнувшийся с сообщением об ошибке пользователь мог получить доступ к заархивированной версии страницы через внедрённую в браузер панель инструментов. Если копия недоступной страницы присутствовала в базе данных Wayback Machine, то загоралась специальная кнопка. При этом пользователи могли предоставить браузеру разрешение на просмотр и регистрацию активности — в таком случае все посещаемые сайты архивировались на портале[17].
Wayback Machine был запущен в мае 1996 года, однако стал доступным для общественности только в 2001 г. — до этого вся записанная на цифровых магнитных лентах информация была открыта только для ограниченного числа учёных и исследователей[18]. К моменту «открытия» архив содержал более 10 млрд заархивированных страниц[3]. К декабрю 2014 года руководство Wayback Machine сообщило, что сохранило 435 млрд веб-страниц по всему миру[1]. С технической точки зрения программное обеспечение Wayback Machine не является архивом, а скорее общедоступным интерфейсом к ограниченному подмножеству всех хранилищ[19]. Так, Wayback Machine нельзя считать поисковой системой коллекции организации, так как она не осуществляет поиск по базе данных другой крупной виртуальной библиотеки — Open Library, позволяющей пользователям бесплатно получать доступ к цифровым копиям книг, которые загружаются и архивируются в рамках проекта[20][21].
Характеристика[править | править код]
С запуском Wayback Machine «Архив Интернета» стал одним из самых популярных и узнаваемых онлайн-порталов и главным сервисом веб-архивирования[3][14].
В 1999 году «Архив» начал расширять коллекцию за пределы архивного веб-контента, чтобы обеспечить статус как к оцифрованным, так и изначально цифровым ресурсам, в том числе книгам, аудио, фильмам, изображениям, документам, программному обеспечению и видеоиграм[12]. Некоторые сканирования выполняются поисковыми роботами самого архива, а другие — партнёрскими организациями. Отдельные базы данных могут приобретаться за счёт пожертвований пользователей и целевых приобретений[21]. Сами создатели организации сравнивали свою коллекцию с Александрийской библиотекой[12].
На 2021 год Wayback Machine содержал около 424 млрд веб-страниц[19] — больше, чем документов в Библиотеке Конгресса[22][12][21].
Принцип работы[править | править код]
Платформа Wayback Machine функционирует за счёт двух основных элементов — поисковых роботов (или веб-краулеров) и интерфейса. Веб-краулеры занимаются посещением, извлечением, загрузкой и архивацией веб-страниц. В свою очередь, через интерфейс пользователи получают доступ к онлайн-коллекциям[2].
Поисковые роботы[править | править код]
Шаблон:Bar chart Изначально коллекция архива пополнялась за счёт браузерного плагина от Alexa Internet, который автоматически фиксировал и сохранял каждую веб-страницу по мере её посещения, затем передавая всю собранную информацию в «Архив Интернета». Пользователи также могли установить бесплатную панель инструментов, позволявшую проверять статус архивирования выбранного веб-сайта[21].
В 2002 году «Архив» запустил собственного поискового робота с открытым исходным кодом — Heritrix[англ.]. Коды краулеров записаны с помощью комбинации программных языков Си и Perl. Помимо этого, «Архив Интернета» также принимает данные сканирования от других доноров[12]. Отсканированные копии веб-сайтов автоматически конвертируются в файлы размером около 100 МБ, которые затем сохраняются на серверах. В 2002 году общая скорость пополнения архива составляла около 10 терабайт в месяц[23].
Веб-краулеры запечатляют версию сайта такой, какой она была сохранена на момент доступа к ней через URL. Роботы регулярно сканируют большое количество веб-страниц, рекурсивно загружая, анализируя и отображая HTML-, JavaScript- и CSS-страницы[2]. Механизм работы краулеров похож на работу поисковых систем — роботы самостоятельно ищут порталы для архивирования через систему поиска путей, сканируя страницы и связанные с ними сайты, таким образом формируя сеть порталов. На момент создания «Архива Интернета» всемирная сеть была настолько маленькой, что веб-краулеры могли совершить обход всех сайтов за один сеанс. Однако со временем постоянный рост онлайн-порталов и их изменчивость сделали полный обход всей сети практически невозможным. Таким образом, не все изменения на сайтах зафиксированы в Wayback Machine[14]. Руководство «Архива Интернета» не уточняет то, как роботы находят и выбирают страницы для сканирования, однако заявляет, что чаще всего краулеры направляются на те сайты, которые имеют перекрёстные ссылки с других порталов и находятся в открытом доступе. Сканер начинает с веб-страницы, а затем следует по каждой гиперссылке на этой веб-странице, чтобы перейти на новые сайты. На каждой из новых веб-страниц поисковый робот повторяет процесс[19]. Он будет продолжаться до того момента, пока архивация не будет остановлена или не достигнет установленного скриптом лимита[24]. Помимо этого, каждый пользователь может использовать специальную форму на портале и вызвать краулер, который сохранит страницу в текущем состоянии[2]. Wayback Machine сканирует только общедоступные веб-страницы и не может получить доступ к контенту, защищённому паролем или расположенному на частном сервере[15][19][3].
Интерфейс[править | править код]
Интерфейс Wayback Machine позволяет пользователям осуществить два основных действия — получить доступ к истории изменений сайта и просмотреть все сделанные на порталах правки. Также доступна функция сравнения разных версий сайтов[17][25][22][26]. Для этого в специальное окно поиска вводится URL интересующего портала, после чего Wayback Machine выдаёт список дат архивации. Звёздочка после некоторых дат используется для обозначения обнаруженных на странице изменений. URL-адрес заархивированной страницы начинается с web.archive.org[27][19].
Любой пользователь может сохранить URL-адреса для архивирования, а с бесплатной учётной записью в архиве можно создать и заархивировать любые исходящие или внешние ссылки на исходной странице и получить обзорный отчёт[28][28].
Хранение[править | править код]
На 2018 год коллекция «Архива Интернета» составляла более 40 петабайт, или 40 тыс. терабайт данных, Wayback Machine предоставлял доступ к примерно 63 % всех имеющихся материалов[29]. На февраль 2020 года в архиве Wayback Machine числилось более 900 млрд URL-адресов и более 400 млрд веб-страниц[30]. На июнь 2021 года Wayback Machine предоставлял доступ к более чем 581 млрд сохранённых веб-страниц[4].
Использование[править | править код]
Портал Wayback Machine зачастую применяют в правовой сфере — юристы используют сервис для поиска информации по гражданским искам, уголовным делам, в административном делопроизводстве и патентных процессах. Полученные через Wayback Machine архивные версии сайтов могут использоваться для решения вопросов о патентном праве или установлении наказания за публикацию материалов, которые впоследствии были удалены из сети[2][17]. Несмотря на широкое использование коллекции «Архива Интернета» для предоставления доказательств, некоторые суды США отказывались принимать скриншоты веб-страниц, ссылаясь на юридическую сложность отождествления оригинала документа и его заархивированной версии[31]. В 2018 году Апелляционный суд США по второму федеральному апелляционному округу постановил, что скрины с архива веб-страниц Wayback Machine относятся к законным доказательствам, которые могут быть использованы в судебных разбирательствах; ранее аналогичное решение вынес Апелляционный суд США по третьему федеральному апелляционному округу[32]; позднее Апелляционный суд США по седьмому федеральному апелляционному округу также признал скриншоты веб-архивов допустимыми электронными доказательствами[33].
Благодаря архивированным в Wayback Machine статьям авторы могут устанавливать право на открытие или на публикацию[34]. Для социологов и историков Wayback Machine предлагает ценный крупномасштабный источник данных для анализа поведения компаний, стратегий продаж, социальных практик[1][35]. Также Wayback Machine позволяет получать доступ к журналам открытого доступа. Так, с начала 2000-х годов из интернета исчезло 84 журнала ОД по естественным наукам и ещё около 100 — по социальным и гуманитарным[36][37][38].
Активисты и исследователи используют портал для борьбы с дезинформацией, особенно усилившейся после избрания президента Дональда Трампа в США. В ответ на участившиеся противоречивые заявления со стороны администрации президента «Архив» создал отдельную коллекцию под названием «Архив Трампа», содержащую выступления президента на телевидении и твиты. «Архив» надеется, что его хранилище поможет другим выявлять ложную информацию и проверять подозрительный контент[39][40]. Однако в некоторых случаях отдельные активисты утверждали, что заархивированные Wayback Machine ресурсы наоборот способствовали распространению дезинформации. Так, с началом пандемии коронавируса сторонники конспиративных теорий использовали сохранённые порталом скриншоты для распространения ложной информации о коронавирусе[41]. В качестве контрмер в ноябре 2020 года «Архив» внедрил в Wayback Machine инструменты проверки информации на достоверность. Для этого некоммерческая организация начала сотрудничать с различными компаниями, занимающимися проверкой фактов, чтобы предоставлять пользователям причины удаления той или иной страницы из коллекции. При открытии заархивированной версии сайта Wayback Machine предоставляет пользователям сведения о причине её удаления в виде жёлтого баннера вверху экрана. При подозрении на причастность веб-страницы к кампании по дезинформации Wayback Machine предоставляет данные об организации, проводившей проверку на достоверность, и ссылку на её отчёт[42].
В отдельных случаях полученная через Wayback Machine информация фигурировала в крупных скандалах. Так, Wayback Machine хранит копию удалённого сообщения со страницы, озаглавленной «Сводки от Стрелкова Игоря Ивановича» в социальной сети «ВКонтакте», о сбитом самолёте АН-26, который в действительности оказался пассажирским Boeing 777[43][44]. В мае 2021 года издание Bellingcat выяснило, что находящиеся в Европе американские военные использовали для хранения засекреченных данных детские мобильные приложения для запоминания информации. Из-за неправильно установленных настроек приватности другие пользователи получили доступ к секретной информации. После обнаружения утечки информации военные удалили все карточки, но они остались в сервисе Wayback Machine[45].
Правовой статус[править | править код]
«Архив Интернета» не запрашивает разрешения на копирование веб-сайтов перед удалённым сбором данных, однако удаляет или ограничивает доступ к архивным материалам по запросу. Ранее владельцам веб-сайтов предоставлялась возможность «отказаться» от архивирования через стандартный файл robots.txt, который исключает веб-сайты или их отдельные страницы, каталоги, из списка порталов для веб-краулеров[14][46]. По состоянию на 2022 год заявки на удаление сайтов или их страниц из архива принимаются только после прямого запроса от администрации удаляемого сайта. Однако из-за сохранения других данных «Архив Интернета» находится в уязвимом юридическом положении[47]. Так, в 2005 году Wayback Machine оказался втянутым в спор о товарных знаках между компаниями Healthcare Advocates и Health Advocate. Последняя использовала Wayback Machine для доступа к веб-страницам Healthcare Advocates, датируемым 1999 годом, в попытке найти информацию, которая поддержала бы дело. В ответ Healthcare Advocates подала в суд как на Health Advocate, так и на «Архив», утверждая что архив нарушил Закон об авторском праве в цифровую эпоху. Впоследствии дело было урегулировано в досудебном порядке[48].
В 2002 году «Архив» удалил из своей системы ссылки на архивные копии портала Xenu.net, принадлежащего критику церкви Андреасу Хельдал-Лунду. Удаление произошло по требованию юристов Церкви саентологии, заявивших, что владеют правом собственности на выдержки из документов Церкви, опубликованные на сайте[49][50].
Ограничения[править | править код]
Исследователи и активисты критикуют Wayback Machine и деятельность «Архива Интернета» за попытку сохранить все онлайн-материалы, многие из которых не представляют должной ценности. По мнению отдельных исследователей, это связано с устаревшей политикой «Архива», который был основан в конце 1990-х годов — тогда, на заре создания интернет-архивов, считалось, что данные интернета должны сохраняться в полном объёме. Однако с созданием множества однодневных сайтов многие исследователи и активисты поменяли своё мнение[51]. Другие критические замечания относятся к техническим ограничениям сервиса — Wayback Machine не позволяет сохранять и обрабатывать определённые элементы JavaScript, а также может создавать заархивированные страницы, содержащие неработающие ссылки, отсутствующую графику или являющиеся неполными по иным причинам[52]. Сканеры захватывают только статический снимок сайта — функции порталов на основе Java или Flash работать не будут. Это означает, что бо́льшая часть функциональных возможностей исходной веб-страницы теряется[14].
Блокировки[править | править код]
В 2015 году Роскомнадзор принял решение заблокировать Wayback Machine за копию страницы текста «Одиночный джихад в России», содержащего информацию о «теории и практике партизанского сопротивления». Соответствующая страница в «Архиве Интернета» была добавлена в официальный реестр запрещённых веб-сайтов в России 23 июня 2015 года, из-за чего некоторые российские интернет-провайдеры были вынуждены полностью заблокировать сайт «Архива»[53][54][55]. Доступ к Wayback Machine был заново открыт в 2016 году, после того как запрещённые ролики удалили с портала[56].
В 2019 году представители «Ассоциации по защите авторских прав в интернете» (АЗАПИ) подали серию исков против сервиса Wayback Machine за нарушение авторских прав. Представители АЗАПИ запросили Мосгорсуд вынести решение о вечной блокировке портала на территории России, однако на август 2020 года «Архив Интернета» по-прежнему продолжал свою работу[57][58][59][60].
В 2017 году портал был заблокирован в Индии и Кыргызстане за содержание «экстремистских материалов»[61][62][63]. По данным на 2021 год, сайт заблокирован в Китае[64].
В июне 2022 года Таганский райсуд Москвы оштрафовал «Архив Интернета» на 800 тыс. рублей за неудаление из WayBack Machine видео о способах изготовления коктейля Молотова[65].
Примечания[править | править код]
- ↑ 1,0 1,1 1,2 Arora, 2015.
- ↑ 2,0 2,1 2,2 2,3 2,4 Lerner, 2017, pp. 1741—1755.
- ↑ 3,0 3,1 3,2 3,3 3,4 Michael Bryant. What is the Wayback Machine and Why is it Useful? (англ.). Groovy Post (22 апреля 2021). Дата обращения: 29 мая 2021. Архивировано 18 мая 2021 года.
- ↑ 4,0 4,1 Wayback Machine (англ.). Wayback Machine. Дата обращения: 7 июня 2021.
- ↑ Заявление основателя сервиса о DDoS атаке . Twitter (X). Дата обращения: 10 октября 2024. Архивировано 9 октября 2024 года.
- ↑ Сервис отключен дабы сохранить данные . Twitter (X). Дата обращения: 10 октября 2024. Архивировано 24 декабря 2024 года.
- ↑ Данные после атаки повреждены не были . Twitter (X). Дата обращения: 11 октября 2024. Архивировано 22 октября 2024 года.
- ↑ Информация о сроках восстановления . Twitter (X). Дата обращения: 12 октября 2024. Архивировано 5 ноября 2024 года.
- ↑ Сервис частично восстановил работу . Twitter (X). Дата обращения: 18 октября 2024. Архивировано 4 ноября 2024 года.
- ↑ Jack Schofield. The Time Machine (англ.). The Guardian (19 ноября 2007). Дата обращения: 1 июня 2021. Архивировано 19 апреля 2021 года.
- ↑ Dominic Cummings: how the internet knows when you’ve updated your blog (англ.). The Conversation (28 мая 2020). Дата обращения: 3 июня 2021. Архивировано 25 июля 2021 года.
- ↑ 12,0 12,1 12,2 12,3 12,4 Odgen, 2017.
- ↑ In An Old Church, The Internet Archive Stores Our Digital History (англ.). Kalw. San Francisco local public radio (11 сентября 2019). Дата обращения: 3 июня 2021. Архивировано 6 мая 2021 года.
- ↑ 14,0 14,1 14,2 14,3 14,4 Price, 2011.
- ↑ 15,0 15,1 Jenni McKinnon. Using the Wayback Machine to Archive (and Backup) WordPress (англ.). WPMudev (25 мая 2017). Дата обращения: 29 мая 2021. Архивировано 13 апреля 2021 года.
- ↑ Adrienne LaFrance. Raiders of the Lost Web (англ.). The Atlantic (14 октября 2015). Дата обращения: 7 июня 2021. Архивировано 7 мая 2017 года.
- ↑ 17,0 17,1 17,2 Rogers, 2017, pp. 160—172.
- ↑ Hartelius, 2020, p. 378.
- ↑ 19,0 19,1 19,2 19,3 19,4 Bowyer, 2021, pp. 43—57.
- ↑ Aja Romano. A lawsuit is threatening the Internet Archive — but it’s not as dire as you may have heard (англ.). Vox (23 января 2020). Дата обращения: 29 мая 2021. Архивировано 18 августа 2021 года.
- ↑ 21,0 21,1 21,2 21,3 Kalev Leetaru. The Internet Archive Turns 20: A Behind The Scenes Look At Archiving The Web (англ.). Forbes (18 января 2016). Дата обращения: 5 июня 2021. Архивировано 15 августа 2021 года.
- ↑ 22,0 22,1 O'Connor, 2008, p. 64.
- ↑ Richard Koman. How the Wayback Machine Works (англ.). Xml.com (21 января 2002). Дата обращения: 5 июня 2021. Архивировано 28 мая 2021 года.
- ↑ A. Rossi. Worldwide Web Crawls (англ.). Internet Archive (5 октября 2010). Дата обращения: 5 июня 2021.
- ↑ Laura Bohannon. Wayback Machine archives websites for over 20 years (англ.). Spartan News Room (7 декабря 2017). Дата обращения: 5 июня 2021. Архивировано 24 июня 2021 года.
- ↑ Maemura, 2018.
- ↑ Notess, 2002.
- ↑ 28,0 28,1 Mark Graham. Tips for Using the Internet Archive’s Wayback Machine in Your Next Investigation (англ.). Global Investigative Journalism Network (5 мая 2021). Дата обращения: 29 мая 2021. Архивировано 29 мая 2021 года.
- ↑ Zachary Crockett. Inside Wayback Machine, the internet’s time capsule (англ.). The Hustle (28 сентября 2018). Дата обращения: 29 мая 2021. Архивировано 2 октября 2018 года.
- ↑ Евгений Делюкин. Браузер Brave от сооснователя Mozilla стал предлагать копии из «архива интернета» вместо удалённых веб-страниц (англ.). vc.ru (26 февраля 2020). Дата обращения: 1 июня 2021. Архивировано 24 июня 2021 года.
- ↑ Eltgroth, 2009.
- ↑ Kieren McCarthy. Archive.org's Wayback Machine is legit legal evidence, US appeals court judges rule (англ.). The Register (4 сентября 2018). Дата обращения: 4 июня 2021. Архивировано 2 июня 2021 года.
- ↑ Маргарита Сазонова. Электронные доказательства в спорах в сфере интеллектуальной собственности . Гарант (26 октября 2020). Дата обращения: 5 июня 2021. Архивировано 24 июня 2021 года.
- ↑ Pearce, 2009, p. 875.
- ↑ Milligan, 2016.
- ↑ Jeffrey Brainard. Dozens of scientific journals have vanished from the internet, and no one preserved them (англ.). Science (8 сентября 2020). Дата обращения: 1 июня 2021. Архивировано 15 октября 2020 года.
- ↑ Diana Kwon. More than 100 scientific journals have disappeared from the Internet (англ.). Nature (10 сентября 2020). Дата обращения: 1 июня 2021. Архивировано 3 октября 2020 года.
- ↑ avouner. Десятки научных журналов исчезли из интернета за последние 20 лет и никто их не сохранил . Хабр (10 сентября 2020). Дата обращения: 5 июня 2021. Архивировано 24 июня 2021 года.
- ↑ Camilla Hodgson. How the Internet Archive is waging war on misinformation (англ.). Financial Times (17 сентября 2019). Дата обращения: 3 июня 2021. Архивировано 28 июня 2021 года.
- ↑ Mary Kay Magistad. Where to find what's disappeared online, and a whole lot more: the Internet Archive (англ.). PRI.org (23 февраля 2017). Дата обращения: 7 июня 2021. Архивировано 28 марта 2017 года.
- ↑ Acker, 2020.
- ↑ Wayback Machine теперь проверяет информацию на достоверность для архивных веб-страниц . Trash Box (2 ноября 2020). Дата обращения: 5 июня 2021. Архивировано 24 июня 2021 года.
- ↑ Did the Wayback Machine Catch Russian-Backed Rebels Claiming Responsibility for Malaysian Airlines Flight MH17? (англ.). Open Culture (19 июля 2014). Дата обращения: 3 июня 2021. Архивировано 24 июня 2021 года.
- ↑ Jil Lepore. The Cobweb (англ.). New Yorker (19 января 2015). Дата обращения: 7 июня 2021. Архивировано 25 января 2015 года.
- ↑ Дамир Камалетдинов. В сеть попали секретные данные об американском ядерном оружии — военные записывали их в школьных приложениях (англ.). TJournal (30 мая 2021). Дата обращения: 5 июня 2021. Архивировано 24 июня 2021 года.
- ↑ Carolyn Wimbly Martin. Internet Archive’s Open Library and Copyright Law (англ.). Lutzker (15 мая 2020). Дата обращения: 4 июня 2021. Архивировано 24 июня 2021 года.
- ↑ Nate Anderson. Copy some webpages, owe more than the national debt (англ.). Ars Technica (1 мая 2011). Дата обращения: 5 июня 2021. Архивировано 24 июня 2021 года.
- ↑ Eric Bangeman. Internet Archive settles suit over Wayback Machine . Ars Technica (31 августа 2006). Дата обращения: 7 июня 2021. Архивировано 5 ноября 2007 года.
- ↑ Lisa M. Bowman. Net archive silences Scientology critic (англ.). CNET (24 сентября 2002). Дата обращения: 10 июня 2021. Архивировано 15 мая 2012 года.
- ↑ Ernest Miller. Features: Sherman, Set the Wayback Machine for Scientology (англ.). LawMeme (24 сентября 2002). Дата обращения: 10 июня 2021. Архивировано из оригинала 16 ноября 2012 года.
- ↑ Nora Caplan-Bricker. Preservation Acts (англ.). Harper's Magazine (декабрь 2018). Дата обращения: 2 июня 2021. Архивировано 5 мая 2021 года.
- ↑ Crudo, 2014.
- ↑ Mike Masnick. Russia Blocks The Internet Archive's Wayback Machine Over A Single Page (англ.). Tech dirt (26 июня 2015). Дата обращения: 3 июня 2021. Архивировано 4 июня 2021 года.
- ↑ Роскомнадзор заблокировал архив интернета из-за "Одиночного джихада" . Московский комсомолец (25 июня 2015). Дата обращения: 5 июня 2021. Архивировано 24 июня 2021 года.
- ↑ Роскомнадзор заблокировал страницу «архива интернета» за экстремизм . Lenta (25 июня 2015). Дата обращения: 5 июня 2021. Архивировано 22 сентября 2021 года.
- ↑ Дмитрий Шестоперов, Анастасия Евтушенко. «Архив интернета» снова в сети . Газета.ru (18 апреля 2016). Дата обращения: 9 декабря 2021. Архивировано 3 мая 2021 года.
- ↑ АЗАПИ хочет навечно заблокировать «Архив Интернета» . Роскомсвобода (22 августа 2019). Дата обращения: 5 июня 2021. Архивировано 4 июня 2021 года.
- ↑ «Архив интернета» могут навечно заблокировать в России . CNews (23 августа 2019). Дата обращения: 7 июня 2021. Архивировано 24 июня 2021 года.
- ↑ Россияне потребовали запретить в Европе Telegram, YouTube и Mail.ru . CNews (19 августа 2020). Дата обращения: 7 июня 2021. Архивировано 24 июня 2021 года.
- ↑ Американские издатели книг подали в суд на Internet Archive . Ведомости (2 июня 2020). Дата обращения: 5 июня 2021. Архивировано 24 июня 2021 года.
- ↑ Access to Internet Archive’s Wayback Machine Blocked in India (англ.). The Wire (8 августа 2017). Дата обращения: 3 июня 2021. Архивировано 24 июня 2021 года.
- ↑ Wayback Machine has been blocked in India (англ.). The Verge (9 августа 2017). Дата обращения: 5 июня 2021. Архивировано 24 июня 2021 года.
- ↑ Kyrgyzstan Blocks Archive.org on ‘Extremism’ Grounds (англ.). Global Voices. Дата обращения: 5 июня 2021. Архивировано 18 мая 2021 года.
- ↑ Anna Kramer. The internet is splitting apart. The Internet Archive wants to save it all forever (англ.). Protocol (10 марта 2021). Дата обращения: 9 июня 2021. Архивировано 1 июня 2021 года.
- ↑ Машину времени увезли на штрафстоянку . Коммерсантъ (28 июня 2022). Дата обращения: 1 июля 2022.
Литература[править | править код]
- Acker, A., & Chaiet, M. The weaponization of web archives: Data craft and COVID-19 publics. (англ.) // Harvard Kennedy School (HKS) Misinformation Review. — 2020. — doi:10.37016/mr-2020-41.
- Anat Ben-David, Adam Amram. The Internet Archive and the socio-technical construction of historical facts (англ.) // Internet Histories. — 2018. — doi:10.1080/24701475.2018.1455412.
- Arora S., Li Y., Youtie J., Shapira P. Using the wayback machine to mine websites in the social sciences: A methodological resource (англ.). — 2015. — Vol. 67, iss. 8. — P. 1904—1915. — doi:10.1002/asi.23503.
- Bowyer S. The Wayback Machine: notes on a re‑enchantment (англ.) // Archival Science. — 2021. — Vol. 21. — P. 43—57.
- Deborah R. Eltgroth. Best Evidence and the Wayback Machine: Toward a Workable Authentication Standard for Archived Internet Evidence (англ.) // Fordham L. Rev.. — 2009. — Vol. 78, iss. 181.
- Greg R. Notess. The Wayback Machine: The Web's Archive (англ.) // Online. — 2002. — Vol. 26, iss. 2.
- Hartelius J. The anxious flâneur: Digital archiving and the Wayback Machine (англ.) // Quarterly Journal of Speech. — 2020. — Vol. 106, iss. 4. — P. 377—398.
- James L. Quarles III and Richard A. Crudo. [Way]Back to the Future: Using the Wayback Machine in Patent Litigation (англ.) // Landslide. — 2014. — Vol. 6, iss. 3.
- Lerner A., Kohno T., Roesner F. Rewriting History: Changing the Archived Web from the Present (англ.) // Association for Computing Machinery. — 2017. — doi:10.1145/3133956.3134042.
- Maemura E., Worby N., Milligan I., Becker C. If These Crawls Could Talk: Studying and Documenting Web Archives Provenance (англ.) // Journal of the association for information science and technology. — 2018. — Vol. 69, iss. 10. — P. 1223—1233.
- Milligan I. Lost in the Infinite Archive: The Promise and Pitfalls of Web Archives (англ.) // International Journal of Humanities and Arts Computing. — 2016.
- Murphy J., Hashim N., O’Connor P. Take Me Back: Validating the Wayback Machine (англ.) // Journal of Computer-Mediated Communication. — 2008. — Iss. 13. — P. 60—75.
- Odgen J., Halford S., Carr L. Observing Web Archives (англ.) // WebSci. — 2017. — P. 299—308.
- Pearce D., Charlton B. Plagiarism of online material may be proven using the Internet Archive Wayback Machine (archive.org) (англ.) // Medical Hypothesis. — 2009. — P. 875.
- Price. Internet Archiving – The Wayback machine (англ.) // MLA Commons. — 2011.
- Phyllis Holman Weisbard. Oldies but Goodies: Archiving WebBased Information (англ.) // Feminist Collections. — 2011. — Vol. 32, iss. 2.
- Rogers R. Doing Web history with the Internet Archive: screencast documentaries (англ.) // Internet Histories. — 2017. — Vol. 1, iss. 1—2. — P. 160—172. — doi:10.1080/24701475.2017.1307542.