Изменения
Перейти к навигации
Перейти к поиску
Строка 91:
Строка 91:
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
нет описания правки
|accessdate=2021-06-05}}
|accessdate=2021-06-05}}
</ref>.
</ref>.
== Принцип работы ==
Платформа Wayback Machine функционирует за счёт двух основных элементов — поисковых роботов (или ''веб-краулеров'') и интерфейса. Веб-краулеры занимаются посещением, извлечением, загрузкой и архивацией веб-страниц. В свою очередь, через интерфейс пользователи получают доступ к онлайн-коллекциям{{sfn|Lerner|2017|с=1741—1755}}.
Изначально коллекция архива пополнялась за счёт браузерного [[плагин]]а от Alexa Internet, который автоматически фиксировал и сохранял каждую веб-страницу по мере её посещения, затем передавая всю собранную информацию в Архив Интернета. Пользователи также могли установить бесплатную панель инструментов, позволявшую проверять статус архивирования выбранного веб-сайта<ref name=Forbes/>.
В 2002 году Архив запустил собственный [[поисковой робот]] — {{iw|Heritrix|||}} с открытым исходным кодом. Коды краулеров записаны с помощью комбинации [[Си (язык программирования)|программных языков Cи]] и [[Perl]]. Помимо этого, Архив Интернета также принимает данные сканирования от других доноров{{sfn|Odgen|2017}}. Отсканированные копии веб-сайтов автоматически конвертируются в файлы размером около 100 МБ, которые затем сохраняются на серверах. Общая скорость пополнения архива составляет около 10 [[терабайт]] в месяц<ref name=Kahle>{{cite web
|url=https://www.xml.com/pub/a/ws/2002/01/18/brewster.html
|title=How the Wayback Machine Works
|author=Richard Koman
|date=2002-01-21
|publisher=Xml.com
|accessdate=2021-06-05}}
</ref>.
Веб-краулеры запечатляют версию сайта такой, какой она была сохранена на момент доступа к ней через URL. Роботы регулярно сканируют большое количество веб-страниц, рекурсивно загружая, анализируя и отображая [[HTML]], [[JavaScript]] и [[CSS]] страницы{{sfn|Lerner|2017|с=1741—1755}}. Механизм работы краулеров похож на работу поисковых систем — роботы самостоятельно ищут порталы для архивирования через систему поиска путей, сканируя страницы и связанные с ними сайты, таким образом формируя сеть порталов. На момент создания Архива, всемирная сеть была настолько маленькой, что веб-краулеры могли совершить обход всех сайтов за один сеанс. Однако со временем постоянный рост онлайн-порталов и их изменчивость сделали полный обход всей сети практически невозможным. Таким образом, не все изменения на сайтах зафиксированы в Wayback Machine{{sfn|Price|2011}}. Руководство Архива не уточняет то, как роботы находят и выбирают страницы для сканирования, однако заявляет, что чаще всего краулеры направляются на те сайты, которые имеют перекрёстные ссылки с других порталов и находятся в открытом доступе. Сканер начинает с веб-страницы, а затем следует по каждой гиперссылке на этой веб-странице, чтобы перейти на новые сайты. На каждой из новых веб-страниц поисковый робот повторяет процесс{{sfn|Bowyer|2021|с=43—57}}. Он будет продолжаться до того момента, пока архивация не будет остановлена или не достигнет установленного скриптом лимита<ref>{{cite web
|url=https://archive.org/details/widecrawl&tab=about
|title=Worldwide Web Crawls
|author=A. Rossi
|date=2010-10-05
|publisher=Internet Archive
|accessdate=2021-06-05}}
</ref>. Помимо этого, каждый пользователь может использовать специальную форму на портале и вызвать краулер, который сохранит страницу в текущем состоянии{{sfn|Lerner|2017|с=1741—1755}}. Wayback Machine сканирует только общедоступные веб-страницы и не может получить доступ к контенту, защищённому паролем или расположенному на частном сервере<ref name=McKinnon/>{{sfn|Bowyer|2021|с=43—57}}<ref name=Bryant/>.
== Примечания ==
== Примечания ==