Система для поиска по «теневому» Интернету
16.02.2015
Размеры всемирной паутины действительно впечатляют. Тысячи дата-центров, в которых хранятся миллиарды сайтов, содержащих миллионы терабайт информации по всем возможным областям знаний.
Но мало кто задумывается о том, что сеть, индексируемая обычными поисковиками, это лишь часть всего массива данных, доступных через интернет. Причем, согласно некоторым экспертным оценкам, «в тени» информации в разы больше.
Скрытый от глаз поисковиков интернет, называемый «теневым», заинтересовал американское государственное агентство DARPA. Учреждение, занимающееся перспективными научно-исследовательскими работами оборонного характера, организовалоразработку поисковой системы, которая бы свободно ориентировалась в «теневом» информационном пространстве.
На сегодняшний день к данному проекту уже привлечено семнадцать команд программистов, которые работают независимо одна от другой. За год активной работы в стадию тестирования перешли некоторые прототипы программных комплексов, способных проводить работу по индексации и архивированию «серых» сайтов.
При этом более детальная информация о наработках не раскрывается. Неизвестно, насколько серьезные успехи достигнуты в этом проекте, который получил название Memex.
Система «Memex» сможет вести поиск в самых отдалённых уголках Всемирной Паутины, недостижимых для современных поисковиков.
Доктор Крис Уайт, курирующий разработку поисковой системы по «теневому» интернету, говорит, что на пути к пониманию настоящей природы всемирной паутины стоит шаблонный подход, который основан на коммерческих интересах определенных структур.
Поисковики, даже самые знаменитые, такие как Google, Yandex, Meta, Rambler, Nigma, Yahoo и другие, индексируют лишь двадцатую часть ресурсов, присутствующих в глобальной сети. Те сайты, которые не несут коммерческой или рекламной нагрузки, попросту игнорируются. И таких сайтов миллионы.
Кроме того, существует довольно неплохо законспирированная сеть TOR, количество сайтов в которой составляет примерно от десяти до сорока тысяч. Также имеются проекты создания других систем анонимайзеров, например – I2P.
Предполагается, что поисковая система будет помогать правоохранительным органам бороться с преступностью, процветающей на неприметных web-форумах, скрытых сервисах и других нелегальных сайтах.
Поисковая система будет работать с «теневым Интернетом», используя технологии домен-специфического индексирования материалов и домен-специфических поисковых возможностей.
Кроме того, «Memex» будет работать с ботами-пауками, которые сумеют добраться до сайтов и ресурсов, имеющих сложную защиту, после чего операторы «Memex» будут обращаться к проиндексированному домен-релевантному контенту с большей точностью и лёгкостью, чем это возможно на сегодняшний день.
Заказчиков и разработчиков интересует изучение закономерностей работы всемирной паутины. Тут есть и чисто практический интерес. Например, доступ правоохранительных органов к интересующей их информации, или же пресечение шпионской деятельности.