Как и зачем мы создали поисковый сервис WebInsight

WebInsight – поисковый сервис по невидимой части сети Интернет, а именно, по документам ФНС, ФССП, Пенсионного фонда, ФАС, Трудовой инспекции, ФРС, МЧС, Арбитражного суда, МВД, ФСБ, а также по документам правоохранительных, контрольных и надзорных органов стран СНГ: Украины, Узбекистана, Казахстана, Белоруссии, Молдовы, Приднестровья, Таджикистана, Азербайджана, Киргизии, Абхазии и т.п.

Краткое резюме

WebInsight – поисковый сервис по невидимой части сети Интернет, а именно, по документам ФНС, ФССП, Пенсионного фонда, ФАС, Трудовой инспекции, ФРС, МЧС, Арбитражного суда, МВД, ФСБ, а также по документам правоохранительных, контрольных и надзорных органов стран СНГ: Украины, Узбекистана, Казахстана, Белоруссии, Молдовы, Приднестровья, Таджикистана, Азербайджана, Киргизии, Абхазии и т.п.

Невидимый интернет

Ежедневно в сети Интернет появляются миллионы документов, как частных лиц, так и компаний и даже государственных ведомств. К большому сожалению для всех нас, поисковики зачастую не могут все их проиндексировать. Связано это с несколькими причинами:
1. ссылка на документ не опубликована на известной поисковикам странице;
2. документы выкладываются в неизвестном для робота формате, зачастую просто сжаты редкими архиваторами типа .kgb и т.п.;
3. документы выкладываются виде баз данных, результат выдачи информации в которых зависит от запроса;
4. индексация сайта запрещена файлом robots.txt;
5. вновь выложенные документы, быстро удаляются с сервера, так и не успев проиндексироваться.

Все это приводит к появлению так называемого невидимого Интернета. Выражаясь понятным для всех языком, невидимый интернет, это та часть сети, которую не видят поисковый роботы, и как следствие не видим мы с вами. По оценкам различных экспертов, невидимый интернет составляет долю от 20% до 50% всего контента сети, что согласитесь довольно не мало, особенно если вы работаете с информацией, и Интернет в вашей работе играет ключевую роль!

Невидимый интернет и государство

С приходом к власти Дмитрия Медведева, перед государственными ведомствами была поставлена задача по повышению их присутствия в сети Интернет. Это должно было привести к появлению интерактивных сервисов на сайтах ведомств и как следствие к повышению информированности населения об их работе. Ведь одним из результатом работы многих ведомств является создание различного рода документа, которые так необходимы предпринимателям для минимизации своих деловых рисков. Речь идет о следующих документах: списки должников (компаний) по налогам; списки индивидуальных предпринимателей – должников по налогам; списки должников по алиментам; списки физ.лиц должников по транспортному налогу; списки дисквалифицированных лиц; списки компаний зарегистрированных по поддельным паспортам; списки адресов массовой регистрации; списки компаний зарегистрированных по адресам массовой регистрации; списки компаний; чьи учредители являются массовыми; списки массовых заявителей; списки компаний должников по выплатам заработной платы; списки недобросовестных поставщиков государственных структур, списки лиц причастных к террористической деятельности; списки лиц причастных к отмыванию преступных доходов; списки разыскиваемых лиц по подозрению в участии преступления; списки аннулированных ИНН и ОГРН и т.п.

Обладать этой информацией крайне необходимо, так как сотрудничая с лицами указанными в данных списках, вы попадаете в поле зрения контрольных и правоохранительных ведомств как СОУЧАСТНИК!

Услышав призыв Медведева о повышении информированности населения о своей деятельности, многие из ведомств «тупо» начали выкладывать подобные файлы на своих веб-сайтах, а поскольку уровень компьютерной грамотности у многих сотрудников данных ведомств откровенно оставляет желать лучшего, то это привело к тому, что и было написано выше – к невидимому интернету! То есть желание перед глазами президента побыстрее отчитаться о повышении уровня открытости перед налогоплатильщиками привело к тому, что подобной информацией могут пользоваться лишь единицы! И вот почему, для того чтобы проверить своего контрагента на причастность к незаконной деятельности вам понадобится:
1. выявить все региональный сайты необходимого вам ведомства;
2. найти на них данные списки, что крайне проблематично;
3. скачать списки;
4. открыть файл в необходимом формате;
5. осуществить поиск;
6. перейти к п.1 и начать поиск по другому ведомству!

А ведь ведомств, которые публикуют подобные списки у нас более десяти: ФНС, ФССП, Росфинмониторинг, Пенсионный фонд, ФАС, Трудовая инспекция, ФРС, МЧС, Арбитражный суд, МВД, ФСБ и т.п. Таким образом осуществить процедуру «Знай своего клиента — Know your customer», которая обязательна для всего цивилизованного западного бизнеса, в российских условия практически невозможно, либо приводит к большим затратам человеческого ресурса!

WebInsight

Сотрудники компании «Р-Техно», которая специализируется на бизнес-разведке, пришли к выводу о необходимости создания единого поискового сервиса по подобного рода документам — WebInsight! На протяжении длительного времени сотрудниками «Р-Техно» был осуществлен анализ сайтов государственных ведомств на предмет выявления «невидимых» документов. Результатом подобной работы явилось – разработка алгоритма мониторинга и робота для выкачивания документов из интересующих сайтов. На данный момент времени, спустя год после запуска сервиса, можно откровенно признать его одним из удачных проектов компании, который абсолютно бесплатно предоставляет столь необходимую информацию для аналитиков бизнес-разведки и специалистов служб безопасности, а также для любого желающего. Сервис насчитывает более 25 тысяч документов, как российских государственных структур, так и стран СНГ и международных организация борющихся с отмыванием преступных доходов и финансировании терроризма. Файловый архив ежемесячно пополняется новыми документами.

Ссылка на проект WebInsight — http://r-techno.com/rtechno/inteltechno/webinsight/

Роман В. Ромачев

03.06.10

Роман В. Ромачев