Поисковые системы общего назначения
Тема 3.1.1 Поиск информации в Интернет
Сеть Интернет растет очень быстрыми темпами, поэтому найти нужную информацию среди сотен миллиардов Web-страниц и сотен миллионов файлов становится все сложнее. Для поиска информации используются специальные поисковые системы, которые содержат постоянно обновляемую информацию о местонахождении Web-страниц и файлов на сотнях миллионов серверов Интернета.
При поиске информации необходимо ответить на три вопроса: что искать, то есть, какие источники информации, где искать (места размещение этих источников) и как искать (какие инструменты для этого использовать).
Каковы основные источники информации, представленные в Интернете? Это документы WWW, статьи в группах новостей и списках рассылки, файлы в библиотеках файлов, справочники адресной информации организаций и людей (электронная почта, адрес, телефон), статьи в тематических базах данных, энциклопедиях.
Где эти источники информации размещаются? Это такие популярные ресурсы Интернет, как WWW, группы новостей, списки рассылки и FTP-серверы.
Безусловно, можно искать нужные источники информации вручную, узнавать адреса из специализированных журналов по информатике и Интернету, использовать специальные бумажные справочники с классифицированными по категориям адресами.
Однако для такого изменчивого пространства как Интернет необходимо научиться пользоваться специальными инструментами, цель которых – собирать данные об информационных ресурсах и предоставлять пользователям услугу быстрого поиска.
ИПС (информационно-поисковая система) – это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.
Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска – релевантность.
Релевантность – это соответствие результатов поиска сформулированному запросу.
Поисковые серверы Интернета можно разделить на две группы:
– поисковые системы общего назначения;
– специализированные поисковые системы.
Поисковые системы общего назначения
Интерфейс поисковых систем общего назначения содержит поле поиска и список разделов каталога. Выделяют следующие поисковые инструменты для WWW: каталоги, поисковые системы, метапоисковые системы.
Каталог
Каталог – поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми.
Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины. База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса.
Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на первоисточник.
Адреса популярных каталогов:
1 Зарубежные каталоги:
а) Yahoo – www.yahoo.com;
б) Look Smart – www.looksmart.com;
в) Magellan – www.mckinley.com;
г) еiNET – www.einet.net.
2 Российские каталоги:
а) Апорт (Созвездие Internet) – www.aport.ru;
б) АУ – www.au.ru;
в) Weblist – www.weblist.ru;
г) Улитка – www.ulitka.ru.
В базе данных поисковой системы Web-сайты группируются в иерархические тематические каталоги, которые являются аналогами тематического каталога в библиотеке.
Тематические разделы верхнего уровня, например: Интернет, Компьютеры, Наука и образование и так далее, содержат вложенные каталоги. Например, каталог Интернет может содержать подкаталоги Поиск, Почта и другие.
Поиск информации в каталоге сводится к выбору определенного каталога, после чего пользователю будет представлен список ссылок на Интернет-адреса наиболее посещаемых и содержательных Web-сайтов. Каждая ссылка обычно аннотирована, то есть содержит короткий комментарий к содержанию документа.
Наиболее полный многоуровневый иерархический тематический каталог русскоязычных Интернет-ресурсов имеет поисковая система Апорт (www.aport.ru). Каталог содержит подробную аннотацию содержания Web-сайтов и указание на их географическое положение.
Поисковая машина
Поисковая машина – поисковая система с формируемой роботом базой данных, содержащей информацию об информационных ресурсах.
Отличительной чертой поисковых машин является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и так далее, формируется программой-роботом.
Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками. Например, для поиска самих систем поиска в Интернете можно в поле поиска ввести ключевые слова «российская система поиска информации Интернет».
Через некоторое время после отправки запроса поисковая система вернет список Интернет-адресов документов, в которых были найдены заданные ключевые слова. В описании документа чаще всего содержится несколько первых предложений или выдержки из текста документа с выделением ключевых слов. Как правило, указана дата обновления (проверки) документа, его размер в килобайтах, некоторые системы определяют язык документа и его кодировку (для русскоязычных документов).
Для просмотра этого документа в браузере достаточно активизировать указывающую на него ссылку.
Если ключевые слова были выбраны неудачно, то список адресов документов может быть слишком большим (может содержать десятки и даже сотни тысяч ссылок). Для того чтобы уменьшить список, можно в поле поиска ввести дополнительные ключевые слова или воспользоваться каталогом поисковой системы.
Многие поисковые системы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов. Если интеллектуальность системы высока, вам могут предложить услугу поиска похожих документов. Для этого вы выбираете особо понравившийся документ и указываете его системе в качестве образца для подражания. Но часто эта функция работает неадекватно вашим надеждам. Некоторые поисковики позволяют провести пересортировку результатов. Для экономии вашего времени можно сохранить результаты поиска в виде файла на локальном диске для последующего изучения в автономном режиме.
Адреса наиболее популярных поисковых машин за рубежом и в России:
1 Зарубежные поисковые машины:
а) Google – www.google.com;
б) Alta Vista – www.altavista.com;
в) Excite – www.excite.com;
г) HotBot – www.hotbot.com;
д) Nothern Light – www.northernlight.com;
е) Go (Infoseek) – www.go.com (infoseek.com);
ж) Lycos – www.lycos.com;
з) Fast – www.alltheweb.com.
2 Российские поисковые машины:
а) Яndex – www.yandex.ru (или www.ya.ru);
б) Рамблер – www.rambler.ru;
в) Апорт – www.aport.ru.
Одной из наиболее полных и мощных поисковых систем является Google (www.google.ru), в базе данных которой хранятся 8 миллиардов Web-страниц и каждый месяц программы-роботы заносят в нее 5 миллионов новых страниц. В Рунете (российской части Интернета) обширные базы данных, содержащие по 200 миллионов документов, имеют поисковые системы Яндекс (www.yandex.ru) и Rambler (www.rambler.ru).
Метапоисковая машина
Обратите внимание на то, что различные поисковые системы описывают разное количество источников информации в Интернет. Поэтому нельзя ограничиваться поиском только в одной из указанных поисковых системах. Теперь познакомимся с инструментами поиска, которые не формируют собственный индекс, но умеют использовать возможности других поисковых систем. Это метапоисковые системы (поисковые службы) – системы, способные послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками.
Метапоисковые системы не имеют собственной базы данных. Они представляют собой программы, которые принимают запрос пользователя, обрабатывают этот запрос с помощью алгоритмов искусственного интеллекта и затем ищут поисковые машины. То есть, они являются поисковыми машинами поисковых машин. Преимущество этих систем заключается в их способности синтезировать цель поиска, а не только проводить поиск в соответствии со словесным запросом. Результаты такого поиска понятны для пользователя и в наибольшей степени соответствуют тому, что он ищет. Метапоисковые сайты предлагают огромное количество опций, стремясь быть полезными для любого пользователя. Имеются различные версии метапоисковых систем, которые постоянно просматривают Интернет на предмет информации, соответствующей вашим критериям поиска.
Когда система находит новую информацию, она предупреждает вас или автоматически загружает ее. Если вы хотите найти сайты, посвященные общим вопросам, путешествиям и так далее, то метапоисковые машины позволят быстрее всего получить доступ к нужной информации. Они также предлагают прямой доступ к сайтам со специфической информацией, таким как телефонные справочники, путеводители и правительственные сайты. Время работы метапоисковых систем обычно несколько увеличено, так как они опрашивают другие поисковые машины. К ним имеет смысл обращаться, когда обычные поисковые системы не дали результата.
Адреса известных метапоисковых систем:
– MetaCrawler – www.metacrawler.com;
– SavvySearch – www.savvysearch.com