Автоматические индексы.
Автоматический индекс состоит из трёх частей:
· программы-робота;
· базы данных, собираемой этим роботом;
· интерфейса для поиска в предметной базе, с которым и работает пользователь.
Все эти компоненты функционируют без вмешательства человека. К автоматическим индексам следует прибегать только тогда, когда ключевые слова точно известны, например, фамилия человека или несколько специфических терминов из соответствующей области. Индексы получают информацию из каждого отдельного узла, регистрируют и индексируют её и добавляют к своим базам данных.
Среди индексов выделяется AltaVista – одна из мощных полностью автоматических поисковых систем. Обладает полнотекстовой базой данных. Выдаёт наибольшее количество ссылок. Проиндексировано более 30 млн. страниц с 300 тысяч серверов и более 4 млн. статей из телеконференций Usenet. За один день AltaVista обслуживает свыше 20 млн. запросов.
2.5. Поисковые машины (search engines)– огромные (содержащие в себе копии миллионов страниц либо краткую информацию об этих страницах) базы данных, в которых Вы можете осуществлять поиск по ключевым словам или комбинациям слов.
Если ищете информацию о пожарах, набираете в строке ввода слово "реактив" – и система выдаёт вам список ссылок на все страницы, на которых ей удалось найти слово " реактив". Наиболее популярными (и наиболее эффективными) поисковыми машинами являются следующие:
Google – http://www.google.com
Yandex – http://www.yandex.ru
Rambler – http://www.rambler.ru
Ключ к эффективному поиску – использование встроенного языка поисковых машин. Есть ряд так называемых операторов – слов или значков – которые позволяют сообщить поисковой системе, что с теми или иными словами из вашего запроса следует обращаться особым образом. Многие из этих операторов работают одинаково на большинстве поисковых машин. Некоторые операторы на разных машинах записываются по-разному.
Рассмотрим наиболее распространенный из них. Это оператор "звёздочка"(*). "Звёздочка" в слове означает "на месте этого знака может стоять любое количество любых знаков".
Если вы хотите найти информации с содержанием слово "реактив", пишите – "реактив", но если хотите, чтобы поисковая машина нашла страницы, на которых есть слово "реактива" или " реактивов" или " реактиве" или "реактивом" или "реактивами" и т.п., то вам проще всего воспользоваться "звёздочкой" и написать "реактив*" – и машина примется искать все слова, начинающиеся с "реактив".
Иногда поисковая машина выдаёт ссылку на документ, перейдя по этой ссылке, получаете сообщение "Ошибка 404. Документ с указанным Вами адресом на сервере отсутствует". Иногда в такой ситуации всё же удаётся найти на этом сервере нужную страницу путём "удаления части URL справа".
Например, если ищем новую книгу Сергея Лукьяненко, прошли по ссылке на адрес
http://www.server.ru/arhiv/knigi/lukianenko/kniga25.txt сервер вернул ошибку 404, то можно удалить kniga25.txt и повторить поиск по запросу http://www.server.ru/arhiv/knigi/lukianenko/. Далее, если получаете аналогичные сообщения об ошибке, попробуйте организовать поиск по следующим запросам:
http://www.server.ru/arhiv/knigi/
http://www.server.ru/arhiv/
http://www.server.ru/
Метод "удаления части URL справа" не всегда позволяет найти искомую страницу, но очень часто он оказывается весьма полезен.