Поиск информации в Интернете
Понятие WWW. Технология WWW
WWW (World[10] Wide[11] Web[12] – Всемирная Паутина) – система, позволяющая связать разнообразную информацию хранимую на серверах (текстовую, графическую, видео-, аудио- и др. информационные файлы), и сделать ее доступной для просмотра на ПК, подключенных к Интернету.
В основу технологии WWW положена технология гипертекста, распространенная на все ПК, подключенные к Интернет. Суть технологии гипертекста состоит в том, что текст структурируется, т.е. в нем выделяются ссылки, которые реализуют переходы не только внутри исходного документа, но и на другие ресурсы сети Интернет. Гипертекстовые ссылки – выделенные области документа, позволяющие переходить к другому документу, содержащему связанную информацию. В качестве ссылки могут использоваться фрагменты текста и графические изображения. Сервера Интернет, реализующие WWW-технологию, называются Web-серверами, а документы, реализованные по технологии WWW, называются Web-страницами. «Всемирная паутина» - это десятки миллионов серверов Интернет, содержащих Web-страницы, в которых используется технология гипертекста. ucoz.ru – уникальная система для создания сайтов, бесплатный конструктов сайтов новейшего поколения.
WEB-СЕРВЕР – очень большой и мощный компьютер, который хранит и пересылает документы и другие информационные ресурсы Интернет с использованием протокола HTTP. Его называют также HTTP-сервером.
WEB-SITE(Web-сайт, Web-страница)– группа HTML-документов, объединенных по смыслу и имеющих одинаковое дизайнерское решение.
HOME PAGE (Домашняя страница) – головная начальная страница Web-сайта, первая страница какого-либо Web-сервера или логически связанной группы HTML-документов.
HTML-документ – файл, содержащий набор управляющих последовательностей, определяющих действия, которые программа просмотра должна выполнить. Каждая страница является специально размеченным текстовым файлом и содержит: текст, который видит пользователь при обычном просмотре и инструкции для листателя, т.е. описание внешнего вида документа (размер букв, тип шрифта, элементы оформления) и ссылки на другие ресурсы (страницы, изображения, серверы и т.п.), которые и делают из текста гипертекст.
Создание и размещение Web-страниц в Интернет – одна из самых эффективных и популярных технологий в Интернет. Создание Web-страниц осуществляется с помощью языка НТМL (Hyper Text Markup Language) – язык разметки гипертекста, который позволяет существовать в одном документе текстовой, графической, аудио и видео информации. Основа технологии HTML состоит в том, что в обычный текстовый документ вставляются управляющие символы (тэги) и в результате получается Web-страница. С помощью тэгов можно изменять размер, начертание и цвет символов, определять положение текста на странице, вставлять графические изображение, звук и видео, вставлять гиперссылки и т.д. Текстовый редактор Word позволяет сохранять документы непосредственно в формате Web-страниц. В текстовом редакторе Блокнот также можно создать простейшую Web-страницу. Существует огромное количество HTML-редакторов, которые автоматизируют процесс создания HTML-документов. Одним из самых популярных инструментальных пакетов для создания и публикации Web-сайтов является FrontPage компании Microsoft. Microsoft Office Publisher 2003 представляет собой универсальную систему создания и публикации самых разнообразных информационных и маркетинговых материалов высокого качества для печати на настольном принтере или в типографии, размещения в Интернете и рассылки по электронной почте.
При выборе стороннего Web-сервера руководствуются двумя критериями: ценой и производительностью. У профессиональных разработчиков Web-сайтов выбор определяется возможностями заказчика и сложившимися отношениями с компаниями, владеющими Интернет-серверами.
Сейчас появляется все больше Web-серверов, осуществляющих бесплатный хостинг. Хостинг – это услуга, по размещению сайта на сервере. Например, Hostland крупнейший хостинг-провайдер Санкт-Петербурга. Например, русскоязычные серверы www.chat.ru, www.narod.ry, www.boom.ru. Такие серверы не требуют оплаты за поддержку Web-сайтов клиентов и существуют за счет средств рекламодателей. Зарегистрированному клиенту предоставляется ограниченное пространство – от 5 до 50 Мбайт. Единственное обязательство, принимает на себя клиент бесплатного Web-сервера – это размещение на своем сайте баннеров (часто анимированных), предназначенных для рекламы. Впрочем, согласия на это у клиента, как правило, не спрашивают – баннеры вставляются и обновляются без участия владельца сайта.
VRML (Virtual Reality Modeling Language) – язык моделирования виртуальной реальности, то же, что и HTML, но для трехмерной и подвижной информации. JAVA – объектно-ориентированный язык для создания распределенных Web-систем.
Просмотр Web-страниц осуществляется с помощью специальных программ просмотра – браузеров,например, Internet Explorer (Обозреватель), Netscape Navigator или Opera.
WEB BROWSER – ПО навигации и просмотра, выдающее запросы и визуализирующее HTML-документы и другие информационные ресурсы Интернет. Работа программы просмотра HTML-документов заключается в посылке запроса по указанному адресу сервера (URL), обработке полученной информации и представлении ее пользователю.
Найти Web-страницу в Интернет или сделать на нее ссылку можно с помощью универсального указателя ресурсов (адреса страницы) URL (Universal Resource Locator). URL включает в себя способ доступа к документу, имя сервера, на котором находится документ, а также путь к файлу (документу). Адрес выглядит следующим образом: http://www.vega.ru/belti/index.html или в общем виде: протокол://адрес_сервера/имя_каталога/имя_файла
Для доступа к Web-страницам используется протокол передачи гипертекста НТТР (Hyper Text Transfer Protocol). Программа просмотра находит в сети узел, имя которого задали, и запрашивает нужный документ. Документ пребывает на ПК, браузер выполняет инструкции, определяющие внешний вид текста: вычисляет заголовки, центрирует параграфы, считывает картинки и размещает их на странице, помечает ссылки на документы. Когда выбираем ссылки, листатель запрашивает новый документ. Процесс обмена формализован протоколом http, протокол позволяет браузеру не только запрашивать документы с сервера (узла), но и осуществлять поиск в документах, манипулировать документами и взаимодействовать с разнообразными процессами на сервере.
HYPERTEXT(гипертекст) – способ представления информации при помощи связей между документами. В документе Web-связь представляет собой URL, указывающий на другую Web-страницу или другой информационный ресурс.
Для того чтобы начать путешествие по «Всемирной паутине» необходимо подключится к Интернету и запустить какой-нибудь браузер (например, Internet Explorer). После загрузки начальной (домашней) страницы можно поступать различными способами:
Ø в строку Адрес ввести адрес URL интересующей Web-страницы;
Ø воспользоваться ссылками отраженной Web-страницы;
Ø воспользоваться системами поиска информации в Интернет.
Сеть Интернет растет очень быстрыми темпами, и найти нужную информацию становится все сложнее. Для поиска информации используются специальные поисковые сервера, которые содержат постоянно обновляемую информацию о Web-страницах, файлах и других документах, хранящихся на десятках миллионов серверов Интернет.
Различные поисковые сервера могут использовать различные поисковые механизмы поиска, хранения и предоставления пользователю информации. Общим является то, что к моменту запроса пользователя, вся информация о документах Интернет в компактном виде хранится в базе данных поискового сервера. Имеющиеся поисковые системы можно условно разделить на три группы:
1 Справочники (тематические каталоги) Интернет.
2 Поисковые системы общего назначения (индексные).
3 Специализированные поисковые системы.
Справочник Internet является аналогом тематического указателя в библиотеке, он позволяет найти наиболее значимые WWW-документы по заданной теме. Родоначальником сетевого поиска является система Yahoo: http://www.yahoo.com.
Поисковые системы общего назначения позволяют находить документы в WWW по ключевым словам. Принцип состоит в том, что специальные программы-роботы автоматически обходят WWW-серверы, читают и индексируй все встречающиеся документы, выделяя при этом ключевые слова, относящиеся к данному документу, и запоминают их вместе с URL этого документа в базе данных. Большинство поисковых систем разрешают также автору новой Web-страницы самому внести информацию в базу данных.
Обращаясь к такой поисковой системе, вы вводите одно или несколько ключевых слов, которые, могли бы вести вас на интересующую информацию, и отправляете запрос. Через несколько секунд поисковая система вернет вам список URL-документов, в которых были найдены указанные ключевые слова. Примером такой поисковой системы является Rambler: http://www. rambler.ru
Специализированные поисковые системы позволяют находить информацию, находящуюся в других информационных "слоях" Internet, смежных с WWW, например, на FTP-серверах. Примером такой систем является Lycos: http://ftpsearch.lycos.com
Информация в Интернет постоянно меняется, поисковые роботы не успевают отследить изменения. Информация, хранящаяся в базе данных поискового сервера, может отличаться от реального состояния Интернет, и поэтому иногда пользователь может получить ссылку на уже не существующий или перемещенный документ.
Отечественные поисковые службы
Aport (http://www.aport.ru/) «Апорт» — один из первых поисковых указателей российского Интернета — детище компании «Агама» (http://www.agama.ru/). Система уделяет особое внимание рейтингованию результатов поиска, она использует систему рейтинговання по количеству ссылок, ведущих к данному ресурсу (по индексу цитирования).
Rambler (http://www.rambler.ru/) – рейтинговая система, обладающая функциями поисковых указателей. Как поисковый указатель, служба обладает одним из крупнейших индексов в России, но ей недостает быстродействия и современных алгоритмов рейтингования результатов поиска. Система осуществляет поиск исключительно по русскоязычным серверам.
Яndex (http://www.yandex.ru/) – поисковая служба, основанная на указателе, обладающая как большой и представительной базой данных по отечественным Web-ресурсам и системой индексации. Функционирование службы обеспечивает компания CompTek (http://www.comptek.ru/).