Лекция 8

6.6. Краткая характеристика основных информационных ресурсов Интернет.

6.7. Технологии работы с WWW. Электронная почта.

В Интернет приходят за информацией. Ее источником являются ресурсы, расположенные на компьютерах Сети, которые, так же как и на любом не связанном с Сетью персональном компьютере, представляют собой информационные объекты, существующие в виде логически завершенных записей, или файлов. Существуют две важные категории файлов: первая из них — это исполняемые программы, вторая — файлы, содержащие данные всевозможных типов (текст, графику, аудио и видео). Работа с программами, безусловно, требует наиболее серьезных навыков со стороны пользователя, в то время как обращение с текстовыми документами в принципе допускает знание всего одной-единственной программы их просмотра. Естественно, что именно текстовые документы востребованы сегодня в Интернет в наибольшей степени.

Сеть, тем не менее, открывает пользователю доступ к обоим видам этих ресурсов, если он в состоянии ответить на следующие вопросы:

Как найти нужный информационный объект?

Как его использовать — на удаленной машине или перенести его на свой (локальный) компьютер?

Какими программными средствами сделать его воспринимаемым, т.е. прочитанным, озвученным и т.д.

В силу колоссального объема и разнородности организации информационных ресурсов в Сети возникает ряд естественных проблем. Каждый ресурс имеет структуру определенного типа, базируется на машине со своей операционной системой (платформой) и специальной программой обслуживания доступа к ней - программой-сервером. Машину, непрерывно функционирующую в Сети, где исполняется такая программа, также часто называют сервером. Само соединение пользователя с сервером происходит с помощью соответствующей программы, запускаемой на его компьютере (программы-клиента), и выполняется такое соединение на основе заранее определенного свода правил, или протокола взаимодействия между клиентом и сервером. Таким образом, для начала работы в Сети необходимо:

1. Иметь какую-либо программу-клиент на своем компьютере.

2. Располагать адресом хотя бы одного сервера (например, из книжного справочника, такого, как знаменитые Желтые страницы Интернет), к которому можно обратиться по протоколу, поддерживаемому собственной программой-клиент.

3. Владеть набором команд, используемых в рамках данного протокола.

Отметим отдельно, что пользователь Интернет может получить доступ к ресурсам других сетей благодаря существованию межсетевых шлюзов. Под шлюзом (gateway) принято понимать специализированный узел (рабочую станцию, компьютер) локальной сети, обеспечивающий доступ других узлов данной локальной сети к внешней сети передачи данных и другим вычислительным сетям. Говоря о межсетевом шлюзе, часто подразумевают и аппаратные, и программные средства, обеспечивающие межсетевую связь.

Передача информации в Интернет происходит небольшими порциями данных, имеющими строго определенную структуру и называемыми пакетами. Сообщение может быть разбито на несколько пакетов, размер которых может варьироваться, но, как правило, не превышает 1500 байт.

Важнейшим моментом при функционировании Интернет является стандартизированный свод правил передачи пакетов данных в Сети и за ее пределы в рамках межсетевого обмена, закрепленный базовым транспортным протоколом TCP (Transmission Control Protocol) и межсетевым протоколом IP (Internet Protocol). Протокол TCP дает название всему семейству протоколов ТСРЛР, главной задачей которых является объединение в сети пакетных подсетей через шлюзы. Каждая сеть работает по своим собственным законам, однако предполагается, что шлюз может принять пакет из другой сети и доставить его по указанному адресу. Реально, пакет из одной сети передается в другую подсеть через последовательность шлюзов, что становится возможно благодаря реализации во всех узлах сети протокола межсетевого обмена IP.

Величину потока информации (объем последней измеряется в битах или байтах и единицах, им кратных), прошедшего за определенный промежуток времени через выделенный канал связи, шлюз или другую систему, принято называть трафиком.

В Интернет каждой машине (host'y) приписан определенный адрес, по которому к ней и осуществляется доступ в рамках одного из стандартных протоколов, причем существует одновременно как числовая адресация (так называемый IP-адрес, состоящий из набора четырех чисел, разделенных точками, например 144. 206.160.32), так и более удобная для восприятия человеком система осмысленных доменных имен (например, apollo.polyn.kiae.su). Пользователь для обращения к машине может использовать как и ее IP-адрес, так и ее имя. Для упрощения работы в сети используется специальная система DNS (Domain Name System), представляющая собой базу данных, которая обеспечивает преобразования доменных имен компьютеров в числовые IP-адреса, поскольку базовым элементом адресации для семейства протокола TCP/IP являются IP-адреса, а доменная адресация выполняет роль сервиса.

Информационные ресурсы Интернет — это вся совокупность информационных технологий и баз данных, доступных при помощи этих технологий и существующих в режиме постоянного обновления. К их числу относятся, например:

Ø электронная почта;

Ø система телеконференций Usenet;

Ø система файловых архивов FTR;

Ø базы данных WWW;

Ø базы данных Gopher;

Ø базы данных WAIS;

Ø информационные ресурсы LISTSERV;

Ø справочная служба WHOIS;

Ø информационные ресурсы TRICKLE;

Ø поисковые машины Open Text Index, Alta Vista, Yahoo, Lycos и др.

Интернет — это главным образом возможность получить информацию в тот же момент, когда она нужна, т.е. в режиме on-line. Но если нет возможности работать в on-line, то для доступа к услугам большинства информационных серверов Интернет можно воспользоваться электронной почтой, хотя в этом случае все будет происходить не так быстро, как в стандартном режиме telnet, ftp или WWW, о которых будет сказано ниже.

Общий принцип доступа к любому информационному ресурсу через электронную почту заключается в том, что пользователь посылает сообщение почтовому роботу (специальному почтовому серверу), который реализует стандартный доступ к ресурсу и отправляет ответ по почте пользователю (рис. 7.5.1).

Рис. 7.5.1 Взаимодействие с информационным ресурсом через электронную почту

При такой схеме доступа общение между пользователем и почтовым роботом происходит в режиме работы электронной почты, а между почтовым роботом и сервером (ftp, wais или WWW) по протоколу робота этого сервера.

Отметим, что многие информационные ресурсы Сети имеют программы-роботы, которые способны общаться с почтовыми клиентами по схеме, представленной на рис. 7.5.1. Дадим краткую характеристику этих ресурсов.

Usenet — это система телеконференций Интернет. Система строена по принципу электронных досок объявлений, когда любой пользователь может поместить свою информацию в одну из ipyim новостей Usenet и эта информация станет доступной другим пользователям, которые на данную группу новостей подписаны. Именно этим способом распространяется большинство сообщений Интернет, например списки наиболее часто задаваемых вопросов (FAC.n реклама программных продуктов. По Usenet можно получить и вирус, если заказывать и распаковывать все подряд, что приходит на ваш почтовый адрес. Usenet — хорошее место для объявления международных конференций и семинаров.

FTP — система файловых архивов — это огромное распределенное (т.е. расположенное на машинах сети, в том числе и функционирующих на разных платформах) хранилище всевозможной информации, накопленной за последние 10—15 лет в Сети. Любой пользователь может воспользоваться услугами анонимного доступа к этому хранилищу и скопировать интересующие его материалы. Объем программного обеспечения в архивах FTP составляет терабайты информации, и ни один пользователь или администратор сети не может просто физически обозреть эту информацию. Кроме программ в FTP-архивах можно найти стандарты Интернет-RFC (Request for Comments), пресс-релизы, книги по различным отраслям знаний, главным образом по компьютерной проблематике, и многое другое. Практически любой архив строится как иерархия директорий. Многие архивы дублируют информацию из других архивов (так называемые «зеркала» — mirrots). Для того чтобы получить нужную информацию, вовсе не обязательно ждать, когда информация будет передана из Австралии или Южной Африки, можно поискать «зеркало» где-нибудь ближе, например, в Финляндии или Швеции. Для этой цели существует специальная программа Archie, которая позволяет просканировать FTP-архивы и найти тот, который устраивает пользователя по составу программного обеспечения и коммуникационным условиям.

World Wide Web — распределенная гипертекстовая информационная система — это последний хит Интернет, темпы развития которого стремительно нарастают. World Wide Web представляет удобный доступ к большинству информационных архивов Сети. Особенностью системы является механизм гипертекстовых ссылок, который позволяет просматривать материалы в порядке выбора этих ссылок пользователем. Многие интерфейсы данной технологии позволяют выбирать интересующие материалы простым нажатием кнопки манипулятора «мышь» на нужном слове или поле графической картинки. Система универсальных адресов позволяет проадресовать практически все информационные ресурсы Интернет. Многие издательства взяли WWW на вооружение для электронных версий своих журналов. В WWW существует большое количество различного рода каталогов, которые позволяют ориентироваться в сети, кроме этого пользователи могут выполнить даже удаленные программы или смотреть фильмы по сети. Такой сервис не обеспечивается другими информационными системами Интернет.

Gopher— это еще одна распределенная информационная система Интернет. В основу ее интерфейсов положена идея иерархических каталогов. Внешне Gopher выглядит как огромная файловая система, которая расположена на машинах сети. Первоначально Gopher задумывался как информационная система университета с информационными ресурсами факультетов, кафедр, общежитий и т.п. До сих пор основные информационные ресурсы Gopher сосредоточены в университетах. Gopher считается простой системой, легкой в установке администрировании, достаточно надежной и защитной. В России Gopher-серверы не так распространены, как во всем мире: профессионалы предпочитают World Wide Web.

WAIS — это распределенная информационно-поисковая система Интернет. Родилась WAIS как перспективная разработка четырех ведущих американских компаний и первое время была коммерческим продуктом, пока не появилась ее свободно-распространяемая версия free WAIS. В основу системы положен принцип поиска информации с использованием логических запросов, основанных на применении ключевых слов. Клиент «обшаривает» все серверы WAIS на предмет наличия в них документов, удовлетворяющих запросу. WAIS широко применяется как поисковая машина в других информационных серверах Интернет, например WWW и Gopher. Наиболее известным проектом, где была применена WAIS, является электронная версия энциклопедии «Британика».

LISTSERV— это, строго говоря, не сервис Интернет, а система почтовых списков сети BIT-NET (сеть образовательных учреждений). Однако это очень популярный ресурс в глобальных компьютерных сетях, и в Интернет существуют шлюзы для доступа к нему. LISTSERV специально ориентирован на применение в качестве транспорта электронной почты. Доступ к нему в интерактивном режиме затруднен. В мире насчитываются многие сотни списков LISTSERV, которые организованы по группам интересов, например, существуют группы разработчиков программ ядерно-физических расчетов EGS-4 или группы любителей научной фантастики.

LISTSERV довольно сильно пересекается с Usenet, однако это не мешает существованию как одной, так и другой системы.

WHOIS— служба содержит информацию о пользователях сети, их электронные и обычные адреса, идентификаторы и реальные имена. В последнем случае дается краткое описание основных направлений их деятельности. WHOIS —распределенная система. Это значит, что запросы отправляются по всему множеству серверов WHOIS в Интернет, если только не указан адрес конкретного сервера.

TRICKLE — это доступ по почте к архивам FTR, который организован через специальный шлюз. Этот шлюз имеет специальные навигационные средства для поиска нужной информации в Сети, пользователь может вести с ним своеобразный диалог по почте, выбирая нужную информацию путем ввода специальных команд TRICKLE.

Поисковые машины Open Text Index, AltaVista, Yahoo, Lycos и другие представляют собой мощные информационно-поисковые системы, размещенные на серверах свободного доступа, специальные программы которых непрерывно в автоматическом режиме сканируют информацию Сети на основе заданных алгоритмов, проводя индексацию документов. В последующем поисковые машины предоставляют пользователю на основе созданных баз данных доступ к распределенной на узлах Сети информации через выполнение поискового запроса в рамках собственного интерфейса.

Рассмотрим постановку задачи поиска в общем виде. Для этого нам необходимо ответить на три вопроса: что искать, то есть, какие источники информации, где искать (места размещение этих источников) и как искать (какие инструменты для этого использовать).

Каковы основные источники информации, представленные в Интернете? Это документы WWW, статьи в группах новостей и списках рассылки, файлы в библиотеках файлов, справочники адресной информации организаций и людей (электронная почта, адрес, телефон), статьи в тематических базах данных, энциклопедиях.

Где эти источники информации размещаются? Это такие популярные ресурсы Интернет, как WWW, группы новостей, списки рассылки и FTP-серверы.

Безусловно, можно искать нужные источники информации вручную, узнавать адреса из специализированных журналов по информатике и Интернету, использовать специальные бумажные справочники с классифицированными по категориям адресами. Однако для такого изменчивого пространства как Интернет необходимо научиться пользоваться специальными инструментами, цель которых - собирать данные об информационных ресурсах и предоставлять пользователям услугу быстрого поиска.

ИПС (информационно-поисковая система)- это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.

Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска - релевантность.

Релевантность - это соответствие результатов поиска сформулированному запросу.

Далее мы будем, в основном, рассматривать ИПС для всемирной паутины (WWW). Основными показателями ИПС для WWW являются пространственный масштаб и специализация. По пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное - по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет.

В общем случае, можно выделить следующие поисковые инструменты для WWW: каталоги, поисковые системы, метапоисковые системы.