HTML как язык разметки документов
HTML является наиболее популярным языком разметки документов. В исходном виде файл HTML содержит инструкции форматирования (теги), чередующиеся с текстом документа. Главной особенностью разметки HTML является возможность вставки ссылок на внешние документы или на внутренние разделы того же документа.
Язык HTML отличается от других широко распространенных языков программирования тем, что он позволяет отображать содержимое документа на компьютерах с различными аппаратными платформами, операционными системами и графическими характеристиками. Достигается это тем, что файл с документом WWW представляет собой набор инструкций для программы-обозревателя, которая выводит содержимое документа, интерпретируя его построчно. При этом задача выбора точных размеров окна, размера и цвета шрифтов и т. п., полностью ложится на программу-обозреватель, которая решает их в соответствии со своими возможностями и с возможностями системы. Этим достигается большая гибкость в выборе технических средств вывода изображения документа, но теряется точность. На практике это означает, что изображения одного и того же документа на одном компьютере, выведенные при помощи различных программ-обозревателей, будут отличаться.
Поэтому для получения интерпретации документа, максимально приближенной к оригиналу, большое значение приобретают характеристики браузера. В настоящее время наиболее популярными программами просмотра гипертекстовых документов являются продукты компаний Netscape Communications Corporation — Netscape Communicator и Microsoft Corporation — Microsoft Internet Explorer, выжившие в результате острой конкурентной борьбы с большим количеством других программ и во многом уже определяющие развитие языка HTML.
В соответствии со спецификациями языка HTML текстовые документы сохраняются в файлах, имеющих расширение .htm или .html. Однако документ, открытый на сервере, редко бывает полностью текстовым, чаще всего он содержит графические изображения, создающие фон под текстом, либо имеющие определенную смысловую нагрузку. В документе могут присутствовать и звуковые файлы, и движущиеся изображения. Все эти составные части документа являются разными файлами, содержащими логически связанную между собой информацию и объединенными локальными ссылками, которые позволяют управлять просмотром графики, прослушиванием звука, перемещением по тексту, либо выполняют другие функции.
Наряду с неоспоримыми достоинствами язык HTML обладает рядом слабых сторон.
1. По сути, HTML - это технология представления информации, описывающая то, как браузер должен скомпоновать текст и графику на странице. В результате справедливо утверждение: «То, что вы видите, это все, что вы получаете»:
- невозможно описать данные независимо от отображения этих данных, что является главной проблемой поиска нужной информации;
- клиент не имеет средств извлечения данных со страницы Web для дальнейшей обработки;
- на конкретной странице Web клиент получает только одно представление конкретного множества данных.
Например, для получения данных, отсортированных иным образом, нежели тот, что представлен на текущей странице, браузер должен посылать новый запрос серверу. В свою очередь серверу придется заново отправлять полную страницу HTML со списком данных. Такое манипулирование данными ведет к значительному увеличению числа обращений к серверам Web и затрудняет их дальнейшее масштабирование.
2. Другой недостаток языка HTML заключается в его «плоскости», т. е. невозможности предоставления информации об иерархии данных.
3. Непоследовательность языка HTML (неоднозначность синтаксиса) затрудняет разбор текста программным обеспечением браузеров. Примером такой непоследовательности может служить необязательное наличие закрывающих тегов для соответствующих открывающих. Для обозначения тегов используются символы "<" и ">", внутри которых помещаются названия инструкций и их параметры. Например, для создания элемента Ivanov в имени заказчика используется тег <CustumerName>. В программе это выглядит следующим образом: <CustumerName> Ivanov </CustumerName>, где <CustumerName> - открывающий тег, </CustumerName> - закрывающий тег.