III. Меры и единицы представления, измерения и хранения информации в компьютере

Классификация информации

1. По форме представления (2 вида)

Различают две формы представления информации — непрерывную и дискретную. Сигнал называется дискретным, если его параметр в заданных пределах может принимать отдельные фиксированные значения. Сигнал называется непрерывным (аналоговым), если его параметр в заданных пределах может принимать любые промежуточные значения. Аналоговую информацию можно преобразовать в дискретную с некоторой потерей промежуточных значений.

Для цифровой техники наиболее удобна дискретная форма представления информации.

-----------------------------------------------------------------------------------------------------

– дискретная информация: характеризует прерывистую, изменяющуюся величину (количество дорожно-транспортных происшествий, количество тяжких преступлений, и т.п.). Представляется последовательностью символов алфавита, принятого в данной предметной области;

– аналоговая информация: (непрерывная) форма представления информации: это величина, характеризующая процесс, не имеющий перерывов или промежутков (температура тела человека, скорость автомобиля на определенном участке пути и т.п.)..

-----------------------------------------------------------------------------------------------------

2. По области возникновения выделяют информацию:

- механическую, которая отражает процессы и явления неодушевленной природы;

- биологическую, которая отражает процессы животного и растительного мира;

- социальную, которая отражает процессы человеческого общества.

-----------------------------------------------------------------------------------------------------

3. По способу передачи и восприятия различают следующие виды информации:

- визуальную, передаваемую видимыми образами и символами;

- аудиальную, передаваемую звуками;

- тактильную, передаваемую ощущениями прикосновений;

- органолептическую, передаваемую запахами и вкусами;

- машинную, выдаваемую и воспринимаемую средствами вычислительной техники.

4. По способам кодирования выделяют следующие типы информации:

– символьную, основанную на использовании символов – букв, цифр, знаков и т. д. Она является наиболее простой, но практически применяется только для передачи несложных сигналов о различных событиях. Примером может служить зеленый свет уличного светофора, который сообщает о возможности начала движения пешеходам или водителям автотранспорта.

– текстовую, основанную на использовании комбинаций символов. Здесь так же, как и в предыдущей форме, используются символы: буквы, цифры, математические знаки. Однако информация заложена не только в этих символах, но и в их сочетании, порядке следования. Так, слова КОТ и ТОК имеют одинаковые буквы, но содержат различную информацию. Текстовая информация чрезвычайно удобна и широко используется в деятельности человека: книги, нотные записи, различного рода документы, аудиозаписи кодируются в текстовой форме.

– графическую, основанную на использовании произвольного сочетания графических примитивов. К этой форме относятся фотографии, схемы, чертежи, рисунки, играющие большое значение в деятельности человека.

В настоящее время большинство операций с информацией совершается с помощью ЭВМ. Поэтому сведения о компьютерах и компьютерные технологии обработки информации являются важной составной частью информатики.

______________________________________________________________

Примеры тестовых вопросов.

? Верным утверждением является:

#5 в качестве носителя информации могут выступать материальные предметы

/ Вопрос№5

? Энтропия максимальна, если:

#5 информация засекречена

/ Вопрос№13

? Энтропия и информатика - это свойства:

#5 информации

/ Вопрос№11

? Сообщением в теории кодирования является:

#5 воспринятая, осознанная и ставшая личностно значимой информация

/ Вопрос№18

? Цепочка костров, зажигающаяся при необходимости оповещения "Горит - да", "Не горит - нет" - это:

#5 линия передачи сообщения

#2 шифрование информации

/ Вопрос№22

? Сканирование книги является операцией _______ данных:

#5 преобразования

/ Вопрос№20

? Представление информации в виде слов определяет _______ характер информации:

#5 вербальный

______________________________________________________________________________

Самостоятельная работа: [1] – стр. 58–61, 714–715; [4] – стр. 74–87

Подход к информации как к мере уменьшения неопределённости наших знаний позволяет количественно измерять информацию, полученную через некоторое сообщение.

Клод Шеннон предложил в 1948 году формулу для определения количества информации, которую мы получаем после получения одного из N возможных сообщений ([3] стр.10):

I = –(p₁log₂p₁+ p₂log₂p₂+…+ p_Nlog₂p_N)

Здесь p_i – вероятность того, что будет получено именно i-е сообщение. Если все сообщения равновероятны, то все p_i=1/N и из этой формулы получается формула Хартли:

I = log₂N

Бит – количество информации, необходимое для различения двух равновероятных сообщений. В вычислительной технике битом называют наименьший элемент памяти, необходимый для хранения одного из двух знаков «0» или «1», используемых для внутримашинного представления данных и команд.

Наряду с единицей бит иногда используют в качестве единицы информации количество, взятое по логарифму с другим основанием: дит – по десятичному логарифму, (количество информации, необходимое для различения одного из 10 равновероятных событий), нут (нат, нит?) – по натуральному основанию.

Бит очень удобен для использования двоичной формы представления информации. Для каждого типа информации (символьный, текстовый, графический, числовой) был найден способ представить ее в едином виде как последовательности только двух символов. Каждая такая последовательность называется двоичным кодом. Недостаток двоичного кодирования – длинные коды. Но в технике легче иметь дело с большим числом простых однотипных элементов, чем с небольшим числом сложных.

Более крупные единицы измерения информации:

Байт – 8 бит (или элемент памяти компьютера, состоящий из 8 двоичных элементов)

1 Кб=2¹⁰байт=1024 байт

1 Мб=2¹⁰Кбайт=1024 Кбайт=2²⁰байт

1 Гб=2¹⁰Мбайт=1024 Мбайт=2³⁰байт

1 Терабайт=2¹⁰Гбайт=1024 Гбайт=2⁴⁰байт

1 Петабайт=2¹⁰Тбайт=1024 Тбайт=2⁵⁰байт

В компьютерной технике информация хранится в виде файлов на дисках и кодируется в двоичной системе. В частности, каждый символ текста занимает 8 бит памяти. Поэтому в компьютерной технике часто используют не смысловую, а техническую меру измерения объёма информации: чем больше бит она занимает, тем больше информации хранится в компьютере. То есть чем длиннее текст, тем больше информации в нем.

Двоичные символы могут кодироваться любым способом: буквами А, Б; словами ДА, НЕТ, двумя устойчивыми состояниями системы и т.д. Однако при записи двоичных кодов ради простоты обычно используют цифры 1 и 0.

Способы двоичного кодирования информации разного типа: текстовой, числовой, графической, аудио- и видео-информации рассмотрены в [1] стр. 59–69, [4] стр. 59–69, 107–122.

Простые виды данных, с которыми работает ЭВМ.

1. Целые:
– Byte – положительные целые числа в диапазоне 0 – 255 (один байт памяти);

– ShortInt – отрицательные целые числа в диапазоне -128 – +127 (один байт памяти);
– Integer – -32768 – 32767 (два байта памяти);
– Long – -2 147 483 648 – 2 147 483 647) (четыре байта памяти)

2. Вещественные(по абсолютной величине):
– Single – 7-8 значащих цифр от 10^-45 до 10³⁸ (четыре байта памяти);

– Real – 11-12 значащих цифр от 10^-39 до 10³⁸ (6 байт памяти);
– Double – 15-16 значащих цифр от 10^-324 до 10³⁰⁸ (восемь байт памяти).

3. символьные (один байт памяти)

4. логические (Boolean)

_____________________________________________________________________

Способы кодирования целых чисел. Различают прямой, обратный и дополнительный коды (способы кодировки).Для положительных целых чисел прямой, обратный и дополнительный коды одинаковы. Разные коды используют только для отрицательных чисел для того, чтобы заменить операцию вычитания на операцию сложения. Первый бит памяти, отведённой под число, показывает знак числа: 0 – положительное, 1 – отрицательное. Остальные биты отводятся под двоичный код модуля числа.

Примеры. В прямом коде

127₁₀→ 0111 1111₂ ; –127₁₀→ 1111 1111; 1₁₀→ 0000 0001₂ –1₁₀ → 1000 0001₂

В обратном коде все двоичные цифры, кроме знака, инвертируют (заменяют 0 → 1, 1 → 0).

Примеры. –127₁₀→ 1111 1111₂ → 10000000₂; –1₁₀ → 1000 0001₂→ 1111 1110₂.

Дополнительный код получают из обратного кода целого отрицательного числа, добавляя к младшему разряду 1₂.

Примеры. –1₁₀ →1111 1111₂ ; –127₁₀→ 1000 0001₂

Кодирование вещественных чисел [1] – стр. 65; [4] – стр. 103–107.

Кодирование текстовой информации [1] – стр. 62–65; [4] – стр. 107–111.

Кодирование графической, аудио- и видеоинформации [1] – стр. 65–69, 714–715; [4] – стр. 111–119.

_____________________________________________________________________

Таблицы кодировок

Байт может смоделировать 2⁸ = 256 различных состояний. Эти состояния перенумерованы, и каждому сопоставляется какой-либо буквенный символ или графический элемент, необходимый при оформлении текстовой информации. Такое соответствие между состояниями байта и символами, которым они соответствуют, называется кодовойтаблицей. В настоящее время применяются разные варианты кодовых таблиц. Наиболее распространённые:

ASCII– American Standart Code for Information Interchange – американский стандартный код для обмена информацией;

КОИ8-Р – Код Обмена Информацией 8-битный с кириллицей;

CP1251 – (Code Page) – кодировка с кириллицей в Microsoft Windows;

CP866 – кодировка MSDOS;

ISO 8859-5 – International Standards Organization – Международная организация по стандартизации. Ещё один стандарт для кодов для кириллицы.

Множество кодовых таблиц вызвано тем, что с учетом разнообразия естественных языков и фирм, выпускающих программное обеспечение, 256 состояний одного байта недостаточно для того, чтобы закодировать все встречающиеся символы и способы форматирования текста. При разработке всех кодовых таблиц использовано следующее соглашение: первая половина таблицы – это коды с 0 по 127 – интернациональна, то есть, одинакова во всех вариантах кодировок. Первые 33 состояния (0–32) – это коды операций с текстом (перевод на новую строку, пробел, удаление последнего символа и т. п.). Затем состояния с 33 по 127 – это коды знаков препинания, арифметических действий, цифр, прописных и строчных букв латинского алфавита. Вторая половина кодовых таблиц отводится под знаки национальных и специальных алфавитов и ввода в текст графических элементов для оформления таблиц.

В конце 90-х годов появился новый международный стандарт Unicode, который отводит под символ 2 байта. Каждый блок из 2-х байт может находиться в 2¹⁶ =65536 состояниях. Этого достаточно, чтобы в одной таблице собрать символы большинства алфавитов мира. Правда, длина текста удваивается, и скорость его обработки замедляется. Но, в связи с существенным увеличение памяти и быстродействия современных компьютеров, этим можно пренебречь.

______________________________________________________________

Примеры тестовых задач

1) Отсортировать по возрастанию последовательность текстовых величин:

8б; 8а; 10а; 10б; 11а

Ответ: так как в кодовой таблице цифры идут в следующей последовательности: 0, 1, 2, …9, а буквы располагаются после цифр, то после сортировки по возрастанию тексты располагаются так: 10а; 10б; 11а; 8а; 8б.

2) Упорядочить по убыванию последовательность чисел: 10 бит, 20 бит, 2 байта. Ответ: 20 бит, 2 байта, 10 бит.

3) Какой объём памяти потребуется для кодировки фразы «Я помню чудное мгновенье» в Unicode и в коде ASCII?

Ответ: при подсчете количества символов в фразе следует учитывать не только буквы, но и пробелы. Код пробела занимает столько же места, как и код буквы. Получается 24 символа. В Unicode на один символ отводится 2 байта (16 бит). То есть текст займет 24*2 байта = 48 байт = 48 байт*8 бит = 384 бит.

В коде ASCII на каждый символ отводится 1 байт (8бит). Следовательно, памяти нужно в 2 раза меньше.

----------------------------------------------------------------------------------------------------------------

При создании автоматизированных средств перекодирования данных (принтеры, дисплеи и т.п.) встает вопрос о стандартизации правил кодирования. Сегодня наибольшее распространение получил стандарт кодирования данных ASCII (American Standart Code for Information Interchange). Этот стандарт используется на компьютерах с текстовым режимом работы устройств отображения (печатные машинки, дисплеи с теневыми масками) и использует специальные «буквы» для изображения таблиц. Для использовании графических устройств отображения данных (растровые (матричные) принтеры, дисплеи) создан стандарт ANSI, в котором для изображения таблиц используется горизонтальная или вертикальная «засветка» точек. Оба стандарта позволяют задавать правила кодирования только двух алфавитов. Для автоматизации настройки набора воспроизводимых символов введено понятие «кодовая страница» – номер правил кодирования букв национальных алфавитов. Так, например, 866 страница содержит правила кодирования русских (кириллических) шрифтов в ASCII, а 1251 – в ANSI. Этот номер передается специальной программе - знакогенератору, настраивающей набор отображаемых символов.

Для преодоления ограничений на количество кодируемых с помощью одного байта состояний (256) разработан стандарт UNICOD, в котором для перекодировки букв используется 2 байта.

-------------------------------------------------------------------------------------------------------