Сжатие слов и словосочетаний

· Аббревиатура

· Иероглифы

· Отбрасывание окончаний слов

· Отбрасывание часто повторяющихся букв

· Выборочное отбрасывание букв

КИБЕРНЕТИКА

КБРЕИА

КРИ

· Лексическое кодирование

При лексическом кодировании отдельные лексемы заменяются двоичными кодами

Наименование лексем Длина в байтах N-кол. лексем log2N бит
Фамилия 10 бит
Имя 7 бит
Отчество 7 бит
Должность 6 бит
Отдел 5 бит
  135байт   »5 байт

Таким образом, получили сжатие в 135/5=27 раз.

Сжатие и свертывание текста

· Библиогафическое описание (УДК, Автор, наименование, издательство)

· Аннотация (до 2/3 страницы)

· Реферат (до 16 стр., Автореферат - один печатный лист)

Сжатие массивов чисел

При сжатии массивов чисел широко используется метод Бабко. На предприятиях номенклатура (это изделия, материалы, инструменты и др.) кодируются десятичными номерами. Массивы таких чисел могут составлять десятки тысяч. Если этот массив чисел упорядочить в порядке возрастания, то последующие числа будут отличаться от предыдущих чисел только младшими разрядами. Тогда можно все повторяющиеся цифры заменить одним символом, например w.

5 5 3 8 1 4 2 5 5 3 8 1 4 2
5 5 3 8 1 4 3 w3 w5 w 6 1
5 5 3 8 1 4 5 w3
5 5 3 8 16 1  
5 5 3 8 1 6 3