Сжатие слов и словосочетаний
· Аббревиатура
· Иероглифы
· Отбрасывание окончаний слов
· Отбрасывание часто повторяющихся букв
· Выборочное отбрасывание букв
КИБЕРНЕТИКА
КБРЕИА
КРИ
· Лексическое кодирование
При лексическом кодировании отдельные лексемы заменяются двоичными кодами
Наименование лексем | Длина в байтах | N-кол. лексем | log2N бит |
Фамилия | 10 бит | ||
Имя | 7 бит | ||
Отчество | 7 бит | ||
Должность | 6 бит | ||
Отдел | 5 бит | ||
135байт | »5 байт |
Таким образом, получили сжатие в 135/5=27 раз.
Сжатие и свертывание текста
· Библиогафическое описание (УДК, Автор, наименование, издательство)
· Аннотация (до 2/3 страницы)
· Реферат (до 16 стр., Автореферат - один печатный лист)
Сжатие массивов чисел
При сжатии массивов чисел широко используется метод Бабко. На предприятиях номенклатура (это изделия, материалы, инструменты и др.) кодируются десятичными номерами. Массивы таких чисел могут составлять десятки тысяч. Если этот массив чисел упорядочить в порядке возрастания, то последующие числа будут отличаться от предыдущих чисел только младшими разрядами. Тогда можно все повторяющиеся цифры заменить одним символом, например w.
5 5 3 8 1 4 2 | 5 5 3 8 1 4 2 |
5 5 3 8 1 4 3 | w3 w5 w 6 1 |
5 5 3 8 1 4 5 | w3 |
5 5 3 8 16 1 | |
5 5 3 8 1 6 3 |