СОДЕРЖАНИЕ



1. Сканирование текста и изображений        2

1.1. Сканеры        2

1.2. Основные характеристики сканеров        3

1.3. Типы сканеров        4

2. Распознавание текста        8

2.1. Общая характеристика систем оптического распознавания текста        8

2.2. Программа FineReader 6.0        9

Литература        15

1. Сканирование текста и изображений

1.1. Сканеры


Сканер — это устройство ввода в компьютер информации непосредственно с бу­мажного документа. Можно вводить тексты, схемы, рисунки, графики, фотографии и другую графическую информацию. Сканер, подобно копировальному аппарату, создает копию изображения бумажного документа, но не на бумаге, а в электрон­ном виде — создается электронная копия изображения.

Сканеры являются важнейшим звеном электронных систем обработки докумен­тов и необходимым элементом любого «электронного стола». Записывая резуль­таты своей деятельности в файлы и вводя информацию с бумажных документов в ПК с помощью сканера с системой автоматического распознавания образов, мож­но сделать реальный шаг к созданию систем безбумажного делопроизводства. Сканеры весьма разнообразны и их можно классифицировать по целому ряду при­знаков. Прежде всего, сканеры бывают черно-белые и цветные.

Черно-белые сканеры могут считывать штриховые изображения и полутоновые. Штриховые изображения не передают полутонов, или, иначе, уровней серого. По­лутоновые позволяют распознать и передать 16, 64 или 256 уровней серого. Цветные сканеры работают и с черно-белыми, и с цветными оригиналами. В пер­вом случае они могут использоваться для считывания и штриховых, и полутоно­вых изображений.

В цветных сканерах используется цветовая модель RGB (Red-Green-Blue); ска­нируемое изображение освещается через вращающийся RGB-светофильтр или от последовательно зажигаемых трех цветных ламп; сигнал, соответствующий каж­дому основному цвету, обрабатывается отдельно.

Число передаваемых цветов колеблется от 256 до 65 536 (стандарт High Color) и да­же до 16,8 млн (стандарт True Color).

Разрешающая способность сканеров измеряется в количестве различаемых точек на дюйм изображения и составляет от 75 до 1600 dpi (dot per inch). По конструктивному исполнению сканеры делятся на ручные и настольные. Настольные, в свою очередь, делятся на планшетные, роликовые и проекционные. Особняком стоят слайд-сканеры, считывающие изображение с прозрачных носи­телей.

1.2. Основные характеристики сканеров


1.   Оптическое разрешение определяется как количество светочувствительных элементов в сканирующей головке, поделенное на ширину рабочей области. Выражается в точках на дюйм (dots per inch, dpi). Высокое разрешение необхо­димо, как правило, только для комфортного визуального восприятия. Для нор­мальной работы программ распознавания образов (см. ниже) вполне достаточ­но величины 300 dpi, а для публикации картинок на web-сайтах Интернета и того меньше — 80 dpi.

2.   Интерполяционное (программное, логическое) разрешение — произвольно вы­бранное разрешение, для получения которого драйвер сканера рассчитывает недостающие точки.

3.   Разрядность (глубина цвета) — определяет степень подробности информации об отсканированной точке изображения. Чем больше разрядов (бит) использу­ется для представления отдельной точки изображения, тем более подробна ин­формация о ней. Так, например, глубине цвета в один бит соответствует два цвета — черный и белый, и, соответственно, точка может быть или черной, или белой. Восьми битам соответствует 256 цветов (как правило, это градации се­рого). Достаточной глубиной цвета является 24 бита, когда на каждый компо­нент цвета — красный, синий, зеленый — отводится 8 бит и, соответственно, 256 градаций. В совокупности это дает 16,7 млн возможных комбинаций цве­тов. Более тонкие оттенки человеческий глаз не различает.

4.   Динамический диапазон сканера характеризует его способность различать близ­лежащие оттенки (прежде всего, это касается темных областей оригинала). Ди­намический диапазон можно определить как разницу между самым светлым оттенком, который сканер отличает от белого, и самым темным, но отличимым от черного.

5.   Измеряется динамический диапазон в специальных единицах, именуемых D. Теоретически 24-разрядный сканер может иметь диапазон 2,4 D, а 36-разряд­ный — 3,2 D. Для повседневной работы вполне достаточна величина и 2,4 D и лишь для художественных цветных и полутоновых изображений требуется 3,00.

6. Скорость сканирования может определяться no-разному: и в миллиметрах в се­кунду, и в листах в минуту, но чаще в количестве секунд, затрачиваемых на сканирование одной страницы. Следует иметь в виду, что связь между скорос­тью сканирования и качеством получаемого изображения в большинстве слу­чаев отсутствует. Равно как и связь между скоростью сканирования цветного и черно-белого изображений.

1.3. Типы сканеров


Ручные сканеры конструктивно самые простые: они состоят из линейки светодио-дов и источника света, помещенных в единый корпус. Перемещение по изображе­нию такого сканера выполняется вручную.

С их помощью за один проход вводится лишь небольшое количество строчек изоб­ражения (их захват обычно не превышает 105 мм). У ручных сканеров имеется индикатор, предупреждающий оператора о превышении допустимой скорости ска­нирования. Эти сканеры имеют малые габариты и низкую стоимость. Скорость сканирования 5-50 мм в секунду (зависит от разрешающей способности).

Например, сканеры Mustek: GS-400L — черно-белый полутоновый, CG-8400T — цветной.