СОДЕРЖАНИЕ
1. Сканирование текста и изображений 2
1.1. Сканеры 2
1.2. Основные характеристики сканеров 3
1.3. Типы сканеров 4
2. Распознавание текста 8
2.1. Общая характеристика систем оптического распознавания текста 8
2.2. Программа FineReader 6.0 9
Литература 15
1. Сканирование текста и изображений
1.1. Сканеры
Сканер — это устройство ввода в компьютер информации непосредственно с бумажного документа. Можно вводить тексты, схемы, рисунки, графики, фотографии и другую графическую информацию. Сканер, подобно копировальному аппарату, создает копию изображения бумажного документа, но не на бумаге, а в электронном виде — создается электронная копия изображения.
Сканеры являются важнейшим звеном электронных систем обработки документов и необходимым элементом любого «электронного стола». Записывая результаты своей деятельности в файлы и вводя информацию с бумажных документов в ПК с помощью сканера с системой автоматического распознавания образов, можно сделать реальный шаг к созданию систем безбумажного делопроизводства. Сканеры весьма разнообразны и их можно классифицировать по целому ряду признаков. Прежде всего, сканеры бывают черно-белые и цветные.
Черно-белые сканеры могут считывать штриховые изображения и полутоновые. Штриховые изображения не передают полутонов, или, иначе, уровней серого. Полутоновые позволяют распознать и передать 16, 64 или 256 уровней серого. Цветные сканеры работают и с черно-белыми, и с цветными оригиналами. В первом случае они могут использоваться для считывания и штриховых, и полутоновых изображений.
В цветных сканерах используется цветовая модель RGB (Red-Green-Blue); сканируемое изображение освещается через вращающийся RGB-светофильтр или от последовательно зажигаемых трех цветных ламп; сигнал, соответствующий каждому основному цвету, обрабатывается отдельно.
Число передаваемых цветов колеблется от 256 до 65 536 (стандарт High Color) и даже до 16,8 млн (стандарт True Color).
Разрешающая способность сканеров измеряется в количестве различаемых точек на дюйм изображения и составляет от 75 до 1600 dpi (dot per inch). По конструктивному исполнению сканеры делятся на ручные и настольные. Настольные, в свою очередь, делятся на планшетные, роликовые и проекционные. Особняком стоят слайд-сканеры, считывающие изображение с прозрачных носителей.
1.2. Основные характеристики сканеров
1. Оптическое разрешение определяется как количество светочувствительных элементов в сканирующей головке, поделенное на ширину рабочей области. Выражается в точках на дюйм (dots per inch, dpi). Высокое разрешение необходимо, как правило, только для комфортного визуального восприятия. Для нормальной работы программ распознавания образов (см. ниже) вполне достаточно величины 300 dpi, а для публикации картинок на web-сайтах Интернета и того меньше — 80 dpi.
2. Интерполяционное (программное, логическое) разрешение — произвольно выбранное разрешение, для получения которого драйвер сканера рассчитывает недостающие точки.
3. Разрядность (глубина цвета) — определяет степень подробности информации об отсканированной точке изображения. Чем больше разрядов (бит) используется для представления отдельной точки изображения, тем более подробна информация о ней. Так, например, глубине цвета в один бит соответствует два цвета — черный и белый, и, соответственно, точка может быть или черной, или белой. Восьми битам соответствует 256 цветов (как правило, это градации серого). Достаточной глубиной цвета является 24 бита, когда на каждый компонент цвета — красный, синий, зеленый — отводится 8 бит и, соответственно, 256 градаций. В совокупности это дает 16,7 млн возможных комбинаций цветов. Более тонкие оттенки человеческий глаз не различает.
4. Динамический диапазон сканера характеризует его способность различать близлежащие оттенки (прежде всего, это касается темных областей оригинала). Динамический диапазон можно определить как разницу между самым светлым оттенком, который сканер отличает от белого, и самым темным, но отличимым от черного.
5. Измеряется динамический диапазон в специальных единицах, именуемых D. Теоретически 24-разрядный сканер может иметь диапазон 2,4 D, а 36-разрядный — 3,2 D. Для повседневной работы вполне достаточна величина и 2,4 D и лишь для художественных цветных и полутоновых изображений требуется 3,00.
6. Скорость сканирования может определяться no-разному: и в миллиметрах в секунду, и в листах в минуту, но чаще в количестве секунд, затрачиваемых на сканирование одной страницы. Следует иметь в виду, что связь между скоростью сканирования и качеством получаемого изображения в большинстве случаев отсутствует. Равно как и связь между скоростью сканирования цветного и черно-белого изображений.
1.3. Типы сканеров
Ручные сканеры конструктивно самые простые: они состоят из линейки светодио-дов и источника света, помещенных в единый корпус. Перемещение по изображению такого сканера выполняется вручную.
С их помощью за один проход вводится лишь небольшое количество строчек изображения (их захват обычно не превышает 105 мм). У ручных сканеров имеется индикатор, предупреждающий оператора о превышении допустимой скорости сканирования. Эти сканеры имеют малые габариты и низкую стоимость. Скорость сканирования 5-50 мм в секунду (зависит от разрешающей способности).
Например, сканеры Mustek: GS-400L — черно-белый полутоновый, CG-8400T — цветной.