Системы распознавания текстов (OCR-системы)
Любая сканированная информации представляет собой графический файл (картинку). Следовательно, отсканированный текст невозможно редактировать без специального перевода в текстовый формат. Этот перевод можно осуществить с помощью систем оптического распознавания символов (optical character recognition – OCR).
Для получения электронной (готовой к редактированию) копии печатного документа, программе OCR необходимо выполнить ряд операций, среди которых можно выделить следующие:
1. Сегментация – полученная со сканера «картинка» разбивается на сегменты (текст отделяется от графики, ячейки таблиц разделяются на отдельные куски и т.д.).
2. Распознавание – текст переводится из графической формы в обычную текстовую.
3. Проверка орфографии и правка – внутренняя система проверки орфографии проверяет и корректирует работу системы распознавания (спорные слова и символы выделяются цветом, пользователю сообщается о «неуверенно распознанных символах»)
4. Сохранение – запись распознанного документа в файл нужного формата для дальнейшего редактирования в соответствующей программе.
Перечисленные выше операции в большинстве OCR-систем могут выполняться как в автоматическом (с помощью программы-мастера), так и в ручном режиме (по отдельности).
Современные OCR-системы распознают тексты, набранные различными шрифтами; корректно работают с текстами, содержащими слова на нескольких языках; распознают таблицы и рисунки; позволяют сохранять результат в файле текстового или табличного формата и др.
В качестве примера OCR-систем можно привести CuneiForm от фирмы Cognitive и FineReader от ABBYY Software.
OCR-системаFineReader выпускается в различных версиях (Sprint, Home Edition, Professional Edition, Corporate Edition, Office) и все они, от самой простой до самой мощной имеют очень удобный интерфейс, а также (в зависимости от модификации) имеют ряд достоинств, которые выделяют их среди аналогичных программ.
Например, FineReader Professional Edition (FineReader Pro) обладает следующими функциональными возможностями:
§ поддерживает почти двести языков (даже древние языки и популярные языки программирования);
§ распознает графику, таблицы, документы на бланках и т.п.;
§ полностью сохраняет все особенности форматирования документов и их графическое оформление;
§ позволяет сохранить полученный текст в одном из множества популярных форматах (от документов Microsoft Office до HTML или PDF);
§ для текстов, в которых используются декоративные шрифты или встречаются специальные символы (например математические), предусмотрен режим «Распознавание с обучением», в результате работы которого создается эталон символов, встречающихся в тексте, для дальнейшего использования при распознавании;
§ и др.