Cканирование текста и распознавание образов.

О вводе текста в ПЭВМ следует сказать особо. Мы определили сканер как устройство ввода графической информации. Введенный рисунок записывается на внешний носитель информации в специальном формате и может быть отредактирован посредством графического редактора и/или отпечатан принтером в медленном графическом режиме. Текст же, хотя по внешнему виду и является частным случаем изображения, в компьютере обрабатывается иначе. Эти особенности перечислены ниже:

  • тексты хранятся в текстовых форматах, которые требуют существенно меньше внешней памяти (байт на символ, а не байт на точку при 256-битовом сканировании);
  • тексты обрабатываются текстовыми, а не графическими редакторами;
  • текст может быть напечатан принтером в гораздо более быстром текстовом режиме;
  • с текстом можно производить манипуляции, недоступные для изображений (проверка орфографии).

Для ввода напечатанного или рукописного текста применяют сканер со специальными программными средствами для распознавания символов. Сканер вводит изображение. Затем оно читается специальными программными средствами и преобразуется в текстовый формат. Здесь не обойтись без методов искусственного интеллекта, в частности, теории распознавания образов. В качестве примеров таких программ можно отметить продукцию отечественных фирм FineReader и СuneiForm.
Одним из основных показателей качества системы ввода текстов является точность идентификации вводимых символов.