Системы распознавания текстов

Вопрос

Вопрос

Общая характеристика, функциональные возможности и технология работы текстового процессора MS Word

Системы распознавания текстов

Системы обработки текстовых документов, их классификация и функциональные возможности.

Офисные пакеты, их компоненты. MMS Office и их характеристики

Лекция 6

Программ обеспечение кит

Тема 4

Непрерывные архивы

Распределенные архивы

• В тех случаях, когда предполагается передача большого архива на носителях малой емкости, возможно распределение одного архива в виде малых фрагментов на нескольких носителях.

• При архивировании большого количества малых файлов эффективно использовать непрерывные архивы. В этом случае все исходные файлы архивируются в виде одного файла, а не каждый по отдельности.

Достоинства:

• Высокий выигрыш в размере – 10-50%

Недостатки:

• Для распаковки нескольких файлов из такого архива понадобится больше времени, чем для извлечения из обычного.

• Такой способ архивации может повлечь за собой большие утраты информации.

 

 

 

1вопрос

В настоящее время на рынке ПО имеются мощные интегрированные пакеты для автоматизации офисной деятельности, наз офисные пакеты.

 

Офисный пакет – комплект приложений для индив пользователей и компаний, призванный облегчить подготовку, обнавление и распространение док-тов.

 

 

Sun microsystem Staroffice, openoffice
Idm Lotus smartsuite
corel Wordperfect office

 

Компоненты star оffice:

1. Writer

2. Calc – таблицы

3. Base СУБД

4. Impress презентации

5. Draw векторный редактор

6. Image растровый

7. Mail

8. Discussion телеконференции

9. Browser

10. Schedule – планировщик мероприятий

 

Компоненты Lotus smartsuite:

1. Word Pro

2. Lotus1-2-3 таблицы

3. Approach СУБД

4. Freelanz Grafics -презентации

5. Screen cam - мультимедиа

6. Organizer

7. Fast site

 

Компоненты Corel:

1. Word Perfect

2. Quattro pro paradox –субд

3. Corel presentation

4. Corel print office

5. Corel CENTRAL – инф менеджер

6. Dragon naturally speaking

7. Net perfect - веб-издательство

 

 

1.2 MS Office 2003:

- стандартный выпуск

- для малого бизнеса

- профессиональный выпуск

- расширенный выпуск

 

 

Системы текстовых документов, классификация.

Системы обработки текстовых документов:

1. Редакторы ком программ - для создания и редактирования текстов программ, написанных на алгоритмических языках

2. Встроенные редакторы – не сущ виде самостоятельных программ, а входят в качестве одной из функций в состав сервисных программ (f4 in Total comander)

3. Редакторы док общего вида ориентированы на работу с документами содержащими не только текст но и другие виды информации – табличную, формульную

4. Текстовые процессоры – это прикладные системы, предназначенные для создания и редактирования профессионально оформленных документов.

5. Редакторы научных документов используются для подготовки документов содержащих множество формул(chiwriter)

6. Издательские системы предназначены для подготовки к типографскому изданию печатной продукции высокого класса (page make)

 

Оптическое распознавание символов — механический или электронный перевод изображений рукописного, машинописного или печатного текста в текстовые данные. (Преобразование элементов графического изображения в последовательности текстовых символов)

Для чего используются:

1) для конвертации книг и документов в электронный вид

2) для автоматизации систем учёта в бизнесе

3) для публикации текста на веб-странице и др.

Позволяет:

1) редактировать текст;

2) осуществлять поиск слова или фразы;

3) хранить его в более компактной форме;

4) демонстрировать или распечатывать материал;

5) применять к тексту электронный перевод и др.

Процесс

С помощью сканера необходимо получить изображение страницы текста в графическом формате, далее провести операцию распознавания текста:

А) определить структуру размещения текста на странице

Б) разбить его на отдельные области: колонки, таблицы, изображения и т. д.

В) выделенные текстовые фрагменты графического изображения страницы разделяются на изображения отдельных символов

Г) распознавание текста:

• Растровое изображение каждого символа последовательно накладывается на растровые шаблоны символов, хранящиеся в памяти системы оптического распознавания. Результатом распознавания является символ, шаблон которого в наибольшей степени совпадает с изображением.

• Структурный подход, при котором использует алгоритм, основанный на нахождении общих специфических особенностей символов.

• Контекстное распознавание ,при котором часто включается словари для помощи алгоритмам распознавания.