Строится план будущего реферата.

Этапы построения реферата человеком.

Составлении реферата (аннотации) с помощью ПК называется автоматическим реферированием (аннотированием)

Реферат - вторичные документы, которые составляются к научным статьям, книгам патентам на изобретение.

Системы автоматического аннотирования и реферирования текста

Структурные алгоритмы содержат информацию не о точечном изображении символа, а о правилах его начертания (структуре). Структурными элементам являются составляющие символы линии.

Признаковые анализируют не все изображение знака, а лишь некоторые признаки, которые вычисляются по формулам. (не соответствует принципу целостности)

Возможности систем OCR:

· Во время сканирования автоматически подбирается яркость, фрагментируется каждая страница, распознаются символы текста.

· Позволяют распознавать печатные символы (около 200 языков) и рукописные тексты.

· Способны самообучаться и распознавать плохопропечатанные символы (символы незнакомого языка).

· Распознают изображение, полученные с цифрового фотоаппарата.

· Работают с файлами PDF

· Развитие ОСК систем сегодня идет в направлении повышения точности распознавания текстов низкого качества.

· Распознавание рукописных текстов

· Выделение текстовой информации на фоне шумов

· А также интеграции (объединения) OCR систем с различными программами обработки информации

План:

· Реферат. Аннотация. Общие понятия.

· Методы автоматического реферирования (аннотирования) текстов.

· Составление реферата (аннотации) компьютером на основе статистического метода.

Реферат - это связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, основные результата описанного исследования или разработки.

Аннотация - это краткое изложение содержания документа, лающее общее представление о его теме.

Машинный реферат представляет собой либо последовательность предложений исходного текста, либо таблицу в ячейках которой располагаются ключевые слова или словосочетания .

· Подготовительный этап. Референт читает текст и пытается осмыслить его в целом.

· Аналитический референт выделяет в тексте основные смысловые единицы (слова словосочетания, предложения).

· Этап непосредственного построения реферата, где выделенные ранее смысловые единицы (их комбинации) располагаются в единый вторичный текст в соответствии с планом.

Основные смысловые единицы реферата:

· Полная (без изменения) ключевое предложение исходного текста.

· Перефразированное ключевое предложение.

· Предложение, состоящее из ключевых слов и словосочетаний с использованием связующих элементов.

· Предложения, обобщающие несколько предложений исходного текста.

Смысловые единицы аннотации:

· Ключевые слова или словосочетания исходного текста с предшествующим им специальными словами - реляторами. Типа "основная тема состоит".

· Специальные предложения исходного текста содержащие оценочные элементы. "В статье рассматриваются следующие вопросы" "Ставится задача" "Недостатком является"

Компьютер должен уметь:

· Находить в тексте основные смысловые единицы.(ключевые слова, словосочетания, предложения)

· Находить в тексте менее значимые смысловые единицы.

· Составлять из смысловых единиц текст реферата и аннотации.

Метода автоматического реферирования:

Выделяют следующие методы:

· Статистические

· Позиционные

· Логико-семантические

· В статистическом методе ключевое слово - это знаменательное слово исходного текста, которое встретилось наибольшее число раз с учетом всех его синонимов.

Задача:

Используя один из вариантов статистического метода, а именно Коэффициент Важности (К) рассчитывается по формуле = F*m

N*n