Строится план будущего реферата.
Этапы построения реферата человеком.
Составлении реферата (аннотации) с помощью ПК называется автоматическим реферированием (аннотированием)
Реферат - вторичные документы, которые составляются к научным статьям, книгам патентам на изобретение.
Системы автоматического аннотирования и реферирования текста
Структурные алгоритмы содержат информацию не о точечном изображении символа, а о правилах его начертания (структуре). Структурными элементам являются составляющие символы линии.
Признаковые анализируют не все изображение знака, а лишь некоторые признаки, которые вычисляются по формулам. (не соответствует принципу целостности)
Возможности систем OCR:
· Во время сканирования автоматически подбирается яркость, фрагментируется каждая страница, распознаются символы текста.
· Позволяют распознавать печатные символы (около 200 языков) и рукописные тексты.
· Способны самообучаться и распознавать плохопропечатанные символы (символы незнакомого языка).
· Распознают изображение, полученные с цифрового фотоаппарата.
· Работают с файлами PDF
· Развитие ОСК систем сегодня идет в направлении повышения точности распознавания текстов низкого качества.
· Распознавание рукописных текстов
· Выделение текстовой информации на фоне шумов
· А также интеграции (объединения) OCR систем с различными программами обработки информации
План:
· Реферат. Аннотация. Общие понятия.
· Методы автоматического реферирования (аннотирования) текстов.
· Составление реферата (аннотации) компьютером на основе статистического метода.
Реферат - это связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, основные результата описанного исследования или разработки.
Аннотация - это краткое изложение содержания документа, лающее общее представление о его теме.
Машинный реферат представляет собой либо последовательность предложений исходного текста, либо таблицу в ячейках которой располагаются ключевые слова или словосочетания .
· Подготовительный этап. Референт читает текст и пытается осмыслить его в целом.
· Аналитический референт выделяет в тексте основные смысловые единицы (слова словосочетания, предложения).
· Этап непосредственного построения реферата, где выделенные ранее смысловые единицы (их комбинации) располагаются в единый вторичный текст в соответствии с планом.
Основные смысловые единицы реферата:
· Полная (без изменения) ключевое предложение исходного текста.
· Перефразированное ключевое предложение.
· Предложение, состоящее из ключевых слов и словосочетаний с использованием связующих элементов.
· Предложения, обобщающие несколько предложений исходного текста.
Смысловые единицы аннотации:
· Ключевые слова или словосочетания исходного текста с предшествующим им специальными словами - реляторами. Типа "основная тема состоит".
· Специальные предложения исходного текста содержащие оценочные элементы. "В статье рассматриваются следующие вопросы" "Ставится задача" "Недостатком является"
Компьютер должен уметь:
· Находить в тексте основные смысловые единицы.(ключевые слова, словосочетания, предложения)
· Находить в тексте менее значимые смысловые единицы.
· Составлять из смысловых единиц текст реферата и аннотации.
Метода автоматического реферирования:
Выделяют следующие методы:
· Статистические
· Позиционные
· Логико-семантические
· В статистическом методе ключевое слово - это знаменательное слово исходного текста, которое встретилось наибольшее число раз с учетом всех его синонимов.
Задача:
Используя один из вариантов статистического метода, а именно Коэффициент Важности (К) рассчитывается по формуле = F*m
N*n