Информационная технология автоматического аннотирования и реферирования текста на естественном языке.

Рефератом называется связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, а также цель, применяемые методы, основные результаты описанного исследования или разработки.

Рефераты обычно составляют к научно-техническим документам – книгам, статьям, патентам на изобретение и т.п. Поэтому в приведенном выше определении и говорится о «методах и основных результатах описанного исследования или разработки». Реферат акцентирует внимание читателя на новых сведениях и определяет целесообразность его обращения к исходному документу. Он помогает человеку ориентироваться в информационных потоках, оперативно отбирать для себя наиболее ценную и полезную информацию.

Процесс составления реферата называется реферированием.

Аннотацией называется краткое изложение содержания документа, дающее общее представление о теме этого документа. Таким образом, если реферат в краткой форме знакомит читателя с целью излагаемого в документе содержания (фактах, методике, экспериментах и т.п.), то аннотация выполняет лишь сигнальную функцию, сообщая о том, что опубликована статья или книга на определенную тему.

Процесс составления аннотации называется аннотированием.

Рефераты и аннотации представляют собой вторичные документы. Первичные или исходные документы – это книги, статьи, патенты и т.п. В каждом вторичном документе можно выделить два компонента информации:

· содержательный,

· документографический.

Первый компонент содержит информацию первоисточника (о чем книга, статья).

Второй компонент – это сведения о самом первичном документе (тип документа; вид документа; год издания; место издания и т.д.).

Научно-технический прогресс привел к появлению большого числа публикаций по самым разным проблемам науки, техники, образования, и специалисты не успевают следить за новейшей литературой по своей области знания. Для этого, как установлено, человек должен был бы прочитывать ежедневно 1500 страниц текста на разных языках, что явно превышает его физические возможности. Поэтому, для оперативного «поверхностного» знакомства с новейшими публикациями используются рефераты и аннотации книг и статей, которые составляются в специальных журналах и Реферативных сборниках.

Реферирование и аннотирование текста являются довольно сложными и трудными видами интеллектуальной деятельности. Составление рефератов и аннотаций человеком занимает много времени. Это приводит к тому, что до ученых, педагогов, инженеров и др. специалистов новейшая информация (особенно зарубежная) доходит очень медленно. А это, в свою очередь, ведет к повторению в разных странах и в пределах одной страны одних и тех же исследований, более позднему применению новейших методик, технологий, процессов. Чтобы как-то избежать этого, для составления рефератов и аннотаций применяют современные компьютеры.

Составление реферата (аннотации) текста с помощью компьютера называется автоматическим реферированием (аннотированием).