Принципы переработки текстовой информации.

ЛЕКЦИЯ №5

Общие положения

Методы анализа документов многообразны. Они постоянно совершенствуются. Так, методы анализа логической структуры текста позволяют при чтении черпать из текста документа больше, чем её содержится в самом документе, а при составлении на его основе сжатого текста – делать его логически стройным, легко понимаемым и убедительным. Особенность анализа текстового материала заключается в потребности исследователя проникать в смысл рассматриваемого им произведения и в акцентировании подвижной структуры текста. Предлагается в процессе анализа теста, для получения семантического представления, рассматривать его как некоторую иерархическую структуру. Как правило, для этого применяется метод шаблонов: входной текст разделяется с помощью шаблонов, затем производится обработка полученных данных.

Таким образом, очевидно, что используются различные варианты анализа текстовых материалов документов, в которых выделяют два основных типа:
1.Традиционный, или классический.
2. Формализованный, или количественный (например, контент-анализ).

Различаясь между собой, они не исключают, а взаимно дополняют друг друга, позволяя компенсировать недостатки каждого. Традиционный анализ представляет собой совокупность определённых логических построений, направленных на раскрытие основного содержания изучаемого материала и позволяет преобразовать первоначальную форму содержащейся в документе информации в форму, интересующую исследователя (аналитика). Он включает многообразие умственных операций, направленных на интерпретацию сведений, содержащихся в документе, с определённой точки зрения принятой исследователем в каждом конкретном случае. Традиционный анализ является самостоятельным, творческим процессом, зависящим от:
1) содержания и направленности исследуемого документа;
2) условий, целей и задач проводимого исследования;
3) научной квалификации, богатства опыта и творческой интуиции исследователя (в этом случае он таит в себе возможность субъективной оценки и интерпретации изучаемого документа).

Проведение такого анализа заключается в преобразовании первоначальной формы исследуемой информации в необходимую с точки зрения исследователя. Фактически такой способ означает интерпретацию содержания документа, то есть его толкование исследователем при выполнении поставленной перед ним задачи. Традиционный классический анализ позволяет охватывать скрытые части содержания документа, поскольку исследователь может, а порой и должен, проникать вглубь документа, исчерпывая его содержание. Различают внешний и внутренний традиционный анализ. Внешний анализ предназначен для установления вида документа, формы, времени и места его появления, автора, цели создания, надёжности и достоверности, его контекста. Фактически основные его компоненты входят в состав библиографического описания документа. Пренебрежение таким анализом может привести к неверному толкованию содержания документа. Внутренний анализ ориентирован на исследование содержания документа. Отмечается, что анализ документа в рамках этого метода представляет самостоятельный творческий процесс, зависящий от формы и содержания исследуемого документа, целей и условий проведения исследования, опыта и творческой интуиции исследователя. Примером такого анализа является аннотирование документов. Основная слабость данного метода – субъективность, ибо любая интерпретация документа исследователем в большей или меньшей степени субъективна. Попытки избавиться от субъективности традиционного анализа привели к появлению формализованных, количественных методов анализа документов – к контент-анализу. Контент-анализ Контент-анализ (англ. «content-analysis») – анализ содержания. Он является частным случаем анализа документов. Суть данного метода заключается в том, чтобы найти легко подсчитываемые признаки и свойства (например, частота использования определённых терминов), отражающие существенные стороны содержания документа. При этом содержание документа становится измеримым. Одним из вариантов статистического анализа текстов, позволяющим вычислить сколько раз то или иное слово встречается в выбранном тексте (обычно с расширением .txt, .htm или .html), является программа Wordstat. В ней можно получить общую статистику по нескольким обрабатываемым файлам. Результаты подсчёта сохраняются в отдельном файле. Контент-анализ является, прежде всего, количественным методом, предполагающим числовую оценку компонентов текста, дополняемую различными качественными классификациями и выявлением тех или иных структурных закономерностей. Исторически этот метод явился наиболее ранним систематическим подходом к изучению текста.

Главная предпосылка контент-анализа – это выяснение того, что считать – иными словами, определение единиц анализа. От единиц контент-анализа обычно требуется некоторая субъективная, зависящая от контекста значимость, то есть единицы анализа должны быть интересными для последующей интерпретации. При этом такие единицы (например, темы) носят содержательный характер. Их идентификация в общем случае предполагает семантический анализ текста, проблема автоматизации которого, несмотря на многолетние усилия лингвистов и программистов, далека от решения. Конкретное разнообразие единиц контент-анализа практически безгранично, однако среди них можно выделить несколько основных типов. Самый простой вариант контент-анализа предполагает количественный подсчёт встречаемости слов в тексте.

К числу наиболее часто употребляемых единиц контент-анализа относят:
1) Понятие, выраженное отдельным словом, термином или сочетанием слов.
2) Тема, отражающая единичные суждения, смысловые абзацы или целостные тексты. Выбор темы в качестве единицы контент-анализа подразумевает внутреннее разделение изучаемого текста на определённые части, являющиеся органическими единицами контекста, внутри которых тема может быть более или менее честно определена.

Темой контент-анализа изучаемого текста может быть как общая тема, так и определённая её часть.
3) Персонаж («герой») некоего действия или отношений, отраженных в изучаемом тексте.
4) Ситуация, например сложившаяся где-то экстремальная ситуация и др.
5) Действие, осуществляемое отдельными индивидами или группами, в пределах избранной для контент-анализа темы, например, действия читателей, библиотечных работников и др.

В большинстве случаев контент-аналитик интересуется не словами как таковыми и не грамматическими категориями, а стоящими за словами значимыми для него понятиями, темами, проблемами. Их называют понятийно-тематичес-кими единицами. Еще одним типом являются пропозициональные единицы и оценки. Они представляют собой высказывания, в основе которых лежат пропозиции – описания конкретных положений дел или ситуаций безотносительно к их модальности (требования, констатации и др.), например, «Карфаген должен быть разрушен» или «Ни шагу назад». Большой интерес для контент-анализа представляют оценки, например, «Это неверное решение». С логической точки зрения они обладают важными отличиями от пропозиций. При этом для контент-анализа пропозицию и оценку можно рассматривать как результат связывания некоторого объекта с некоторым атрибутом. Выделяют также и макроструктурные единицы – сложные понятийные конструкции, образующие «верхние этажи» человеческих представлений о мире. В ряде случаев (например, в социологии) используют два вида контент-анализа, отличающиеся характером представления содержания текста: качественный и количественный. Качественный контент-анализ основан на использовании нечастотной модели содержания текста и позволяет выявить типы качественных характеристик содержания текста вне зависимости от частоты (т.е. количества) встречаемости каждого из этих типов. Количественный контент-анализ основан на использовании количественных мер, его задача – получить количественную характеристику содержания изучаемого текста. Чаще всего единицы контент-анализа являются содержательными и их выделение основывается на семантических (смысловых) критериях. Содержательная интерпретация результатов зависит от целей анализа. Она является, прежде всего, творческим актом, результаты которого во многом предопределены квалификацией и интуицией аналитиков. Метод контент-анализа характеризуется высокой степенью формализованности и возможностью массового охвата исследуемых объектов, поэтому он часто применяется при анализе материалов СМИ. При этом не исключена возможность проведения контент-анализа единичных документов, например, при изучении поступающих в различные организации и органы управления писем, в политологии, библиотечном деле, педагогике и т.д. Следует отметить наличие методологических проблем, возникающих в процессе практической реализации этого метода. Аналитиков обычно интересуют не одномоментные срезы, а различные макроединицы (темы и/или проблемы, образы и т.д.). Их в отдельно взятых текстах обычно бывает немного. Метод контент-анализа применяется как к отдельно взятому тексту, так и к информационному массиву или информационному потоку, состоящему из большого количества текстов. При этом статистические закономерности в выборке более проявляются в большом её объеме, поскольку оценить их динамику можно на большом временном промежутке или при сопоставлении большого количества документов. Специалисты отмечают, что контент-анализ занимает особое место среди аналитических методов, поскольку является самым технологичным из них и в силу этого в наибольшей степени подходящим для систематического мониторинга больших информационных потоков. В истории контент-анализа отмечается проект, связанный с анализом 427 школьных учебников и др. Таким образом, идея контент-анализа предполагает анализ больших информационных массивов. С точки зрения лингвистов и специалистов по информатике, контент-анализ являет собой типичный пример прикладного информационного анализа текста, сводящегося к извлечению из всего разнообразия имеющейся в нём информации специально интересующих исследователя компонентов и представлению их в удобной для восприятия и последующего анализа форме. Будучи в основе своей количественным методом, контент-анализ в определённой степени поддаётся формализации, а значит и компьютеризации.

А. Н. Петров выделяет два метода контент-анализа: «метод для автоматической классификации документов по содержанию и метод для раскрытия значения слов и идей». Кодирование данных при контент-анализе обычно осуществляется с помощью достаточно простых компьютерных программ, в которых фиксируется каждое появление в анализируемом тексте искомой единицы. Это могут быть, например, результаты подсчёта частоты упоминания одних и тех же тем для различных выпусков одного и того же печатного издания. Перевод данных в числовую форму, их математическая и, в частности, статистическая обработка может осуществляться многими разными программными средствами, в том числе стандартными статистическими пакетами типа SPSS. Помимо анализа частотного распределения, можно осуществлять анализ корреляций между переменными, ассоциаций, сопряженности и др. Возвращаясь к рассмотрению проблем, непосредственно связанных с анализом документов, следует заметить, что к различным видам отражения популярной, научной и других форм деятельности социума относят справки и отчёты, статьи и доклады, тезисы и записки, аннотации, рефераты и монографии, правила, законы и другие документы.

Обычно такие данные сопровождаются текстовыми материалами. С этой целью используются разные системы, разновидности которых представлены ниже:

- Системы подготовки текстовых документов включают: текстовые редакторы и текстовые процессоры (Microsoft Word); настольные издательские системы (PageMaker). Системы математических расчётов, моделирования и анализа экспериментальных данных, включают также редакторы математических формул, программы статистического анализа данных и др.

- Системы обработки финансово-экономической информации предназначены для обработки числовых данных, характеризующих различные производственно-экономические и финансовые явления и объекты, и для составления соответствующих управленческих документов и информационно-аналитических материалов.

- Системы управления базами данных служат для создания, хранения и манипулирования массивами данных большого объёма. Различаются способами организации хранения данных и обработки запросов на поиск информации, а также характером данных, хранящихся в базе. На их основе создаются базы и банки данных, информационно-поисковые системы.

- Экспертные системы (ЭС) и системы поддержки принятия решений (СППР) используются для реализации технологий информационного обеспечения процессов принятия управленческих решений на основе применения экономико-математического моделирования и принципов искусственного интеллекта.

- Личные информационные системы предназначены для информационного обслуживания рабочего места пользователя. Они направлены не только на сбор и поиск необходимых личности данных, но и на развитие таких личностных качеств, как компетентность, уверенность поведения, креативность и т. п.

Из сказанного очевидно, что не только целесообразно, но и, как никогда ранее, возможно и необходимо сохранять информацию в электронной форме, например, в электронных базах данных (БД). Очевидно, что любая подобная БД фактически может быть представлена и как личная (личностная) база сведений (ЛБС). В учебных заведениях она ориентирована, в первую очередь, на своевременное и успешное выполнение студентами учебных письменных заданий. Накопленные в ней сведения (данные, информация, знания и т.д.) в дальнейшем могут и должны использоваться в различных направлениях. ЛБС – это не склад электронных материалов, которые порой не только не структурированы, но и не имеют никаких связей между собой. Известно, что любая БД хоть каким-либо образом структурирована. Однако к внутренней структуре отдельных материалов (в нашем случае учебных работ), входящих в состав таких БД каких-либо системных требований обычно не предъявляется. В лучшем случае внутренняя структура материалов в БД представляет традиционное содержание работ, подобных сочинениям или дипломам (введение, главы и параграфы, заключение и т.д.). Этот способ вполне приемлем, но его следует дополнить более мелкими элементами. Такая работа осуществляется путём глубокого анализа, на основе которого реализуется оптимальная структуризация подобных текстов. Важным видом документов (формой их сжатия) являются аннотации и рефераты.