ШКАЛИРОВАННЫЕ КАТЕГОРИИ
КОНТЕНТ-МОНИТОРИНГ
Если анализу подвергается массив упорядоченных во времени текстов, поступивших из одного источника, речь идет уже не о простом контент-анализе, а о контент-мониторинге текстовой информации. В этом случае появляется дополнительная возможность применить математический аппарат многомерного регрессионного анализа и аппарат анализа временных рядов.
Так, контент-мониторинг пресс-релизов РАО ЕЭС дал возможность выявить закономерности, связывающие различные психолингвистические характеристики текстов с последующими биржевыми изменениями курса акций компании. Применение этих же закономерностей к анализу пресс-релизов компании ENRON позволило обнаружить ее неблагополучие задолго до наступившего осенью 2001 года банкротства. То, чего не заметили аудиторы, было обнаружено с использованием методов контент-мониторинга.
Другой пример контент-мониторинга связан с анализом пресс-релизов оборонного ведомства США и выявлением индексных показателей, свидетельствующих о подготовке и проведении военных операций.
И последний пример контент-мониторинга — это анализ динамики избирательных кампаний с целью предсказания победителя или внесения в нее необходимых корректив. Внешне неожиданный успех Сергея Глазьева на выборах красноярского губернатора также был предсказан на основании результатов сравнительного контент-мониторинга агитационных материалов лидеров кампании.
До сих пор под категорией понималось некоторое множество характеристик, слов или словосочетаний, объединенных вместе по тому или иному признаку. В контент-анализе используются и более сложно устроенные категории, которые могут быть названы шкалированными. В них объединены характеристики, каждой из которых дополнительно присвоена одна или несколько оценок по заранее фиксированным шкалам.
Например, А.Г. Шмелев с коллегами провел многолетние исследования по выявлению лексики, используемой для обозначения различных личностных черт. Было построено многомерное по числу выявленных личностных черт пространство и каждому из используемых слов была сопоставлена точка в этом пространстве. Координаты слова являются его оценками по каждой из шкал (осей) пространства. Всего было выявлено пятнадцать устойчивых шкал — оценка эмоциональная, оценка интеллектуальная, активность, сила эмоциональная, сила физическая, раздражительность, практичность, нравственная оценка, ригидность, демонстративность, деятельность, скрытность, эгоизм, утонченность, необычность. Оценка текстов по этим шкалам может заключаться в вычислении средней оценки и сравнении ее с нормой.
Другой известный пример шкалированных категорий — это звукобуквы А.П. Журавлева, позволяющие по набору осгудовских шкал оценивать фоносемантический образ русскоязычных текстов и слов.
ВЫВОДЫ
Перечисленные выше математические методы компьютерного контент-анализа текстов далеко не исчерпывают всего многообразия. Например, ничего не было сказано о таком важном направлении в контент-анализе, как алгоритмические методы автоматического формирования категорий. Это отдельная и большая тема, которая требует своего подробного рассмотрения. Мы надеемся обратиться к ней в одной из последующих работ.
Практически все упомянутые в данном разделе методы реализованы в компьютерной экспертной системе ВААЛ. Она существует вот уже десять лет и успела зарекомендовать себя как надежный и удобный инструмент контент-анализа текстов. Много дополнительной информации о системе и о результатах, полученных с ее помощью, можно найти в сети Интернет по адресу http://www.vaal.ru/