ШКАЛИРОВАННЫЕ КАТЕГОРИИ

КОНТЕНТ-МОНИТОРИНГ

 

Если анализу подвергается массив упорядоченных во време­ни текстов, поступивших из одного источника, речь идет уже не о простом контент-анализе, а о контент-мониторинге тек­стовой информации. В этом случае появляется дополнительная возможность применить математический аппарат многомерно­го регрессионного анализа и аппарат анализа временных ря­дов.

Так, контент-мониторинг пресс-релизов РАО ЕЭС дал воз­можность выявить закономерности, связывающие различные психолингвистические характеристики текстов с последующи­ми биржевыми изменениями курса акций компании. Примене­ние этих же закономерностей к анализу пресс-релизов компа­нии ENRON позволило обнаружить ее неблагополучие задолго до наступившего осенью 2001 года банкротства. То, чего не за­метили аудиторы, было обнаружено с использованием методов контент-мониторинга.

Другой пример контент-мониторинга связан с анализом пресс-релизов оборонного ведомства США и выявлением ин­дексных показателей, свидетельствующих о подготовке и про­ведении военных операций.

И последний пример контент-мониторинга — это анализ ди­намики избирательных кампаний с целью предсказания побе­дителя или внесения в нее необходимых корректив. Внешне неожиданный успех Сергея Глазьева на выборах красноярско­го губернатора также был предсказан на основании результа­тов сравнительного контент-мониторинга агитационных мате­риалов лидеров кампании.

 

 

До сих пор под категорией понималось некоторое множе­ство характеристик, слов или словосочетаний, объединенных вместе по тому или иному признаку. В контент-анализе используются и более сложно устроенные категории, которые могут быть названы шкалированными. В них объединены ха­рактеристики, каждой из которых дополнительно присвоена одна или несколько оценок по заранее фиксированным шка­лам.

Например, А.Г. Шмелев с коллегами провел многолетние ис­следования по выявлению лексики, используемой для обозна­чения различных личностных черт. Было построено многомер­ное по числу выявленных личностных черт пространство и каж­дому из используемых слов была сопоставлена точка в этом пространстве. Координаты слова являются его оценками по каж­дой из шкал (осей) пространства. Всего было выявлено пятнад­цать устойчивых шкал — оценка эмоциональная, оценка интел­лектуальная, активность, сила эмоциональная, сила физичес­кая, раздражительность, практичность, нравственная оцен­ка, ригидность, демонстративность, деятельность, скрыт­ность, эгоизм, утонченность, необычность. Оценка текстов по этим шкалам может заключаться в вычислении средней оценки и сравнении ее с нормой.

Другой известный пример шкалированных категорий — это звукобуквы А.П. Журавлева, позволяющие по набору осгудовских шкал оценивать фоносемантический образ русскоязычных текстов и слов.

ВЫВОДЫ

Перечисленные выше математические методы компьютер­ного контент-анализа текстов далеко не исчерпывают всего многообразия. Например, ничего не было сказано о таком важ­ном направлении в контент-анализе, как алгоритмические ме­тоды автоматического формирования категорий. Это отдельная и большая тема, которая требует своего подробного рассмотре­ния. Мы надеемся обратиться к ней в одной из последующих работ.

Практически все упомянутые в данном разделе методы реа­лизованы в компьютерной экспертной системе ВААЛ. Она су­ществует вот уже десять лет и успела зарекомендовать себя как надежный и удобный инструмент контент-анализа текстов. Много дополнительной информации о системе и о результатах, полученных с ее помощью, можно найти в сети Интернет по адресу http://www.vaal.ru/