ОЦЕНКИ ЧАСТОТ
Основные cведения из математической статистики
ЛЕЦИЯ №7
РЯД РАСПРЕДЕЛЕНИЯ. МНОГОУГОЛЬНИК РАСПРЕДЕЛЕНИЯ.
СЛУЧАЙНОЕ СОБЫТИЕ. ВЕРОЯТНОСТЬО СОБЫТИЯ. ЧАСТОТА СОБЫТИЯ.
ЛЕКЦИЯ №6
В контент-анализе самыми бедными по содержанию и в то же время самыми фундаментальными являются простые оценки частот. Примем следующее обозначение: f(c,t) — частота встречаемости характеристики c в тексте t.
Отдельные слова как элементы содержания являются частным случаем того, что в контент-анализе называется категорией. Категория — это множество слов, объединенных вместе по тому или иному признаку. Так, в качестве категории ЖИЛЬЕ может выступать группа синонимов (берлога, дом, жилище, жилье, логово, логовище, обиталище, обитель). Другими примерами могут быть категории агрессивно окрашенной лексики АГРЕССИВНОСТЬ (бить, бушевать, грозить, назло, одолеть, погром, рычать,...) и позитивно окрашенной лексики ПОЗИТИВ (благодарность, бодрый, вкусный, добро, нежный, няня, теплый, шутка, юмор, ясный,..). Частота упоминания в тексте некоторой категории подсчитывается как сумма частот входящих в нее слов, т.е. если K — категория, то
Логической операцией, лежащей в основе создания категории, является определение через абстракцию. Вовсе не обязательно категория должна задаваться посредством заранее фиксированного списка слов. Иногда гораздо удобнее задать ее операционно. Примером такой категории может быть категория глаголов прошедшего времени. Определение принадлежности к ней будет заключаться не в сопоставлении с фиксированным списком слов, а в распознавании грамматических признаков глагола прошедшего времени.
Более сложными являются категории, состоящие не просто из отдельных слов, а из целых словосочетаний. Например, категория МОРЕ (Черное море, Средиземное море, Красное море, Балтийское море,...).
Контент-анализ с использованием категорий позволяет оценивать тексты на более высоком абстрактном уровне. Результаты, получаемые с их помощью, качественно богаче. Возьмем, например, категории ПОЗИТИВ, НЕГАТИВ, АГРЕССИВНОСТЬ, АРМИЯ, ПОЛИТИКА, ЭКОНОМИКА, РАЗВЛЕЧЕНИЯ, ЗАКОН и подсчитаем частоты их встречаемости в интересующем нас издании на протяжении нескольких месяцев. Затем сопоставим, подсчитаем корреляцию с ежемесячными рейтингами этого же издания среди различных социально-демографических групп. Положительные и отрицательные коэффициенты корреляции между частотами отдельных категорий и рейтингами подскажут, статьи какой тематики привлекают или отталкивают читателей той целевой группы, на которую рассчитано издание.
Можно подсчитывать частоту абзацев, обладающих определенными признаками. Более крупными элементами являются целые тексты — статьи и книги. Например, подсчет частоты статей различной тематики позволяет делать выводы о редакционной политике издания. Аналогичный подсчет тематики книг, поступающих в научную библиотеку, позволяет судить о тенденциях в развитии науки, перспективных направлениях исследований и т. д.