Базовые разделы и методы математической статистики

В математической статистике для первоначального знакомства целесообразно выделить следующие крупные разделы: описательная статистика, критерии парных различий, анализ факторных эффектов, регрессионный анализ, анализ временных рядов, многомерные мето­ды, методы контроля качества.

Описательная статистика.Описательная статистика дает нам основные параметры, характеризующие собранную информацию. Она включает:

1. Среднее значение:

² средняя арифметическая, которая может быть простой и взвешенной (с учетом частот признака);

² медиана – значение варьирующего признака, приходящееся на середину ранжированной совокупности;

² мода – наиболее часто встречающийся вариант в данном вариационном ряду.

2. Показатели колеблемости переменных или разброса значений, когда определяется:

² размах – широта рассеяния вариационного ряда;

² дисперсия – средний квадрат отклонений переменной от средней арифметической;

² среднее квадратическое отклонение (стандартное отклонение);

² коэффициент вариации (процентное отношение стандартного отклонения к средней арифметической).

² асимметрия показывает отклонение распределения частот от симметричного. Если показатель существенно отличается от 0, то распределение будет асимметричным, в то время как нормальное распределение абсолютно симметрично. У симметричного распределения асимметрия равна 0. Асимметрия распределения с длинным правым хвостом положительна. Если распределение имеет длинный левый хвост, то его асимметрия отрицательна;

² эксцесс показывает "остроту пика" распределения. Если он существенно отличен от 0, то распределение имеет или более закругленный пик, чем нормальное, или, напротив, имеет более острый пик (возможно, имеется несколько пиков). Обычно, если эксцесс положителен, то пик заострен, если отрицательный, то пик закруглен. Эксцесс нормального распределения равен 0;

² гистограммы показывают графически частоту попаданий значений переменной в отдельные интервалы.

Критерии различий. Критерии парных различий оценивают раз­личия между двумя совокупностями данных и служат для проверки статистических гипотез, статистических сравнений и различений переменных в группах. Необходимость в использовании критериев возникает тогда, когда хотят сравнить две или более совокупности данных, полученных, например, до эксперимента или нововведения и после. Результат применения критериев парных различий показывает, случайны или неслучайны различия подобных двух числовых выборок. При этом различия можно проанализировать по средним значениям (сдвигу), по разбросу значений (масштабу) или по синхронности изменений значений (корреляции), а также в зависимости от того, подчиняются ли ваши данные нормальному (гауссову) распределению (параметрические критерии) или нет (непараметрические критерии).

Точно такой же подход применим и при сравнении любых двух аль­тернатив с целью решения проблемы выбора, например, двух способов информирования, двух стилей руководства, двух тактик ведения переговоров с террористами и т.п. В практике исследований t-критерий является наиболее часто используемым методом обнаружения различия между средними двух выборок.

Факторные эффекты. Далее, часто необходимо выяснить, влияет или не влияет некоторый фактор на интересующий нас показатель. При этом фактор может быть количественным или качественным и иметь несколько градаций. Решать такие задачи призваны методы анализа факторных эффектов или дисперсионного анализа.

Прогнозирование. Другая важная задача — прогнозирование бу­дущего поведения некоторого временного ряда: изменение количества правонарушений по времени года или суток, числа ДТП и пр. Для такого временного ряда под­бирают некоторое аналитическое уравнение (модель), на основании которого можно предсказать ближайшее или отдаленное будущее со строго статистически обоснованной точностью (или ошибкой) такого прогноза. Выявлению периодических процессов в поведении временных рядов и их динамических взаимосвязей, лагов служат методы корреляционного, спектрального и авторегрессионного анализа.

Корреляционный и регрессионный анализ.Вопросы выявление статистических взаимосвязей и моделирования статистических зависимостей между двумя или несколькими переменными решаются в рамках корреляционного и регрессионного анализа. В этом случае проводят:

² вычисление показателей регрессии (зависимости среднего результативного признака от факторного);

² вычисление коэффициента корреляции Пирсона;

² вычисление коэффициентов ранговой корреляции Спирмена или Кендалла;

² вычисление коэффициентов множественной корреляции, конкордации и др.

С помощью этих моделей можно не только построить прогноз, но и определить оптимальные области для последующего управления и контроля, например, границу, за рамками которой дальнейшее привлечение ресурсов уже не приносит пропорционального улучшения результатов, предложить наиболее экономичные режимы работы, безопасное время работы в неблагоприятных условиях и т.п.

Многомерные методы. Часто необходимо увидеть закономерность, структуру и группировку в необозримом множестве объектов вашего интереса, каждый из которых описывается множеством переменных. Тогда к вашим услугам многомерные методы: дискриминантный, кластерный, факторный анализ и шкалирование.

Для подобного типа задач, прежде всего, необходимо увидеть, как группируются объекты в многомерном пространстве описывающих их переменных (в нашем трехмерном мире визуализировать многомерные пространства невозможно). В этом плане факторный анализ вычислит новую и сокращенную систему координат, на которую изучаемые объекты будут проецироваться более экономным и информативным образом. Кластерный анализ построит дерево классификации объектов (дендрограмму), на котором ветви отходят от ствола соответственно взаимной удаленности (несхожести) объектов.

Дискриминантный анализ подберет уравнение, разбивающее объекты на заданное число классов, используя которое можно успешно классифицировать новые объекты. Если же объекты вашего интереса могут быть оценены только экспертным способом посредством парных взаимных сравнений (психологические несоответствия коллег по работе и т.п.), то ту же самую проблему поможет решить метод многомерного шкалирования, который подберет нужное метрическое пространство для визуализации и измерения взаимного расположения таких объектов.

Следует подчеркнуть, что методы статистического анализа универсальны и им безразлично, данные из какого источника вы конкретно анализируете.