Показатели вариации

В практическом анализе оценка рассеяния значений признака может оказаться не менее важной, чем определение средней.

Самая грубая оценка рассеяния, определяемая по данным вариационного ряда, может быть дана с помощью размаха вариации:

, где хт и хтinнаибольшее и наименьшее значения варьирующего признака.

Этот показатель представляет интерес в тех случаях, когда важно знать, какова амплитуда колебаний значений признака, например, каковы колебания цены на данный товар в течение недели или по разным регионам в данный отрезок времени.

Однако этот показатель не дает представления о характере вариационного ряда, расположении вариантов вокруг средней и может сильно меняться, если добавить или исключить крайние варианты (когда эти значения аномальны для данной совокупности). В этих случаях размах вариации дает искаженную амплитуду колебания против нормальных ее размеров.

Для оценки колеблемости значений признака относительно средней используются характеристики рассеяния.Они различаются выбранной формой средней и способами оценки отклонений от нее отдельных вариантов. К таким показателям относятся: среднее линейное отклонение, дисперсия, среднее квадратическое отклонение.

Среднее линейное отклонение – среднее арифметическое из абсолютных значений отклонений отдельных вариант от их средней величины:

для несгруппированных данных: ;

для сгруппированных данных: ,

где xi – значение признака в дискретном ряду или середина интервала в интервальном распределении;

fi - частота признака.

Среднее линейное отклонение выражено в тех же единицах измерения, что и варианты или их средняя. Оно дает абсолютную меру вариации.

Чтобы избежать равенства нулю суммы отклонений от средней, можно вместо абсолютных отклонений использовать их квадраты. В этом случае мера вариации называется дисперсией.

Для несгруппированных данных: ;

для сгруппированных данных: .

Исчисление дисперсии сопряжено с громоздкими расчетами, которые можно упростить, если использовать следующую формулу:

.

Вследствие суммирования квадратов отклонений дисперсия дает искаженное представление об отклонениях, измеряя их в квадратных единицах. Поэтому на основе дисперсии вводят еще две характеристики: среднее квадратическое отклонение и коэффициент вариации.

Среднее квадратическое отклонение измеряется в тех же единицах, что и варьирующий признак, и исчисляется путем извлечения квадратного корня из дисперсии:

для несгруппированных данных: ;

для сгруппированных данных: .

Среднее квадратическое отношение, как и среднее линейное отклонение, показывает, на сколько в среднем отклоняются конкретные варианты признака от его среднего значения. Отклонение, выраженное в s, называется нормированным или стандартизированным.

Для оценки меры вариации и ее значимости используется коэффициент вариации, который дает относительную оценку вариации и получается путем сопоставления среднего квадратического отклонения со средним уровнем явления, результат выражается в процентах:

.

Так как коэффициенты вариации дают относительную характеристику однородности явлений и процессов, они позволяют сравнивать степень вариации разных признаков. Интерпретируется следующим образом: если V < 33% , то исследуемая совокупность однородная, средняя типичная; если V > 33% , то совокупность разнородная, средняя фиктивная, к ней следует относиться осторожно.

Пример. По приведенным данным таблицы смертности вычислить всевозможные показатели вариации:

Таблица 2. Расчетная таблица для исчисления показателей вариации.

Группы по возрасту Мужчины fi Середина интервала xi Расчетные показатели
0-4 1002,9889 16125052,55
5-9 711,2889 11279619,38
10-14 469,5889 11270603,19
15-19 277,8889 9191453,26
20-24 136,1889 4390866,32
25-29 44,4889 1325546,78
30-34 2,7889 96677,22
35-39 11,0889 288766,04
40-44 69,3889 2078266,94
45-49 177,6889 4889998,53
50-54 335,9889 8000567,69
55-59 544,2889 5706324,83
60-64 802,5889 11999506,64
65-69 1110,8889 9965784,32
70 и старше 1469,1889 20351204,64
Итого   7166,3335 116960238,33
         

По выполненным расчетам вычисли показатели вариации:

Дисперсия:

или .

Среднее квадратическое отклонение: , то есть в среднем возраст мужчин отклоняется от33,67 лет на 18,51 год.

Коэффициент вариации , так как больше 33%, следовательно, структура разнородная, средняя фиктивная, к ней надо относиться осторожно.

Если статистическая совокупность разбита на группы по какому-либо признаку и для этих групп могут быть найдены средний уровень и дисперсия, то при объединении частных групп в совокупность требуется оценить вариации показателей объединенной совокупности на основе показателей отдельных частных групп. Вариация признака в целом по совокупности, то есть общая дисперсия, характеризуется вариацией признака под влиянием всех факторов, действующих в данной совокупности. Межгрупповая дисперсия – обусловлена вариацией признака, положенного в основание группировки, внутригрупповая дисперсия обусловлена вариацией всех остальных признаков, неучтенных группировкой. Общую дисперсию можно представить в виде суммы двух дисперсий: межгрупповой и внутригрупповой.

Общая дисперсия: ;

Межгрупповая дисперсия: ;

Внутригрупповая дисперсия: ,

где xi - значения признака;

- среднее значение признака в каждой группе;

- общая средняя;

Ni - число единиц совокупности в i-ой группе.

N - объем выборки;

k - число значений признака;

m - число групп;

- дисперсия в i-ой группе.

Если межгрупповая дисперсия мала по сравнению с общей дисперсией, то группировочный признак оказывает слабое влияние на формирование уровней в совокупности и елико влияние всех остальных признаков, неучтенных группировкой.

Количественно меру влияния группировочного признака можно определить по показателю, который называется эмпирическое корреляционное отношение:

.

Эмпирическое корреляционное отношение изменяется от 0 до 1. Если связь отсутствует, то . В этом случае дисперсия групповых средних равна нулю , то есть межгрупповой вариации нет. Это означает, что группировочный признак не влияет на вариацию исследуемого признака. Если связь функциональная, то . В этом случае дисперсия групповых средних равна общей дисперсии , то есть не будет внутригрупповой вариации. Это означает, что группировочный признак полностью определяет вариацию изучаемого признака. Чем ближе значение корреляционного отношения приближается к единице, тем сильнее связь между признаками.

Таблица 3. Качественная оценка связи между признаками.

h Связь   h Связь
Отсутствует   0,5-0,7 Заметная
0-0,2 Очень слабая   0,7-0,9 Тесная
0,2-0,3 Слабая   0,9-0,99 Весьма тесная
0,3-0,5 Умеренная   Функциональная

Пример. Рассчитать дисперсию и эмпирическое корреляционное отношение по следующим данным:

Место проживания пенсионеров Средний размер месячных пенсий, тыс. руб. Численность пенсионеров, тыс. чел. Ni Дисперсия пенсионного пособия в области (группе)
Курская область 264,3 341,4
Курганская область 310,4 235,5
Камчатская область 490,4 38,9
Итого 296,2 615,8 6171,2

 

Сначала найдем средний размер месячных пенсий по трем областям в целом:

Вариация назначенных пенсионных пособий в отдельных областях, обусловленная различием в местах проживания пенсионеров, характеризуется межгрупповой дисперсией:

Средняя из групповых дисперсий дает обобщающую характеристику случайной вариации, обусловленную всеми остальными факторами, кроме места проживания пенсионеров (например, характером занятости, стажем работы и т. п.):

Вариация пенсионного пособия в изучаемых областях, обусловленная влиянием всех факторов, вместе взятых определяется общей дисперсией:

.

Сопоставляя межгрупповую дисперсию с общей, рассчитаем эмпирическое корреляционное отношение:

Полученное значение позволяет утверждать, что существует заметная связь между местом проживания пенсионеров и размером назначенного пособия (см. табл. 3).

 

Контрольные вопросы

  1. Дисперсия – смысл показателя и метод расчета.
  2. Среднее квадратическое отклонение. Правило трех сигм.
  3. Коэффициент вариации. Его интерпретация.
  4. Эмпирическое корреляционное отношение как мера влияния группировочного признака.