Показатели вариации
В практическом анализе оценка рассеяния значений признака может оказаться не менее важной, чем определение средней.
Самая грубая оценка рассеяния, определяемая по данным вариационного ряда, может быть дана с помощью размаха вариации:
, где хтaх и хтin — наибольшее и наименьшее значения варьирующего признака.
Этот показатель представляет интерес в тех случаях, когда важно знать, какова амплитуда колебаний значений признака, например, каковы колебания цены на данный товар в течение недели или по разным регионам в данный отрезок времени.
Однако этот показатель не дает представления о характере вариационного ряда, расположении вариантов вокруг средней и может сильно меняться, если добавить или исключить крайние варианты (когда эти значения аномальны для данной совокупности). В этих случаях размах вариации дает искаженную амплитуду колебания против нормальных ее размеров.
Для оценки колеблемости значений признака относительно средней используются характеристики рассеяния.Они различаются выбранной формой средней и способами оценки отклонений от нее отдельных вариантов. К таким показателям относятся: среднее линейное отклонение, дисперсия, среднее квадратическое отклонение.
Среднее линейное отклонение – среднее арифметическое из абсолютных значений отклонений отдельных вариант от их средней величины:
для несгруппированных данных: ;
для сгруппированных данных: ,
где xi – значение признака в дискретном ряду или середина интервала в интервальном распределении;
fi - частота признака.
Среднее линейное отклонение выражено в тех же единицах измерения, что и варианты или их средняя. Оно дает абсолютную меру вариации.
Чтобы избежать равенства нулю суммы отклонений от средней, можно вместо абсолютных отклонений использовать их квадраты. В этом случае мера вариации называется дисперсией.
Для несгруппированных данных: ;
для сгруппированных данных: .
Исчисление дисперсии сопряжено с громоздкими расчетами, которые можно упростить, если использовать следующую формулу:
.
Вследствие суммирования квадратов отклонений дисперсия дает искаженное представление об отклонениях, измеряя их в квадратных единицах. Поэтому на основе дисперсии вводят еще две характеристики: среднее квадратическое отклонение и коэффициент вариации.
Среднее квадратическое отклонение измеряется в тех же единицах, что и варьирующий признак, и исчисляется путем извлечения квадратного корня из дисперсии:
для несгруппированных данных: ;
для сгруппированных данных: .
Среднее квадратическое отношение, как и среднее линейное отклонение, показывает, на сколько в среднем отклоняются конкретные варианты признака от его среднего значения. Отклонение, выраженное в s, называется нормированным или стандартизированным.
Для оценки меры вариации и ее значимости используется коэффициент вариации, который дает относительную оценку вариации и получается путем сопоставления среднего квадратического отклонения со средним уровнем явления, результат выражается в процентах:
.
Так как коэффициенты вариации дают относительную характеристику однородности явлений и процессов, они позволяют сравнивать степень вариации разных признаков. Интерпретируется следующим образом: если V < 33% , то исследуемая совокупность однородная, средняя типичная; если V > 33% , то совокупность разнородная, средняя фиктивная, к ней следует относиться осторожно.
Пример. По приведенным данным таблицы смертности вычислить всевозможные показатели вариации:
Таблица 2. Расчетная таблица для исчисления показателей вариации.
Группы по возрасту | Мужчины fi | Середина интервала xi | Расчетные показатели | |||
0-4 | 1002,9889 | 16125052,55 | ||||
5-9 | 711,2889 | 11279619,38 | ||||
10-14 | 469,5889 | 11270603,19 | ||||
15-19 | 277,8889 | 9191453,26 | ||||
20-24 | 136,1889 | 4390866,32 | ||||
25-29 | 44,4889 | 1325546,78 | ||||
30-34 | 2,7889 | 96677,22 | ||||
35-39 | 11,0889 | 288766,04 | ||||
40-44 | 69,3889 | 2078266,94 | ||||
45-49 | 177,6889 | 4889998,53 | ||||
50-54 | 335,9889 | 8000567,69 | ||||
55-59 | 544,2889 | 5706324,83 | ||||
60-64 | 802,5889 | 11999506,64 | ||||
65-69 | 1110,8889 | 9965784,32 | ||||
70 и старше | 1469,1889 | 20351204,64 | ||||
Итого | 7166,3335 | 116960238,33 | ||||
По выполненным расчетам вычисли показатели вариации:
Дисперсия:
или .
Среднее квадратическое отклонение: , то есть в среднем возраст мужчин отклоняется от33,67 лет на 18,51 год.
Коэффициент вариации , так как больше 33%, следовательно, структура разнородная, средняя фиктивная, к ней надо относиться осторожно.
Если статистическая совокупность разбита на группы по какому-либо признаку и для этих групп могут быть найдены средний уровень и дисперсия, то при объединении частных групп в совокупность требуется оценить вариации показателей объединенной совокупности на основе показателей отдельных частных групп. Вариация признака в целом по совокупности, то есть общая дисперсия, характеризуется вариацией признака под влиянием всех факторов, действующих в данной совокупности. Межгрупповая дисперсия – обусловлена вариацией признака, положенного в основание группировки, внутригрупповая дисперсия обусловлена вариацией всех остальных признаков, неучтенных группировкой. Общую дисперсию можно представить в виде суммы двух дисперсий: межгрупповой и внутригрупповой.
Общая дисперсия: ;
Межгрупповая дисперсия: ;
Внутригрупповая дисперсия: ,
где xi - значения признака;
- среднее значение признака в каждой группе;
- общая средняя;
Ni - число единиц совокупности в i-ой группе.
N - объем выборки;
k - число значений признака;
m - число групп;
- дисперсия в i-ой группе.
Если межгрупповая дисперсия мала по сравнению с общей дисперсией, то группировочный признак оказывает слабое влияние на формирование уровней в совокупности и елико влияние всех остальных признаков, неучтенных группировкой.
Количественно меру влияния группировочного признака можно определить по показателю, который называется эмпирическое корреляционное отношение:
.
Эмпирическое корреляционное отношение изменяется от 0 до 1. Если связь отсутствует, то . В этом случае дисперсия групповых средних равна нулю , то есть межгрупповой вариации нет. Это означает, что группировочный признак не влияет на вариацию исследуемого признака. Если связь функциональная, то . В этом случае дисперсия групповых средних равна общей дисперсии , то есть не будет внутригрупповой вариации. Это означает, что группировочный признак полностью определяет вариацию изучаемого признака. Чем ближе значение корреляционного отношения приближается к единице, тем сильнее связь между признаками.
Таблица 3. Качественная оценка связи между признаками.
h | Связь | h | Связь | |
Отсутствует | 0,5-0,7 | Заметная | ||
0-0,2 | Очень слабая | 0,7-0,9 | Тесная | |
0,2-0,3 | Слабая | 0,9-0,99 | Весьма тесная | |
0,3-0,5 | Умеренная | Функциональная |
Пример. Рассчитать дисперсию и эмпирическое корреляционное отношение по следующим данным:
Место проживания пенсионеров | Средний размер месячных пенсий, тыс. руб. | Численность пенсионеров, тыс. чел. Ni | Дисперсия пенсионного пособия в области (группе) |
Курская область | 264,3 | 341,4 | |
Курганская область | 310,4 | 235,5 | |
Камчатская область | 490,4 | 38,9 | |
Итого | 296,2 | 615,8 | 6171,2 |
Сначала найдем средний размер месячных пенсий по трем областям в целом:
Вариация назначенных пенсионных пособий в отдельных областях, обусловленная различием в местах проживания пенсионеров, характеризуется межгрупповой дисперсией:
Средняя из групповых дисперсий дает обобщающую характеристику случайной вариации, обусловленную всеми остальными факторами, кроме места проживания пенсионеров (например, характером занятости, стажем работы и т. п.):
Вариация пенсионного пособия в изучаемых областях, обусловленная влиянием всех факторов, вместе взятых определяется общей дисперсией:
.
Сопоставляя межгрупповую дисперсию с общей, рассчитаем эмпирическое корреляционное отношение:
Полученное значение позволяет утверждать, что существует заметная связь между местом проживания пенсионеров и размером назначенного пособия (см. табл. 3).
Контрольные вопросы
- Дисперсия – смысл показателя и метод расчета.
- Среднее квадратическое отклонение. Правило трех сигм.
- Коэффициент вариации. Его интерпретация.
- Эмпирическое корреляционное отношение как мера влияния группировочного признака.