Расчет структурных характеристик ряда распределения

Форма этого распределения близка к нормальному закону распределения, которое образуется, если на варьирующую переменную влияет большое число факторов, ни один из которых не имеет преобладающего значения.

Таблица 12. Интервальный ряд распределения ВО по таможенным постам, млн.долл.

Таблица 11. Внешнеторговый оборот (ВО) по 35 таможенным постам, млн.долл.

№ поста ВО № поста ВО № поста ВО
24,16 54,12 65,31
27,06 54,91 69,24
29,12 55,74 71,39
31,17 55,91 77,12
37,08 56,07 79,12
39,11 56,80 84,34
41,58 56,93 86,89
44,84 57,07 91,74
46,80 58,39 96,01
48,37 59,61 106,84
51,44 59,95 111,16
52,56 62,05 Итого 2100,00

Определим средний размер ВО по формуле (10), приняв за X величину ВО, а за N – численность постов:

== 2100/35 = 60 (млн.долл.)

Дисперсию (о ней будет рассказано чуть позднее – на 4-м этапе анализа вариации в этой теме) определим по формуле (28):

=

=

445,778 (млн.долл.2)

Построим интервальный ряд распределения ВО по таможенным постам, для чего необходимо выбрать оптимальное число групп (интервалов признака) и установить длину (размах) интервала. Поскольку при анализе ряда распределения сравнивают частоты в разных интервалах, необходимо, чтобы длина интервалов была постоянной[13]. Оптимальное число групп выбирается так, чтобы достаточной мере отразилось разнообразие значений признака в совокупности и в то же время закономерность распределении, его форма не искажалась случайными колебаниями частот. Если групп будет слишком мало, не проявится закономерность вариации; если групп будет чрезмерно много, случайные скачки частот исказят форму распределения.

Чаще всего число групп в ряду распределения определяют по формуле Стерждесса (19) или (20):

(19)

или , (20)

где k – число групп (округляемое до ближайшего целого числа); N – численность совокупности.

Из формулы Стерджесса видно, что число групп – функция объема данных (N).

Зная число групп, рассчитывают длину (размах) интервала[14] по формуле (21):

, (21)

где Xмax и Xmin — максимальное и минимальное значения в совокупности.

В нашем примере про ВО по формуле Стерждесса (19) определим число групп:

k = 1 + 3,322lg35 = 1+ 3,322*1,544 = 6,129 ≈ 6.

Рассчитаем длину (размах) интервала по формуле (21):

h = (111,16 – 24,16)/6 = 87/6 = 14,5 (млн.долл.).

Теперь построим интервальный ряд с 6 группами с интервалом 14,5 млн.долл. (см. первые 3 столбца табл. 12).

i Группы постов по величине ВО Xi Число постов fi Середина интервала Хi Хifi Накопл. частота fi | Хi -| fi (Хi -)2 fi (Хi -)3 fi (Хi -)4 fi
24,16 – 38,66 31,41 157,05 147,071 4326,001 -127246,23 3742856,97
38,66 – 53,16 45,91 321,37 104,400 1557,051 -23222,31 346344,16
53,16 – 67,66 60,41 785,33 5,386 2,231 -0,92 0,38
67,66 – 82,16 74,91 299,64 56,343 793,629 11178,84 157461,90
82,16 – 96,66 89,41 357,64 114,343 3268,572 93434,47 2670891,13
96,66 – 111,16 103,91 207,82 86,171 3712,758 159966,81 6892284,32
  Итого   2128,85   513,714 13660,243 114110,66 13809838,86

Существенную помощь в анализе ряда распределения и его свойств оказывает графическое изображение. Интервальный ряд изображается столбиковой диаграммой, в которой основания столбиков, расположенные по оси абсцисс, – это интервалы значений варьирующего признака, а высоты столбиков – частоты, соответствующие масштабу по оси ординат.

Графическое изображение распределения таможенных постов в выборке по величине ВО приведено на рис. 4. Диаграмма такого типа называется гистограммой[15].

Рис. 4. Гистограмма распределения Рис. 5. Полигон распределения

Данные табл. 12 и рис. 4 показывают характерную для многих признаков форму распределения: чаще встречаются значения средних интервалов признака, реже – крайние (малые и большие) значения признака.

Если имеется дискретный ряд распределения или используются середины интервалов (как в нашем примере про ВО – в таблице 12 в 4-м столбце рассчитаны середины интервалов как полусумма значений начала и конца интервала), то графическое изображение такого ряда называется полигоном (см. рис. 5)[16], которое получается соединением прямыми точек с координатами Xi и fi.

 

При изучении вариации применяются такие характеристики ряда распределения, которые описывают количественно его структуру, строение. Такова, например,

медиана – величина варьирующего признака, делящая совокупность на две равные части – со значением признака меньше медианы и со значением признака больше медианы[17].

В нашем примере про ВО (табл. 11) медиана – это 18-й таможенный пост из 35 с величиной ВО 56,8 млн.долл.

Из этого примера видно принципиальное различие между медианой и средней величиной: медиана не зависит от значений на краях ранжированного ряда.

Даже если бы ВО 35-го таможенного поста был в 10 раз больше, величина медианы не изменилась бы. Поэтому медиану часто используют как более надежный показатель типичного значения признака, нежели средняя арифметическая, если ряд значений неоднороден, включает резкие отклонения от средней. В интервальном ряду распределения для нахождения медианы применяется формула:

 

(22)

где Ме – медиана;

X0 – нижняя граница интервала, в котором находится медиана;

h – величина (размах) интервала;

– накопленная частота в интервале, предшествующем медианному;

fMe – частота в медианном интервале.

В табл. 12 медианным является среднее из 35 значений, т.е. 18-е от начала значение ВО. Как видно из столбцы накопленных частот (6-й столбец), оно находится в третьем интервале. Тогда по формуле (22):

(млн.долл.).

 

Аналогично медиане вычисляются значения признака, делящие совокупность на 4 равные по численности части – квартили, которые обозначаются заглавной латинской буквой Q с подписным значком номера квартиля. Ясно, что Q2 совпадает с Ме. Для первого и третьего квартилей приводим формулы и расчет по данным табл. 12:

(млн.долл.)

 

(млн.долл.)

 

 

Так как Q2 = Ме = 59,30 млн.долл., видно, что различие между первым квартилем и медианой (–15,87) больше, чем между медианой и третьим квартилем (12,89). Этот факт свидетельствует о наличии некоторой несимметричности в средней области распределения, что заметно и на рис. 4.

Значения признака, делящие ряд на 5 равных частей, называются квинтилями, на 10 частей – децилями, на 100 частей – перцентилями. Эти характеристики применяются при необходимости подробного изучения структуры ряда распределения[18].

Безусловно, важное значение имеет такая величина признака, которая встречается в изучаемом ряду распределения чаще всего. Такую величину принято называть модой.