Методологія обробки статистичних даних

Завдання № 1

Визначення необхідного числа спостережень

Постановка завдання

1. Запропонуйте й опишіть приклад досліджень шляхом проведення експериментів, спостережень або вимірювань з метою встановлення середньоарифметичного значення будь-якого техніко-економічного показника діяльності організації (підприємства, виробничого підрозділу, механізму тощо).

2. Викладіть методику встановлення необхідного обсягу статистичної вибірки (кількості спостережень).

3. Обґрунтуйте вихідні дані, потрібні для встановлення обсягу вибірки.

4. Встановіть необхідну кількість спостережень техніко-економічного показника, що досліджується.

5. Сформулюйте висновок стосовно отриманого обсягу статистичної вибірки.

Виконання завдання:

1. Досліджується попит одягу в мережі супермаркетів. Для цього встановлюється необхідний обсяг статистичної вибірки.

2. Методика вирішення:

1) Розраховується ймовірність появи випадкового відхилення за відношенням:

3. ε =,

де ∆x – припустима величина випадкового відхилення вибірки;

S – середньоквадратичне відхилення вибірки.

2) Приймається коефіцієнт надійності експерименту (α), виходячи з умов задачі та призначення експериментальних даних. Як-правило, для задач економічного характеру α приймається рівним 0,9.

3) За табл.1 знаходиться, згідно зі значеннями ε та α, число мінімально необхідних спостережень досліджуваної ознаки.

4) Формулюється висновок стосовно отриманого обсягу статистичної вибірки.

3. Приймаємо середньоквадратичне відхилення даних вибірки, таким, що дорівнює 7,5%. Випадкове відхилення представлених значень, згідно з метою дослідження, дорівнює 1,5%. Коефіцієнт надійності експерименту (α) прийнято рівним 0,9. Коефіцієнт вірогідності появи випадкового відхилення Е = 1,5/7,5= 0,2.

4. Визначаємо необхідну кількість спостережень за витратами на маркетингові дослідження згідно з наступними даними: E = 0,2, α = 0,95. За табл.1 число необхідних спостережень дорівнює 70.

5. Висновок: Таким чином, вибіркова сукупність повинна мати не менше 70 спостережень. Цей обсяг даних дозволить розрахувати таку середньоквадратичну величину, відносно якої в інтервалі припустимого випадкового відхилення ± 1,5 % будь-який результат спостереження буде потрапляти з вірогідністю α = 0,95.

статистичний вибірка детермінація кореляція

Таблиця 1

Необхідне число вимірів для отримання випадкової похибки ε з надійністю α

ε =	α
ε =	0,5	0,7	0,9	0,95	0,99	0,999
1,0	2	3	5	7	11	17
0,5	3	6	13	18	31	50
0,4	4	8	19	27	46	74
0,3	6	13	32	46	78	127
0,2	13	29	70	99	171	277
0,1	47	169	273	387	668	1089
0,05	183	431	1084	1540	2659	4338
0,02	4543	10732	27161	38416	66358	108307

Завдання № 2

Перевірка на нормальність розподілу вибіркової сукупності

1. Запропонуйте й опишіть приклад досліджень шляхом проведення експериментів, спостережень або вимірювань.

2. Складіть статистичну вибірку для перевірки на нормальність розподілу будь-якого техніко-економічного показника діяльності організації (підприємства, виробничого підрозділу, механізму тощо). Обсяг статистичної вибірки – не менш 40 спостережень (вимірювань).

3. Викладіть методику перевірки статистичної вибірки на розподіл за нормальним законом.

4. Здійсніть перевірку складеної вибірки за поз. 2 на нормальність розподілу.

5. Сформулюйте висновок стосовно одержаного результату перевірки.

Виконання завдання:

Досліджується попит одягу в мережі супермаркетів, що має достатній обсяг спостережень, але розподіл випадкової величини є невідомим. Необхідно перевірити вибірку на нормальність розподілу.

2. Впорядкуємо розміщення даних у зростаючому порядку за допомогою програми Майстер функцій (п. 2).

3. Методика складається з наступних етапів:

а) вибірку розбивають на рівні інтервали, величина яких визначається за виразом:

h =, (2.1)

де Х– максимальне значення вибірки;

Х– мінімальне значення вибірки;

n – число спостережень.

Нижньою границею початкового інтервалу буде мінімальне значення вибірки, верхньою – мінімальне, збільшене на величину (крок) інтервалу. Останнє, в свою чергу, буде нижньою границею наступного інтервалу, а верхня – визначатиметься кроком інтервалу. Останній інтервал має вміщувати максимальне значення вибіркової сукупності даних.

б) за кожним інтервалом знаходять його середнє значення як суму верхньої та нижньої границь відповідного інтервалу, поділену навпіл. Виділивши поле, що дорівнює числу інтервалів, та скориставшись командою Вставка / Функция / Статистические / Частота вбудованих функцій Еxcel знаходять частоту появи значень кожного інтервалу m, зазначивши у діалоговому вікні ‚‚ Аргументы функции ’’ у полі ‚‚Массив данных’’ массив даних вибірки, а у полі ‚‚Массив интервалов’’ – верхні границі інтервалів сукупності даних. Для виконання команди одночасно натискають клавіши + + .

в) розраховують середнє значення всієї сукупності даних x та її середньоквадратичне відхилення δ за допомогою команд, відповідно, Вставка / Функция / Статистические / СРЗНАЧ та Вставка / Функція / Статистические / СТАНДОТКЛП, де у полі діалогових вікон програми зазначають весь діапазон даних вибірки;

г) для кожного інтервалу значень визначають теоретичну (вирівнюючу) частоту за виразом:

m =, (2.2)

де φ(t) – табличне значення функції φ(x)= вірогідності появи теоретичного значення вибірки (середнього значення і - го інтервалу).

Параметр t як кількісне вираження вірогідності появи середнього значен-ня xвиділеного і - го інтервалу визначають за формулою:

t = . (2.3)

д) встановлюють відносні емпіричні частості за виразом:

m′ =, (2.4)

де m′– емпірична частота і - го інтервалу;

n – число спостережень;

е) визначимо відносні теоретичні частості за виразом:

m′=, (2.5)

де m– теоретична частота і - го інтервалу;

– сума теоретичних частот;

ж) розраховують накопичені емпіричні F(m′) та теоретичні F(m′) частості як суму відповідної відносної частості і -го інтервалу та відносних частостей попередніх інтервалів;

з) визначають різницю між накопиченими емпіричними та теоретичними частостями за кожним інтервалом та встановлюють серед них максимальне відхилення D;

і) встановлюють фактичний критерій відхилення емпіричного розподілу від теоретичного за наступної формулою:

λ= D∙. (2.6)

к) визначають граничне значення відхилення λ емпіричної функції від теоретичної за накопиченими частостями згідно з критерієм Колмогорова за табл. 2.1, виходячи з рівня значущості результатів розрахунків k.

Таблиця 2.1

Граничний критерій відхилення емпіричного розподілу від теоретичного

k	10	5	2	1	0,5	0,1
λ	1,224	1,358	1,517	1,627	1,731	1,950

л) порівнюють значення λ з λ. Якщо λ ≤ λ, то роблять висновок, що емпіричний розподіл даних не суперечить нормальному розподілу.

4. Здійснюється перевірка вибірки на нормальність розподілу:

а) розіб’ємо вибірку на інтервали, визначивши їх крок за формулою (2.1):

h = 15,3. Результат розрахунків представимо у табл. 2.3, гр. 1 та на рис. 2.1.

Таблиця 2.2

Вихідні дані перевірки на нормальність розподілу

День дослідження	Попит одягу	День дослідження	Попит одягу	День дослідження	Попит одягу	День дослідження	Попит одягу
1	306	11	336	21	357	31	377
2	308	12	338	22	358	32	381
3	311	13	339	23	360	33	381
4	313	14	343	24	361	34	382
5	317	15	344	25	362	35	392
6	320	16	344	26	366	36	392
7	323	17	346	27	372	37	396
8	325	18	354	28	374	38	399
9	326	19	355	29	374	39	399
10	326	20	355	30	375	40	400

б) знаходимо середню частку маркетингових досліджень xта частоту появи значень кожного інтервалу mзгідно з викладеною вище методикою. Результати розрахунків представимо у табл. 2.3, гр. 2 та 3.

Таблиця 2.3

Розрахунок накопичених частостей

Інтервал

Середнє

значення,x

Частота

Відносна

частість

Відносна

накопичена

частість

Різниця

m′

F(m′)

(гр.7- гр.8)

306-321,3

321,4-336,7

336,8-352,1

352,2-367,5

367,6-382,9

383-400

313,7

329,1

344,5

359,9

375,3

392

7,15

4,46

5,64

8,13

9,12

5,08

0,150

0,125

0,150

0,225

0,200

0,150

0,18

0,11

0,14

0,21

0,23

0,13

0,150

0,275

0,425

0,650

0,850

1,000

0,18

0,29

0,44

0,64

0,87

1,00

-0,03

-0,02

-0,01

0,01

-0,02

0,00

39,58

в) знаходимо середнє значення вибіркової сукупності та середньо-квадратичне відхилення вибірки δ за допомогою програми Майстер функцій:

=354,7, δ= 28;

г) для кожного інтервалу часток маркетингових досліджень встановлюємо теоретичні частоти за формулою (2.2), (табл. 2.3, гр. 4) з попередньо визначеним параметром tзгідно з формулою (2.3);

д) визначимо відносні емпіричні частості m′ за формулою (2.4) ( табл. 2.3, гр. 5):

е) визначимо відносні теоретичні частості m′ за формулою 2.5 ( табл. 2.3, гр. 6);

ж) розрахуємо, відповідно, накопичені відносні емпіричні F(m′) та теоретичні частості F(m′) (табл. 2.3, гр. 7 - 8) згідно з пунктом ж методики;

з) визначимо різницю накопичених емпіричних та теоретичних частостей часток маркетингових досліджень за кожним інтервалом та встановимо їх максимальне відхилення D(табл. 2.3, гр. 9): D= 0,03;

і) встановимо фактичний критерій відхилення емпіричного розподілу від теоретичного за Колмогоровим згідно з формулою (2.6): λ=0,19;

к) за табл. 2.1 визначаємо граничний критерій Колмогорова відповідності емпіричних даних нормальному розподілу. За рівнем значущості 5%, що відповідає умові задачі, λ = 1,358;

л) порівнюємо розрахункове та табличне значення критерію Колмогорова: λ= 0,19 < λ= 1,358.

5. Висновок: оскільки розрахункове значення критерію відповідності емпіричного розподілу 0,19 менше теоретичного критерію Колмогоро