I. Краткие сведения из теории статистики

ППП статистической обработки данных

Результаты статистического наблюдения – это таблицы, а также ряды распределения по определенному признаку. Ряд характеризует

· состояние явления

· границы

· однородность

· законы развития

По признаку ряды делятся на:

· Атрибутивные

· Вариационные, которые по характеру вариации делятся на:

o Дискретные (прерывные)

o Интервальные (непрерывные)

Для отображения дискретных вариационных рядов используются полигоны. Х – значения признака, Y – частота его появления

Ломаная линия называется полигоном частот

Пример распределение числа квартир по числу комнат.

Число комнат Число квартир
Всего 100

Для отображения интервальных вариационных рядов используются гистограммы

Преобразовать гистограмму в полигон можно, соединив отрезками линий середины верхних сторон прямоугольников.

 

Площадь в кв.м на 1 человека Число семей Число семей нарастающим итогом
3-5
5-7
7-9
9-11
11-13
итого  

Кумулятивный ряд (кумулята) – это накопленные частоты или функция распределения. Кумулята:

 

 

Если используются неравные интервалы признака, то определяется плотность статистического распределения (сколько значений частоты в каждой интервальной группе приходится на единицу величины интервала) и высота прямоугольников показывается пропорционально плотности распределения

Пример распределения магазинов по товарообороту

 

Товарооборот, тыс. руб. Число магазинов Интервал, тыс. руб. Плотность распределения = (число магазинов) / интервал
До 50 0,5
50-120 0,64
120-250 0,5
250-450 0,4
450-980 0,04
итого    

Полигон – это плотность распределения

Вывод – чаще всего встречаются магазины с товарооборотом 250-450 тыс.руб. Это неверно.

Чаще всего встречаются магазины с товарооборотом 50-12- тыс.руб.

 

 

 

 

Общее представление о значениях переменной дают описательные статистики:

· Минимум

· Максимум

· Среднее (сумма значений переменной, поделенная на число значений)

выполняется равенство

· Дисперсия (изменяется от 0 до бесконечности. 0 означает что переменные постоянны, изменений нет)

· Стандартное отклонение (Это корень квадратный из дисперсии. Чем выше дисперсия и стандартное отклонение, тем сильнее разбросаны значения переменной относительно среднего)

· и др.

 

Два вида случайных величин:

· Независимая – Х (фактор)

· Зависимая – Y (результативный признак)

Для определения аналитического выражения связи между независимой и зависимой случайными величинами используется регрессионный анализ. Форма связи – это уравнение регрессии.

Виды регрессии:

· Парная – исследуются 2 величины фактор и результативный признак), например y=a+bx для линейной регрессии

· Множественная – исследуются несколько факторов и результативный признак, например y=a0+a1x1+a2x2+…+anxn для линейной регрессии

Для составления прогнозов может быть использовано уравнение регрессии, в котором определяются коэффициенты, называемые параметрами регрессии. Построенная линия уравнения регрессии называется линией тренда, которая показывает тенденцию изменения данных. Для создания линии тренда используются следующие виды аппроксимации:

· Линейная - ŷ=ax+b, a – тангенс угла наклона, b – точка пересечения с осью ординат

· Логарифмическая – ŷ =c lnx+b, где c, b - константы

· Полиномиальная – ŷ =c6x6+…+c1x+b, где c6,…c1, b -

· Степенная – ŷ =cxb, где c, b - константы

· Экспоненциальная - ŷ =cebx, где c, b - константы

Достоверность аппроксимации определяется коэффициентом корреляции, характеризующим связь между двумя множествами в уравнении линейной регрессии. Если R2 лежит в диапазоне от 0,9 до 1, то можно применить линейное уравнение регрессии. Если R2 близко к –1, то между наблюдаемыми зависимостями обратная зависимость. При других видах аппроксимации используется индекс корреляции (R2 теряет смысл)

При R2 <=0,3 – слабая линейная связь,

R2 =0,3 –0,5 – умеренная линейная связь,

R2 =0,5 –0,7 – средняя или заметная линейная связь,

R2 >=0,7 – сильная или высокая линейная связь,

R2 >=0,9 – очень сильная или весьма высокая линейная связь,

R2=1 – полная функциональная зависимость, все точки на прямой

Для определения степени влияния факторов на результативный признак используется дисперсия следующих видов:

· Общая дисперсия – показывает степень влияния основных и остаточных факторов, где yi – значение результативного признака, n –число наблюдений (значений результативного признака)

 

· Факторная дисперсия - показывает степень влияния основных факторов

 

· Остаточная дисперсия - показывает степень влияния остаточных факторов. m – число факторов (остаток – это разница между реальными значениями и теоретическими прогнозируемыми)

 

Если существует корреляционная связь, то выполняется соотношение:

При анализе множественной регрессией используется множественный коэффициент детерминации R2, называемый также квадратом коэффициента множественной корреляции R и определяет долю вариации результативного признака, обусловленную изменением факторов.

При R2>0,7 (критерий Фишера) считается, что вариация обусловлена влиянием факторов.

Также используется для оценки результата аппроксимации средняя ошибка аппроксимации:

 

 

Если некоторые параметры регрессии малы по сравнению со стандартной ошибкой, то их можно исключить из анализа.

Для определения значимости результата используется p-уровень, характеризующий вероятность ошибки. Обычно принимается p-уровень <= 0,05, т.е. ошибка должна быть не более 5%.

 

Статистические методы обработки данных используются во многих ППП, например, Excel, QuattroPro, Lotus 1-2-3, MathCAD. Большими возможностями обладают специализированные ППП статистической обработки данных, предназначенные для специалистов со специальной подготовкой в области теории статистики. К ним относятся:

· ППП SPSS – разработчик SPSS inc.

· ППП STATISTICA используется в экономической статистике, финансах, научных исследованиях, производстве (разработчик StatSost)