Корреляционная связь и ее статистическое изучение

ЛЕКЦИЯ № 7

Логический анализ сущности изучаемого явления и причинно- следственных связей. Сбор первичной информации и проверка ее на однородность и нормальность распределения. Исключение из массива первичной информации всех резко выделяющихся (аномальных) единиц по уровню признаков-факторов. Установление факта наличия и направления корреляционной зависимости между результативным (у) и факторным (х) признаками. Построение модели связи (уравнения регрессии). Статистический анализ модели и оценка её качества. Построение доверительных интервалов прогноза. Множественная корреляционная зависимость. Решение проблемы мультиколлинеарности. Совокупный коэффициент корреляции и частные коэффициенты корреляции. Частный коэффициент эластичности, и коэффициенты.

Корреляционная связь — связь, проявляющаяся не в каждом отдельном случае, а в массе случаев в средних величинах в форме тенденции.

Статистическое исследование корреляционной связи ставит своей конечной целью получение модели зависимости для ее практического использования. Решение этой задачи осуществляется в следующей последовательности.

1. Логический анализ сущности изучаемого явления и причинно- следственных связей. В результате устанавливаются результативный показатель (y) и факторы его изменения, характеризуемые показателями (). Связь двух признаков (у и х) называется парной корреляцией. Влияние нескольких факторов на результативный признак называется множественной корреляцией.

По общему направлению связи могут быть прямые и обратные. При прямых связях с увеличением признака х увеличивается и признаку, при обратных — с увеличением признака х признак у уменьшается.

2.Сбор первичной информации и проверка ее на однородность и нормальность распределения. Важнейшими условиями правильного применения методов корреляционного анализа являются: достаточное число наблюдений, однородность тех единиц, которые подвергаются изучению, распределение исследуемых признаков факторов в соответствии с законом нормального распределения.

Для оценки однородности совокупности используется коэффициент вариации по факторным признакам:

, (7.1)

где — среднее значение признака-фактора;

— среднее квадратическое отклонение признака-фактора.

Для рассматриваемой задачи (см. табл. 5.2, л.5) следовательно, совокупность считается является однородной, т.к. коэффициент её вариации не превышает 33%.

Проверка нормальности распределения исследуемых факторных признаков может выполняться двумя способами:

1) построить теоретическую кривую нормального распределения и проверить близость теоретического и эмпирического распределений с помощью критерия согласия;

2) использовать систему неравенств:

, (7.2)

где - относительные показатели асимметрии и эксцесса соответственно (см. л. 5), если каждое неравенство системы (7.2) выполняется, то эмпирическое распределение не противоречит нормальному.

3.Исключение из массива первичной информации всех резко выделяющихся (аномальных) единиц по уровню признаков-факторов.

Если исходные данные являются эмпирическими, то их необходимо проверить на наличие аномальных наблюдений (резко выделяющихся единиц совокупности):

(7.3)

или

(7.4)

Если условия (7.3) или (7.4) не выполняются, то соответствующие единицы совокупности исключаются из дальнейшего рассмотрения, а затем формируется новый массив для последующего анализа.

4.Установление факта наличия и направления корреляционной зависимости между результативным (у) и факторным (х) признаками. Для установления наличия корреляционной связи используется ряд специфических методов: параллельное сопоставление рядов результативного и факторного признака, графическое изображение фактических данных с помощью поля корреляции, построение корреляционной таблицы, построение групповой таблицы.

Сопоставление двух параллельных рядов — простейший метод обнаружения связи. Значения факторного признака располагают в возрастающем порядке в первом ряду; во втором ряду записывают соответствующие значения результативного признака (т.е. значения, относящиеся к той же единице); затем прослеживается направление изменения результативного признака (см. табл.5.2, л.5)

Корреляционное поле — точечный график, для построения которого по масштабной оси абсцисс откладываются значения факторного признака х, а по масштабной оси ординат — значения результативного признака у. Каждой единице изучаемой совокупности на графике соответствует одна точка, положение которой определяется величиной двух признаков, характеризующих эту единицу. По расположению точек судят о наличии связи или ее отсутствии. Если точки разбросаны по всему полю — связи нет.

На рис.7.1 приведено корреляционное поле, построенное по данным табл.5.2, которое свидетельствует о наличии прямой связи близкойк линейной.

 

 

Рис.7.1 Таможенные платежи в бюджет в функции ВТО фирм

 

В тех случаях, когда количество единиц, входящих в изучаемую совокупность, относительно велико, возникает необходимость сведения данных в особую таблицу, которая называется корреляционной таблицей. Для построения корреляционной таблицы проводится группировка значений факторного и результативного признака при одинаковом числе групп. В таблице факторный признакxрасполагают в строках, а результативный признаку — в столбцах (графах) таблицы. В клетки, образованные пересечением строк и столбцов таблицы, записываются частоты повторения данного сочетания значений х и у. Если частоты расположены в клетках по диагонали из левого верхнего угла в правый нижний угол, то можно предполагать о наличии прямой корреляционной зависимости между признаками. Если частоты расположены в клетках по диагонали справа налево (из правого верхнего угла в левый нижний угол), то предполагают наличие обратной связи.

Основным методом выявления наличия корреляционной связи является метод аналитической группировки и определения групповых средних. Он заключается в том, что все единицы совокупности разбиваются на группы по величине признака-фактора и для каждой группы определяется средняя величина результативного признака (см. графы 2 и 12 табл. 5.2). На основе данных аналитической группировки строится график эмпирической линии связи (линии регрессии), вид которой не только позволяет судить о возможном наличии связи, но и дает некоторое представление о форме корреляционной связи. Если эмпирическая линия связи по своему виду приближается к прямой линии, то можно предположить наличие прямолинейной корреляционной связи; если эмпирическая линия приближается к какой-либо кривой, то это связано с наличием криволинейной связи.

 

Рис.7.2 Зависимость величины средних таможенных платежей от средних значений ВТО в группах фирм

 

5.После установления факта наличия связи и ее формы измеряется степень тесноты связи и проводится оценка ее существенности.Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции (); при любой форме зависимости (линейной и криволинейной) - эмпирическое корреляционное отношение ()).

Для расчета линейного коэффициента корреляции можно использовать формулу:

, (7.5)

где — среднее значение произведения факторного и результативного признаков;

- средние значения факторного и результативного признаков;

n— число единиц в совокупности;

— средние квадратические отклонения соответственно признака - фактора и результативного признака.

Линейный коэффициент корреляции может принимать значения в пределах от —1 до +1. Чем ближе он по абсолютной величине к 1, тем теснее связь. Знак при нем указывает направление связи: знак «+» соответствует прямой зависимости, знак «—» — обратной.

Если коэффициент корреляции равен нулю, то связи между признаками нет; если он равен единице (с любым знаком), то между признаками существует функциональная связь.

Оценка существенности линейного коэффициента корреляции при большом объеме выборки (свыше 500) проводится с использованием отношения коэффициента корреляции () к его средней квадратической ошибке ():

, (7.6)

где . (7.7)

Если это отношение окажется больше значения t-критерия Стьюдента, определяемого по Приложению 6 при числе степеней свободы к = п — 2 и с вероятностью (1 — ), то следует говорить о существенности коэффициента корреляции (— уровень значимости 0,01 или 0,05).

При недостаточно большом объеме выборки величину средней квадратической ошибки коэффициента корреляции определяют по формуле

. (7.8)

В этом случае . (7.9)

Полученная величина сравнивается с табличным значением t-критерия Стьюдента ().

В тех случаях, когда получен по данным малой выборки и близок к единице (> 0,8), для проверки его существенности целесообразно использовать метод преобразованной корреляции, предложенный Р. Фишером.

Средняя квадратическая ошибка Z'-распределения зависит только от объема выборки и определяется по формуле:

. (7.10)

По таблице соотношений междуи Z' (приложение 9) находят значение Z', соответствующее рассчитанному коэффициенту корреляции.

Если соотношение Z' к средней квадратической ошибке (Z': ) окажется больше табличного значения критерия Стьюдента при определенном уровне значимости, то можно говорить о наличии связи между признаками в генеральной совокупности.

Корреляционное отношение

В л.5 приведено правило сложения дисперсий. Величина общей дисперсии равна сумме межгрупповой дисперсии и средней из внутригрупповых дисперсий:

(7.11)

Разделив левую и правую части выражения (7,11) на общую дисперсию получим следующее равенство:

доли средней из внутригрупповых и межгрупповой дисперсий в сумме равны единице.

Второе слагаемое именуется эмпирическим коэффициентом детерминации (причинности) и обозначается

(7.12)

Квадратный корень из коэффициента детерминации принято называть корреляционным отношением:

(7.13)

Вычисление корреляционного отношения требует достаточно большого объема информации, которая должна быть представлена в форме групповой таблицы или в форме корреляционной таблицы, т. е. обязательным условием является группировка данных по признаку-фактору. Изменяется корреляционное отношение от 0 до 1.

При недостаточном количестве данных в выделенных группах к рассчитанной величине корреляционного отношения вносится поправка:

, (7.14) где m — число выделенных групп.

 

Для оценки значимости корреляционного отношения можно применить однофакторный дисперсионный анализ. Его логика рассуждений сводится к следующему:

Пусть - математическое ожидание результативного признака, соответственно в группах . Если при изменении уровня фактора групповые математические ожидания не изменяются, то результативный признак не зависит от фактора А - в противном случае такая зависимость имеется.

В связи с тем, что числовые значения математических ожиданий неизвестны, то возникает задача проверки гипотезы

Проверить данную гипотезу можно при соблюдении следующих требований при каждом значении уровня фактора:

1. наблюдения независимы и проводятся в одинаковых условиях;

2. результативный признак имеет нормальный закон распределения с постоянной для различных уровней генеральной дисперсией.

Для ответа на второй вопрос вычислим значения относительных показателей асимметрии и эксцесса для зависимой переменной. Учитывая, что каждый из них меньше 1,5 эмпирическое распределение таможенных платежей в бюджет не противоречит нормальному.

Проверим выполнение гипотезы:

(7.14)

с помощью критерия Бартлетта:

где остаточная дисперсия, что является синонимом средней из внутригрупповых выборочных дисперсий;

выборочная дисперсия в ой группе (графа 14 табл. 5.2); ;

;

.

При выполнении гипотезы о равенстве дисперсий, величина w имеет распределение близкое к сстепенями свободы.

При соблюдении условия

гипотеза (7.14) подтверждается.

Здесь - правосторонняя критическая точка при заданном уровне значимости , определяющая критический интервал ().

Проверка гипотезы о равенстве математических ожиданий основывается на сравнении оценок факторной и остаточнойдисперсий. В математической статистике доказывается, что если гипотеза о равенстве математических ожиданий подтверждается, то величина

имеет F – распределения с числом свободы и , т.е.

, где ;

При использовании F – критерия строится правосторонняя область (), т.к. обычно . Если расчетное значение F – критерия попадает в указанный интервал, то гипотеза о равенстве групповых математических ожиданий отвергается, т.е. считаем, что фактор А влияет на результативный признак Y и можно измерить степень этого влияния с помощью корреляционного отношения.

В практике могут быть использованы и другие показатели для определения степени тесноты связи.

Элементарной характеристикой степени тесноты связи является коэффициент Фехнера:

, (7.15)

где — количество совпадений знаков отклонений индивидуальных величин факторного признака х и результативного признака у от их средней арифметической величины (например, «плюс» и «плюс», «минус» и «минус», «отсутствие отклонения» и «отсутствие отклонения»);

— количество несовпадений знаков отклонений индивидуальных значений изучаемых признаков от значения их средней арифметической.

Коэффициент Фехнера целесообразно использовать для установления факта наличия связи при небольшом объеме исходной информации. Он изменяется в пределах — 1,0 <Кф< + 1,0.

Для определения тесноты связи как между количественными, так и между качественными признаками, при условии, что значения этих признаков могут быть проранжированы по степени убывания или возрастания, используется коэффициент корреляции рангов Спирмена или коэффициент корреляции рангов Кендэла.

Коэффициент корреляции рангов Спирмена определяется по формуле

, (7.16)

где — разность между величинами рангов признака-фактора и результативного признака;

п — число показателей (рангов) изучаемого ряда (соответствует числу данных).

Он варьирует в пределах от -1,0 до +1,0.

Ранговый коэффициент обычно исчисляется на основе небольшого объема исходной информации, поэтому необходимо выполнить проверку его существенности. В приложении 7 приводится таблица предельных значений коэффициента корреляции рангов Спирмена при условии верности нулевой гипотезы об отсутствии корреляционной связи при заданном уровне значимости и определенном объеме выборочных данных.

Если полученное значение превышает критическую величину при данном уровне значимости, то нулевая гипотеза может быть отвергнута, т. е. величина не является результатом случайных совпадений рангов.

Коэффициент корреляции рангов Кендэла определяется по формуле

, (7.17)

где ;

Р — сумма чисел, вычисленных для каждого ранга признака y как число последующих рангов, больших по своей величине, чем взятый ранг;

Q — сумма чисел, вычисленных для каждого ранга признака у как число последующих рангов, меньших по своей величине, чем взятый ранг (эти числа берутся со знаком минус).

Этот коэффициент изменяется в интервале от —1,0 до +1,0.

Для вычисления сначала ранжируют ряд значений признака х, располагая их в порядке возрастания, приведя его к ряду натуральных чисел. Затем рассматривают последовательность рангов переменной у; против ранга х записывают соответствующий ему ранг у. Результаты оформляют в табличной форме. Ниже приведен ее пример.

Ранг признака фактора (x)
Ранг результативного признака (y)

На основе приведенных данных рассчитывают коэффициент корреляции рангов.

P = 0 + 0+1+0 + 0 + 0 +1 (число рангов, превышающих ранг 7, равно 0, ранг 6 - равно 0, ранг 4 - 1 и т.д.).

Q = (-6) + (-5) + (-3) + (-3) + (-2) + (-1) = -20

S = Р+ Q=1 + (-20) = -19;

. (7.18)

Полученный коэффициент означает высокую степень обратной связи.

Рассмотрим пример. По 10 хозяйствам имеются данные об урожайности картофеля (у), ц/га, и количестве внесённых минеральных удобрений (х), кг/га:удобрений (х), кг/га:

В данном примере отдельные значенияхиу повторяются. При ранжировании повторяющихся значений им присваивается ранг, рассчитанный как средняя арифметическая из суммы мест, которые они занимают по возрастанию.

Для случая повторяющихся рангов есть особые скорректированные формулы и для коэффициента Спирмэна, и для коэффициента Кендэла. Однако на практике часто пользуются приведенной выше формулой Спирмэна и для случая повторяющихся рангов, поскольку ошибку она дает весьма малую.

В рассматриваемом примере

Формула коэффициента Кендэла для повторяющихся рангов имеет вид:

где показатели, корректирующие максимальную сумму баллов и определяемые по формулегде число повторяющихся рангов в соответствующем ряду xи y.

В случае одинакового (повторяющегося) значения ранга, следующего за рассматриваемыми в любом из рядов (хиу), последний при подсчете баллов не учитывается ни со знаком «+», ни со знаком «—».

Расчет Р и Q показан в графах 7 и 8 таблицы; по результатам подсчетов

Отсюда коэффициент корреляции рангов Кендэла

 

Если наблюдаемые единицы совокупности (при расчете коэффициента Кендэла)записаны неупорядоченно по одному из признаков, то после ранжирования значений х и уранги одного из признаков, например ,следует переписать, расположив их строго в порядке возрастания (или убывания), а для второго признака сохранить значения рангов, соответствующие значениям каждого х в исходных данных. И только после этого приступать к подсчету для каждой пары ичисла «правильных» (со знаком «+») и «неправильных» (со знаком «—») следований рангов более высокого порядка совместно для х и у.

Для исследования степени тесноты связи между качественными признаками, каждый из которых представлен в виде альтернативных признаков, может быть использован коэффициент ассоциации Д. Юла или коэффициент контингенции К. Пирсона.

Расчетная таблица в этом случае состоит из четырех ячеек (таблица «четырех полей»), статистическое сказуемое которой схематически может быть представлено в следующем виде (табл. 7.2):

Таблица 7.2

Признак А (да) (нет) Итого
В (да) a b a+b
(нет) c d c+d
Итого a+c b+d n

 

 

В расчетной таблице:

а, b,c,d — частоты взаимного сочетания (комбинации) двух альтернативных признаков — А — и В — ;

п — общая сумма частот.

Коэффициент ассоциации исчисляется по формуле

. (7.19)

Коэффициент контингенции:

, (7.20)

где a, b,c,d— числа в четырехклеточной таблице.

Коэффициент контингенции также изменяется от —1 до +1, но всегда его величина для тех же данных меньше коэффициента ассоциации.

Для оценки тесноты связи между альтернативными признаками, принимающими любое число вариантов значений, применяется коэффициент взаимной сопряженности К. Пирсона и коэффицент взаимной сопряженности А. А. Чупрова.

Первичная статистическая информация для исследования этой связи располагается в форме таблицы (табл. 7.3).

Таблица 7.3

Признак A B C Итого
D
E
F
Итого n

 

Здесь - частоты взаимного сочетания двух атрибутивных признаков;

п — число пар наблюдений.

Коэффициент взаимной сопряженности К. Пирсона определяется по формуле

, (7.21)

где — показатель средней квадратической сопряженности.

Показатель определяется как сумма отношений квадратов частот каждой клетки таблицы к произведению итоговых частот соответствующего столбца и строки, уменьшенная на единицу:

, (7.22)

где — частоты каждой клетки;

— номер строки;

— итоговые частоты по строкам;

— итоговые частоты по графам.

Коэффициент взаимной сопряженности А. А. Чупрова исчисляется по формуле

, (7.23)

где - имеет одинаковое значение с показателем Пирсона и является показателем взаимной сопряженности;

— число групп по столбцам таблицы;

— число групп по строкам таблицы.

Коэффициент взаимной сопряженности Чупрова (К) является более гибким, поскольку он учитывает число образуемых по каждому признаку групп () и ), поэтому результат является более точным по сравнению с коэффициентом взаимной сопряженности по формуле Пирсона.

Коэффициент взаимной сопряженности изменяется от 0 до 1.

 

6. После установления достаточной степени тесноты связи выполняется построение модели связи (уравнения регрессии).

 

Тип модели выбирается на основе сочетания теоретического анализа и исследования эмпирических данных посредством построения эмпирической линии регрессии. Чаще всего используются следующие типы функций:

• линейная — ;

• гиперболическая — ;

• параболическая —;

• показательная — .

Для проверки возможности использования линейной функции определяется разность (); если она менее 0,1, то считается возможным применение линейной функции. В рассматриваемом примере(0,898-0,887)=0,012<0,1. Значениеопределено по сгруппированным данным.

Для решения этой же задачи можно использовать величину , определяемую по формуле

, (7.24)

где m — число групп, на которое разделен диапазон значений факторного признака.

Если окажется меньше табличного значения F- критерия, то нулевая гипотеза о возможности использования в качестве уравнения регрессии линейной функции не опровергается. Значение F -критерия определяется по таблице в зависимости от уровня значимости = 0,05 (вероятностьР = 0,95) и числа степеней свободы знаменателя () и числителя () (см. приложение 5).

 

Построение уравнения парной регрессии

Уравнение адекватно реальному моделируемому явлению или процессу в случае соблюдения следующих требований по его построению:

- cовокупность исходных данных должна быть однородной и математически описываться непрерывными функциями;

- наличие достаточно большого объема исследуемой выбороч­ной совокупности;

- возможность описания моделируемого явления одним или несколькими уравнениями причинно-следственных связей;

- причинно-следственные связи между явлениями и процесса­ми, по возможности, следует описывать линейной (или при­водимой к линейной) формой зависимости;

- отсутствие количественных ограничений на параметры модели

- количественное выражение факторных признаков;

- постоянство территориальной и временной структуры изуча­емой совокупности.

Теоретическая обоснованность моделей взаимосвязи явлений обеспечивается соблюдением определенных условий:

- все признаки и их совместные распределения должны подчиняться нормальному закону распределения;

- дисперсия моделируемого признака должна всё время оставаться постоянной при изменении значений факторного признака;

- отдельные наблюдения должны быть независимы, т.е. результаты полученные в i наблюдении , не должны быть связаны с предыдущими и содержать информацию о последующих наблюдениях, а также влиять на них.

При линейной связи параметры (и ) уравнения парной регрессии:

(7.25)

находятся с помощью метода наименьших квадратов. Суть метода заключается в минимизации суммы квадратов отклонений теоритических значений результативного признака () от его фактических значений ():

(7.26)

Условие (7.26) выполняется при равенстве нулю частных производных по параметрам и :

(7.27)

Сократим каждое уравнение системы (7.27) на (-2), раскроем скобки и получим следующую систему нормальных уравнений:

(7.28)

Поделим каждое уравнение системы (7.28) на объём статистической совокупности (n), тогда упомянутую систему можно представить в более наглядном виде:

(7.29)

Из первого уравнения системы (7,29) следует, что:

(7.30) Подставив полученное выражение во второе уравнение, получим:

. (7.31) Коэффициент корреляции определяется по формуле:

(7.32) Учитывая (7,31) и (7,32) получим

(7.33)

или . (7.34) Зная значения r, и можно вычислить по выражениям (7.34) и (7.31) параметры и линейного уравнения регрессии.

Параметр , нельзя использовать для непосредственной оценки влияния факторного признака на результативный при­знак из-за различия единиц измерения исследуемых показате­лей. Для этих целей вычисляют значение среднего коэффициента эластичности и бета-коэффициент:

(7.35)

Коэффициент эластичности показывает, на сколь­ко процентов изменяется результативный признак у при изменении факторного признака x на один процент.

Бета-коэффициент показывает, на какую часть своего среднего квадратического отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину своего среднего квадратического оотклонения.

 

Статистический анализ модели

Оценка параметров парной регрессии выполняется исходя из следующих предпосылок. Допустим, что в генеральной совокупности связь между x и y линейна. Наличие случайных отклонений, вызванных воздействием на переменную y множества других, неучтенных в уравнении факторов и ошибок измерения, приведет к тому, что связь наблюдаемых величин и приобретает вид:

Здесь - случайные ошибки (отклонения, возмущения). Если были бы известны точные значения отклонений , то можно было бы рассчитать значения параметров и . Так как они неизвестны, то по наблюдениям и можно получить только оценки параметров и , которые сами являются случайными величинами в связи с тем, что соответствуют случайной выборке. Пусть - оценка параметра , - оценка параметра , тогда оцененное уравнение регрессии будет иметь вид:

Для того чтобы оценки и обладали адекватностью ряд остатков

должен удовлетворять следующим требованиям:

- математическое ожидание равно нулю (критерий нулевого среднего);

- величина является случайной переменной (критерий серий);

- значения независимы между собой (критерий Дарбина-Уотсона);

- дисперсия постоянна: для всех i, j (тест Гольдфельда-Квандта);

- остатки распределены по нормальному закону (свойство используется для проверки статистической значимости и построения доверительных интервалов при прогнозировании).

Известно, что если данные условия выполняются, то оценки, сделанные с помощью метода наименьших квадратов, обладают следующими свойствами:

- оценки являются несмещенными, т.е. математическое ожидание оценки каждого параметра равно его истинному значению:

Это вытекает из того, что и свидетельствует об отсутствии систематической ошибки в определении положения линии регрессии;

- оценки состоятельны, т.к. дисперсии оценок параметров при возрастании числа наблюдений стремятся к нулю: ; т.е. надежность оценки при увеличении выборки растёт;

- оценки эффективны, т.е. они имеют наименьшую дисперсию по сравнению с любыми другими оценками данного параметра.

Если предположения 3 и 4 нарушены, т.е. дисперсия возмущений непостоянна или значения связаны друг с другом, то свойства не смещёности и состоятельности сохраняется, но свойства эффективности – нет.

Отметим, что аппроксимировать уравнением парной регрессии у на х, имеет смысл только в том случае, если существует достаточно тесная статистическая зависимость между случайными величинами и линейный коэффициент корреляции является значимым, что и имеет место в рассматриваемом примере.

  Оценка качества построенной модели Формально качество модели определяется ее адекватностью и точностью. Эти свойства исследуются на основе анализа ряда остатков, значения которых вычислены по выражению. Табл.7.4 содержит:- остатки для задачи, исходные данные которой приведены в табл. 5.2; - ранжированные значения ряда остатков;- остатки за вычетом медианы остатков; - стандартные остатки. Адекватность является более важной составляющей качества, но сначала рассмотрим характеристики точности и нормальности ряда остатков, так как некоторые из них используются при расчете различных критериев адекватности.  

Характеристики точности

Под точностью понимается величина случайных ошибок. Сравнительный анализ точности имеет смысл только для адекватных моделей: среди них лучшей признается модель с меньшими значениями характеристик точности, к которым относятся:

- максимальная ошибка соответствует максимальному отклонению расчетных значений от фактических;

- средняя абсолютная ошибка

показывает, насколько в среднем отклоняются фактические значения от модели;

- средняя относительная ошибка

;

- остаточная дисперсия

;

- средняя квадратическая ошибка

. (7.36)

Средняя квадратическая ошибка является наиболее часто используемой характеристикой точности (что объясняется ее связью с остаточной дисперсией, которая играет центральную роль в регрессионном анализе). Значение средней квадратической ошибки всегда несколько больше значения средней абсолютной ошибки, но они имеют схожий смысл – характеризуют среднюю удаленность расчетных значений модели от фактических исходных данных. Обычно точность модели признается удовлетворительной если выполняется условие:

. (7.37)

К характеристикам точности можно отнести также множественный коэффициент детерминации

, (7.38) характеризующий долю дисперсии зависимой переменной, объясненной с помощью регрессии, и множественный коэффициент корреляции (индекс корреляции):

. (7.39)

В случае парной линейной регрессии значение множественного коэффициента корреляции совпадает с линейным коэффициентом корреляции.

Проверка нормальности ряда остатков может быть выполнена приближенно по условиям (7.2). В связи с тем, что каждый из относительных показателей формы распределения () меньше 1,5 эмпирическое распределение ряда остатков не противоречит нормальному.

Проверка адекватности модели

Проверка адекватности модели заключается в определении её значимости и наличии или отсутствии систематической ошибки.

Сначала проверяется значимость параметров уравнения. Если, например, параметр является незначимым, то необходимо с помощью метода наименьших квадратов получить соответствующее уравнение из которого определяется значение параметра .

Проверка значимости осуществляется на основе t – критерия Стьюдента, т.е. проверяется гипотеза о том, что параметр, измеряющий связь, равен нулю.

Средняя ошибка параметра равна:

, (7.40)

а для параметра :

. (7.41)

Расчетные значения t- критерия вычисляются по формуле:

(7.42) Параметр считается значимым, если . Значение определяется по табл. 6 Практикума. Входами в табл. являются уровень значимости и количество степеней свободы , где - количество факторов в уравнении регрессии. Прии . Следовательно, в рассматриваемом примере параметры являются значимыми.

Параметр лежит в пределах ;,

а параметр- ;.

Значимость уравнения регрессии в целом определяется с помощью F – критерия Фишера:

(7.43)

Расчетное значение F сопоставляется с критическимдля числа степеней свободы при заданном уровне значимости (например, ),где . .

Если , то уравнение считается значимым.

Проверка наличия или отсутствия систематической ошибки

1. Проверка свойства нулевого среднего.

Рассчитывается среднее значение ряда остатков

. (7.44)

Если оно близко к нулю, то считается, что модель не содержит систематической ошибки и адекватна по критерию нулевого среднего, иначе – модель неадекватна по данному критерию. Если средняя ошибка не точно равна нулю, то для определения степени ее близости к нулю используется t – критерий Стьюдента. Расчётное значение критерия вычисляется по формуле

(7.45)

и сравнивается с критическим.Если выполняется неравенство , то модель неадекватна по данному критерию.

2. Проверка случайности ряда остатков.

Осуществляется по методу серий. Серией называется последовательность расположенных подряд значений ряда остатков, для которых разность (графа 4 табл. 7.4) имеет один и тот же знак, где - медиана ряда остатков, значение которой рассчитано по данным графы 3 упомянутой таблицы.

Если модель хорошо отражает исследуемую зависимость, то она часто пересекает линию графика исходных данных и тогда серий много, а их длина невелика. Иначе – серий мало и некоторые из них включают большое число членов.

В качестве серий рассматриваются расположенные подряд ошибки с одинаковыми знаками. Далее подсчитывается число серий и длина максимальной из них . Полученные значения сравниваются с критическими

(7.46) (7.47) (квадратные скобки означают округление вниз до ближайшего целого).

Если выполняется система неравенств:

, (7.48) то модель признается адекватной по критерию случайности, если хотя бы одно из неравенств нарушено, то модель признается неадекватной по данному критерию.

3. Проверка независимости последовательных остатков.

Является важнейшим критерием адекватности модели и осуществляется с помощью коэффициента Дарбина-Уотсона:

. (7.49) Для рядов с тесной взаимосвязью между последовательными значениями остатков значение близко к нулю, что свидетельствует о том, что закономерная составляющая не полностью отражена в модели и частично закономерность присуща ряду остатков, т.е. модель неадекватна исходному процессу.

Если последовательные остатки независимы, то близко к 2. Это свидетельствует о хорошем качестве модели и чистой фильтрации закономерной составляющей.

При отрицательной автокорреляции остатков (строго периодичном чередовании их знаков) близко к 4.

Для проверки существенности положительной автокорреляции остатков значение сравнивается с и из табл. 2 Приложения к лекции:

· если , то гипотеза о независимости остатков отвергается и модель признается неадекватной по критерию независимости остатков;

· если , то гипотеза о независимости остатков принимается и модель признается адекватной по данному критерию(в рассматриваемом примере );

· если , то значение критерия лежит в области неопределенности.

Если , то возникает предположение об отрицательной автокорреляции остатков, и тогда с критическими значениями сравниваются не , а и делаются аналогичные выводы.

4. Проверка постоянства дисперсии остатков.

Если на графике остатков они укладываются в симметричную относительно нулевой линии полосу шириной (модуль стандартных остатков меньше 3) и не имеют как положительной так и отрицательной тенденций, то дисперсии ошибок наблюдений можно считать постоянными.

Значения стандартных остатков вычисляются по формуле

, где и приведены в графе 5 табл.7.4.

 

Рис. 7.3 График стандартных остатков

 

Кроме визуальной оценки постоянства дисперсии существуют и более точные методы, например, тест Гольдфельда-Квандта. Суть теста заключается в следующем. Все n наблюдений упорядочиваются по возрастанию значений независимой переменной (x) и производится оценка параметров регрессий для первых и последних наблюдений с помощью метода наименьших квадратов. Для наибольшей мощности теста рекомендуется выбирать значение порядка n/3. Далее вычисляется расчётное значение статистики Фишера

, (7.50)

где - суммы квадратов остатков для первых и последних наблюдений соответственно. Далее задаётся уровень значимости и определяется с помощъю статистических таблиц..

Если то делается вывод о постоянстве дисперсии.

По совокупности четырех критериев делается вывод о принципиальной возможности использования модели: если модель адекватна по критериям постоянства дисперсий и нулевого среднего и хотя бы по одному из двух других критериев, то она может быть принята для использования, хотя и не признается полностью адекватной.

Построение доверительных интервалов

Конечной целью моделирования является оценка или прогнозирование показателя Y в зависимости от значений X.

Прогноз подразделяется на точечный и интервальный и обычно осуществляется не более чем на одну треть размаха:

,

где - точка прогноза.

В точечном прогнозе показателя Y для определяется лишь одно число, которое представляет условное среднее и (при выполнении предпосылок регрессионного анализа) наиболее вероятное значение с точки зрения закономерности, отраженной в модели. В таком прогнозе не учитываются отклонения от закономерностей в результате воздействия случайных и неучтенных факторов.

В интервальном прогнозе отклонения от закономерностей в результате случайных воздействий определяются границами доверительных интервалов.

Доверительным интервалом называется такой интервал, которому с заданной степенью вероятности (называемой доверительной) принадлежат истинные значения показателя при условии, что закономерности, отраженные в модели, не противоречат развитию как на участке наблюдения, так и на участке оценки (или в периоде упреждения прогноза).

Случайные отклонения от модели проявляются в виде ошибок. Поэтому при определении границ, доверительных интервалов необходимо определить из чего складываются возможные ошибки моделирования, оценки и прогнозирования. При условии, что модель адекватна, и возможные ошибки носят случайный характер, следует различать два основных источника ошибок:

1. ошибки аппроксимации (рассеяние наблюдений относительно модели);

2. ошибки оценок параметров модели.

Наличие ошибок первого типа очевидно даже визуально. Величина ошибок аппроксимации характеризуется остаточной дисперсией или средней квадратической ошибкой . Распределение этих ошибок для адекватных моделей – нормально (нормальность ошибок – одно из условий адекватности).

Ошибки оценок параметров модели обусловлены тем, что их параметры, фиксированные в модели как однозначные, в действительности являются случайными величинами, так как они оцениваются на основе фактических данных, в которых присутствует как закономерная, так и случайная составляющие. Средние значения этих оценок при выполнении предпосылок регрессионного анализа соответствует истинным значениям параметров, а их дисперсии зависят от остаточной дисперсии, числа наблюдений и вида модели.

Общее среднее квадратическое отклонение истинных значений от расчетных может быть представлено как:

(7.51)

а в точке прогноза:

(7.52)

Исходя из предпосылки нормального распределения остатков границы доверительных интервалов определяются по формулам:

 

 

(7.53)

 

Анализ выражений (7.51, 7.52) позволяет для моделей парной регрессии сделать вывод, что доверительные интервалы тем шире, чем:

- больше остаточная дисперсия (менее точна модель);