Алгоритм расчетов

Алгоритм расчетов при корреляционном анализе связи парной корреляции состоит из ряда этапов.

Этап 1.Производится отбор наиболее важных существенных факторов, влияющих на результативный показатель. При отборе факторов учитываются причинно-следственные связи между показателями, причем все факторы должны быть количественно измеримы. Большую помощь при отборе факторов для корреляционной модели оказывают аналитические группировки, способ сравнения параллельных и динамических рядов, линейные графики. Отобранные для анализа показатели и результаты наблюдений за их изменением помещаются в таблицу, в которой факторные признаки располагаются в порядке возрастания или убывания, т. е. ранжируются.

Этап 2.Данные из таблицы наносятся на плоскость координат – строится корреляционное поле.

Этап 3.Производится обоснование формы связи по форме корреляционного поля или путем визуального анализа ранжированного ряда. Подобное обоснование является приблизительным и нуждается в дальнейшем уточнении с помощью ошибки аппроксимации.

Форма связи определяет дальнейшие действия корреляционного анализа. Если связь носит прямолинейный характер, то рассчитывается коэффициент корреляции. Если связь криволинейная, то, прежде всего, определяются теоретические значения ух. С этой целью решается уравнение регрессии, описывающее связь между изучаемыми показателями. Затем рассчитывается корреляционное отношение, или коэффициент корреляции, дающее количественную оценку тесноты связи и характеризующее силу влияния факторных признаков на результативные.

При прямолинейной форме связи коэффициент корреляции рассчитывается по следующей формуле:

 

(63)

 

Коэффициент корреляции может быть представлен и как среднее значение произведений нормированных отклонений (tx, ty):

 

(64)

 

Нормированные отклонения определяются по следующим формулам:

 

(65)

 

(66)

 

где σx, σy – средние квадратические отклонения, которые рассчитываются по формулам

(67)

 

(68)

 

Если коэффициент корреляции возвести в квадрат, то получим коэффициент (индекс) детерминации, который показывает, чему равна доля влияния изучаемого фактора на совокупный показатель.

При значениях тесноты связи меньше 0,7 величина индекса детерминации d всегда будет меньше 50 %. Это означает, что на долю вариации факторного признака х приходится меньшая доля по сравнению с другими признаками, влияющими на изменение результативного показателя. Синтезированные при таких условиях математические модели связи практического значения не имеют.

Если значения показателей тесноты связи более 0,7, выбирается уравнение регрессии, с помощью которого описывается форма связи между показателями.

Этап 4.Выбор и решение уравнения регрессии. Выбор конкретного уравнения регрессии, адекватно описывающего форму связи, является довольно сложной процедурой. В условиях использования ПЭВМ выбор адекватной модели осуществляется перебором решений, наиболее часто применяемых в анализе парной корреляции уравнений регрессии. Если форму связи сразу установить сложно, решают уравнения нескольких типов. Выбор адекватной модели производится на основе средней ошибки аппроксимации ε:

(69)

или

(70)

 

где – среднее значение совокупного показателя; n – количество наблюдений; уi – фактические индивидуальные значения результативного показателя; х – теоретическое значение, рассчитанное на основе выбранной модели; ухi – индивидуальное значение результативного показателя, рассчитанное по уравнению; – среднее значение результативного показателя, рассчитанное по уравнению.

Наибольшее значение ошибки аппроксимации свидетельствует о том, что оцениваемая модель дает наиболее адекватное описание формы взаимосвязи. Причем ошибка аппроксимации не должна превышать 0,2, или 20 %.

Прямолинейное уравнение регрессии показывает равномерное нарастание результативного признака с увеличением факторного: у = а + ,параметры а и b определяются на основе системы уравнений:

 

 

где n – количество наблюдений.

Коэффициент регрессии b показывает, на сколько единиц в среднем изменяется результативный признак у с изменением на одну единицу факторного признака х. Эта всегда именованная величина b на графике показывает угол наклона прямой.

Свободный член а показывает начальную ординату, т. е. расстояние от начала координат до пересечения прямой с осью у.

Значения коэффициентов определяются методом наименьших квадратов. Он основан на предположении, что линия, выравнивающая эмпирические данные, должна проходить так, чтобы сумма квадратов отклонений от этой линии была наименьшей, т. е. ∑(y – ухi)2 = min, ∑(yух)2 = 0.

Криволинейная форма связи может быть представлена уравнением гиперболы, параболы, логарифмической функцией и т. д.:

а) уравнение гиперболы:

 

 

б) параболическая форма связи может описываться параболическим уравнением, например параболой 2-гo порядка:

 

у = а ++ сх2;

 

в) при логарифмической форме связи:

 

y = a + b Igx;

 

Пример. Применение корреляционно-регрессионного анализа рассмотрим на примере прямолинейной зависимости между факторами х и результативным признаком у. Показатели условные, т. к. назначение примера – продемонстрировать основные процедуры метода. Обозначим через х качество товара (в баллах), у – розничную цену (руб.).

 

 

Исходные и расчетные данные приведены в табл. 22.

 

Таблица 22

Данные для расчета коэффициента корреляции и параметров уравнения прямой

 

№ п/п х у txty х2 ху у2
–10 –6 1,395 –1,261 1,759
–8 –7 –1,116 –1,470 1,641
–6 --2 –0,837 –0,840 0,703
–4 –2 –0,558 –0,420 0,234
–2 –1 –0,279 –0,210 0,059
+0,210
0,418 +0,420 0,176
0,697 +0,704 0,491
1,116 +1,050 1,308
1,953 + 1,891 3,693
9,836

 

Расчет коэффициентов корреляции проводится по формуле

 

 

Зависимость между показателями весьма высокая.

Коэффициент корреляции рассчитываем по формуле

 

 

Рассчитанный коэффициент корреляции показывает, что качество товара – основной ценообразующий фактор.

Коэффициент детерминации d = r2, d = 0,982 = 0,96 означает, что цена товара на 96,0 % зависит от качества, влияние прочих факторов составляет 4,0 %.

Положительное значение коэффициента корреляции свидетельствует о наличии прямой связи между показателями.

Определим зависимость между ценой и качеством товара на основе уравнения прямой: у = а +.

Составим систему нормальных уравнений по данным табл. 22:

 

 

Умножив все члены первого уравнения на 12 и вычтя из второго уравнения первое, получим: 514b = 337; b = 0,656. Подставив полученное значение в первое или второе уравнение, получим а = 10,13. Уравнение прямой примет вид: у = 10,13 + 0,66х. Коэффициент регpeссии b = 0,66 означает, что при изме­нении качества на 1 балл цена товара возрастает на 0,66 руб.

Этот условный пример показывает возможности метода в изучении зависимости между стохастическими показателями.

 

Математический аппарат регрессионного и корреляционного анализа оказался очень удобным для определения взаимозависимостей между различными величинами. Но наряду с простотой у этих видов анализа имеется существенный недостаток – исследуется только линейная зависимость между результирующим параметром и независимым фактором.

На практике значительно чаще встречаются многомерные зависимости, т. е. такие, в которых результирующий параметр зависит от многих факторов, и зависимости нелинейные.

Определение нелинейной корреляционной зависимости. Одним из способов нахождения зависимости является метод замены переменной. Этот метод довольно часто используется при решении различных математических задач. Он заключается в том, что независимый фактор заменяется некоторой функцией этого фактора, которая переводит нелинейную зависимость в разряд линейных.

Например, рассмотрим нелинейную зависимость вида у = х2. Это не что иное, как парабола с вершиной в начале координат. Зависимость явно нелинейная. Сделаем замену переменной z = х2. После подстановки в исходное уравнение получим зависимость вида у = z, которая уже является линейной. Для нее можно использовать весь математический аппарат регрессионного и корреляционного анализа, т. е. можно находить регрессионное уравнение, коэффициенты парной корреляции, ошибки и т. д.

Некоторые виды подстановок приведены в табл. 23.

 

 

Таблица 23

Различные виды подстановок, с помощью которых

осуществляется переход от нелинейных зависимостей к линейным

 

Вид нелинейной зависимости Подстановка
у = 1/(а + bx) у = 1/y
у = а + b/x x =1/x
y = x/(a + b x) y = x/y
y = 1/(а + b ∙ ехр(–x)) x = ехр(–x), y = 1/y
y = а ∙ ехр(bx) у = log(y)
у = y2
y = ехр[а + b ∙ ехр(x)] x = ехр(x), y = log(y)
у = а x/(b + x) x = 1/x, у = 1/y

Вопросы для самоконтроля

1. Какие способы стохастических (корреляционных) взаимосвязей вы знаете?

2. Какие задачи решает корреляционный анализ?

3. Охарактеризуйте виды корреляций.

4. Приведите общую формулу корреляционного отношения (η).

5. Как определяется коэффициент корреляции (r)?

6. Назовите этапы корреляционного анализа связи парной корреляции.