Квадратов отклонений

В свою очередь, при независимости факторов друг от друга, выполнимо равенство:

S = S_x +S_z + S_v

Суммы квадратов отклонения, обусловленных влиянием соответствующих факторов.

Если же факторы интеркоррелированы, то данное равенство нарушается.

Включение в модель мультиколлинеарных факторов нежелательно в силу следующего:

· затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированы; параметры линейной регрессии теряют экономический смысл;

· оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

Для оценки мультиколлинеарных факторов будем использовать определитель матрицы парных коэффициентов корреляции между факторами. Если бы факторы не коррелировали между собой, то матрица парных коэффициентов была бы единичной.

y = a + b₁x₁ + b₂x₂ + b₃x₃ + e

Если же между факторами существует полная линейная зависимость, то:

Чем ближе к 0 определитель, тем сильнее межколлинеарность факторов и ненадежны результаты множественной регрессии. Чем ближе к 1, тем меньше мультиколлинеарность факторов.

Оценка значимости мультиколлинеарности факторов может быть проведена методами испытания гипотезы 0 независимости переменных H₀:

Доказано, что величина имеет приближенное распределение с степенями свободы. Если фактически значение превосходит табличное (критическое) то гипотеза H₀ отклоняется. Это означает, что , недиагональные коэффициенты указывают на коллинеарность факторов. Мультиколлинеарность считается доказанной.

Через коэффициенты множественной детерминации можно найти переменные, ответственные за мультиколлинеарность факторов. Для этого в качестве зависимой переменной рассматривается каждый из факторов. Чем ближе значение R² к 1, тем сильнее проявляется мультиколлинеарность. Сравнивая между собой коэффициенты множественной детерминации и т.п.

Можно выделить переменные, ответственные за мультиколлинеарность, следовательно, решить проблему отбора факторов, оставляя в уравнения факторы с минимальной величиной коэффициента множественной детерминации.

Существует ряд походов преодоления сильной межфакторной корреляции. Самый простой путь устранения МК состоит в исключении из модели одного или несколько факторов.

Другой подход связан с преобразованием факторов, при котором уменьшается корреляция между ними.

Если y = f(x₁, x₂, x₃), то возможно построение следующего совмещенного уравнения:

у = a + b₁x₁ + b₂x₂ + b₃x₃ + b₁₂x₁x₂ + b₁₃x₁x₃ + b₂₃x₂x₃ + e.

Это уравнение включает взаимодействие первого порядка (взаимодействие двух факторов).

Возможно включение в уравнение взаимодействий и более высокого порядка, если будет доказано их статистически значимость по F-критерию

b₁₂₃x₁x₂х₃ – взаимодействие второго порядка.

Если анализ совмещенного уравнения показал значимость только взаимодействия факторов х₁ и х₃, то уравнение будет имеет вид:

у = a + b₁x₁ + b₂x₂ + b₃x₃ + b₁₃x₁x₃ + e.

Взаимодействие факторов х₁ и х₃ означает, что на разных уровнях фактора х₃ влияние фактора х₁ на у будет неодинаково, т.е. оно зависит от значения фактора х₃. На рис. 3.1 взаимодействие факторов представляет непараллельными линями связи с результатом у. И наоборот, параллельные линии влияние фактора х₁ на у при разных уровнях фактора х₃ означают отсутствие взаимодействия факторов х₁ и х₃.

(х₃=В₂)

(х₃=В₁)

(х₃=В₂)

₁

х₁

Х₁

Рис 3.1. Графическая иллюстрация взаимодействия факторов.

а - х₁ влияет на у, причем это влияние одинаково при х₃=В₁, так и при х₃=В₂ (одинаковый наклон линий регрессии), что означает отсутствие взаимодействия факторов х₁ и х₃;

б – с ростом х₁ результативный признак у возрастает при х₃=В₁, с ростом х₁ результативный признак у снижается при х₃=В₂. Между х₁ и х₃ существует взаимодействие.

Совмещенные уравнения регрессии строятся, например, при исследовании эффекта влияния на урожайность разных видов удобрений (комбинации азота и фосфора).

Решению проблемы устранения мультиколлинеарности факторов может помочь и переход к устранениям приведенной формы. С этой целью в уравнение регрессии производится подстановка рассматриваемого фактора через выражение его из другого уравнения.

Пусть, например, рассматривается двухфакторная регрессия вида a + b₁x₁ + b₂x₂, для которой x₁ и x₂ обнаруживают высокую корреляцию. Если исключить один из факторов, то мы придем к уравнению парной регрессии. Вместе с тем можно оставить факторы в модели, но исследовать данное двухфакторное уравнение регрессии совместно с другим уравнением, в котором фактор (например х₂) рассматривается как зависимая переменная. Предположим, известно, что . Постановляя это уравнение в искомое вместо х₂, получим:

Или

Если , то разделив обе части равенства на , получаем уравнение вида:

которое представляет собой приведенную форму уравнения для определения результативного признака у. Это уравнение может быть представлено в виде:

К нему для оценки параметров может быть применен МНК.

Отбор факторов, включаемых в регрессию, является одним из важнейших этапов практического использования методов регрессии. Походы к отбору факторов на основе показателей корреляции могут быть разные. Они приводят построение уравнения множественной регрессии соответственно разным методикам. В зависимости от того, какая методика построение уравнения регрессии принята, меняется алгоритм ее решения на ЭВМ.

Наиболее широкое применение получили следующие методы построение уравнения множественной регрессии:

· метод исключения;

· метод включения;

· шаговый регрессионный анализ.

Каждый из этих методов по-своему решает проблему отбора факторов, давая в целом близкие результаты – отсев факторов из полного его отбора (метод исключение), дополнительное введение фактора (метод включения), исключение ранее введенного фактора (шаговый регрессионный анализ).

На первый взгляд может показаться, что матрица парных коэффициентов корреляции играет главную роль в отборе факторов. Вместе с тем вследствие взаимодействия факторов парные коэффициенты корреляции не могут в полной мере решать вопрос о целесообразности включения в модель того или иного фактора. Эту роль выполняют показатели частной корреляции, оценивающие в чистом виде тесноту связи фактора с результатом. Матрица частных коэффициентов корреляции наиболее широко используется в процедура отсева фактора. При отборе факторов рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6-7 раз меньше объема совокупности, по которой строит регрессии. Если это отношение нарушено, то число степеней свободны остаточной вариаций очень мало. Это приводит к тому, что параметры уравнения регресс оказываются статистически незначимыми, а F-критерий меньше табличного значения.

Классическая линейная модель множественной регрессии.

y – регрессанд

x_i – регрессоры

u – случайная составляющая.

Модель множественной регрессии является обобщением модели парной регрессии на многомерный случай.

Независимые переменные (х) предполагаются не случайными (детерминированными) величинами.

Переменная х₁= x_i₁ = 1 называется вспомогательной переменной для свободного члена и еще в уравнениях она называется параметром сдвиги.

«y» и «u» в (2) являются реализациями случайной величины.

- называется также параметром сдвига.

Для статистической оценки параметров регрессионной модели необходим набор (множество) данных наблюдений независимых и зависимых переменных. Данные могут быть представлены в виде пространственных данных или временных рядов наблюдений. Для каждого из таких наблюдений согласно линейной модели можно записать:

Векторно-матричная запись системы (3).

Введем следующие обозначения:

вектор-столбец независимой переменной (регрессанда)

размерность матрицы (n·1)

Матрица наблюдений независимых переменных (регрессоров):

размер (n×k)

Вектор-столбец параметров:

- матричная запись системы уравнений (3). Она проще и компактнее.

Предпосылки классической многомерной линейной регрессионной модели.

Сформируем предпосылки, которые необходимы при выводе уравнении для оценок параметров модели, изучения их свойств и тестирования качества модели. Эти предпосылки обобщают и дополняют предпосылки классической модели парной линейной регрессии (условия Гаусса – Маркова).

Предпосылка 1.независимые переменныене случайны и измеряются без ошибок. Это означает, что матрица наблюдений Х – детерминированная.

Предпосылка 2. (первое условие Гаусса – Маркова): Математическое ожидание случайной составляющей в каждом наблюдении равно нулю.

Предпосылка 3. (второе условие Гаусса – Маркова): теоретическая дисперсия случайной составляющей одинакова для всех наблюдений.

(Это гомоскедастичность)

Предпосылка 4. (третье условие Гаусса – Маркова): случайные составляющие модели не коррелированны для различных наблюдений. Это означает, что теоретическая ковариация

Предпосылки (3) и (4) удобно записать, используя векторные обозначения:

матрица - симметричная матрица. - единичная матрица размерности n, верхний индекс Т – транспонирование.

Матрица называется теоретической матрицей ковариаций (или ковариационной матрицей).

Предпосылка 5. (четвертое условие Гаусса – Маркова): случайная составляющая и объясняющие переменные не коррелированны (для модели нормальной регрессии это условие означает и независимость). В предположении, что объясняющие переменные не случайные, эта предпосылка в классической регрессионной модели всегда выполняется.

Предпосылка 6. коэффициенты регрессии – постоянные величины.

Предпосылка 7. уравнение регрессии идентифицируемо. Это означает, что параметры уравнения в принципе оцениваемы, или решение задачи оценивания параметров существует и единственно.

Предпосылка 8. регрессоры не коллинеарны. В таком случае матрица наблюдений регрессоров должна быть полного ранга. (ее столбцы должны быть линейно независимы). Данная предпосылка тесно связана с предыдущей, так как при применении для оценивания коэффициентов МНК ее выполнение гарантирует идентифицируемость модели (если количество наблюдений больше количества оцениваемых параметров).

Предпосылка 9. Количество наблюдений больше количества оцениваемых параметров, т.е. n>k.

Все эти 1-9 предпосылки одинаково важны, и только при их выполнении можно применять классическую регрессионную модель на практике.

Предпосылка о нормальности случайной составляющей. При построении доверительных интервалов для коэффициентов модели и прогнозов зависимой переменной, проверки статистических гипотез относительно коэффициентов, разработке процедур для анализа адекватности (качества) модели в целом необходимо предположение о нормальном распределении случайной составляющей. С учетом этой предпосылки модель (1) называется классической многомерной линейной моделью регрессии.

Если предпосылки не выполняются, то необходимо строить так называемые обобщенные модели линейной регрессии. От того, насколько корректно (правильно) и осознанно используются возможности регрессионного анализа, зависит успех эконометрического моделирования, и в конечном счете, обоснованность принимаемых решений.

Выбор формы уравнения регрессии.

Для построения уравнения множественной регрессии чаще используются следующие функции

1. линейная: .

2. степенная: .

3. экспоненциальная: .

4. гипербола:

В виду четкой интерпретации параметров наиболее широко используются линейная и степенная функции. В линейной множественной регрессии параметры при Х называются коэффициентами «чистой» регрессии. Они характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизменном значении других факторов, закрепленных на среднем уровне.

Пример. Предположим, что зависимость расходов на продукты питания по совокупности семей характеризуется следующим уравнением:

где у – расходы семьи за месяц на продукты питания, тыс.руб.;

х₁ – месячный доход на одного члена семьи, тыс.руб.;

х₂ – размер семьи, человек.

Анализ данного уравнения позволяет сделать выводы – с ростом дохода на одного члена семьи на 1 тыс. руб. расходы на питание возрастут в среднем на 350 руб. при том же среднем размере семьи. Иными словами, 35% дополнительных семейных расходов тратится на питание. Увеличение размера семьи при тех же ее доходах предполагает дополнительный рост расходов на питание на 730 руб. Параметр а не подлежит экономической интерпретации.

При изучении вопросов потребления коэффициенты регрессии рассматривают как характеристики предельной склонности к потреблению. Например, если функции потребления С_t имеет вид:

С_t = a+b₀ R_t + b₁ R_t_-1 +e,

то потребление в период времени t зависит от дохода того же периода R_t и от дохода предшествующего периода R_t_-1. Соответственно коэффициент b₀ обычно называют краткосрочной предельной склонностью к потреблению. Общим эффектом возрастания как текущего, так и предыдущего дохода будет рост потребления на b= b₀ + b₁. Коэффициент b рассматривается здесь как долгосрочная склонность к потреблению. Так как коэффициенты b₀и b₁ >0, то долгосрочная склонность к потреблению должна превосходить краткосрочную b₀. Например, за период 1905 – 1951 гг. (за исключением военных лет) М.Фридман построил для США следующую функцию потребления: С_t = 53+0,58 R_t+0,32 R_t_-1 с краткосрочной предельной склонностью к потреблению 0,58 и с долгосрочной склонностью к потреблению 0,9.

Функция потребления может рассматриваться также в зависимости от прошлых привычек потребления, т.е. от предыдущего уровня потребления

С_t-1:

С_t = a+b₀ R_t +b₁ С_t-1 +e,

В этом уравнении параметр b₀также характеризует краткосрочную предельную склонность к потреблению, т.е. влияние на потребление единичного роста доходов того же периода R_t. Долгосрочную предельную склонность к потреблению здесь измеряет выражение b₀/(1- b₁).

Так, если уравнение регрессии составило:

С_t = 23,4+0,46 R_t +0,20 С_t_-1 +e,

то краткосрочная склонность к потреблению равна 0,46, а долгосрочная – 0,575 (0,46/0,8).

В степенной функции коэффициенты b_j являются коэффициентами эластичности. Они показывают, на сколько процентов изменяется в среднем результат с изменением соответствующего фактора на 1% при неизменности действия других факторов. Этот вид уравнения регрессии получил наибольшее распространение в производственных функциях, в исследованиях спроса и потребления.

Предположим, что при исследовании спроса на мясо получено уравнение:

где у – количество спрашиваемого мяса

х₁ – цена

х₂ – доход.

Следовательно, рост цен на 1% при том же доходе вызывает снижение спроса на мясо в среднем на 2.63%. Увеличение дохода на 1% обусловливает при неизменных ценах рост спроса на 1.11%.

В производственных функциях вида:

где P – количество продукта, изготавливаемого с помощью m производственных факторов (F₁, F₂, ……F_m).

b – параметр, являющийся эластичностью количества продукции по отношению к количеству соответствующих производственных факторов.

Экономический смысл имеют не только коэффициенты b каждого фактора, но и их сумма, т.е. сумма эластичностей: В = b₁+b₂+……+b_m. Эта величина фиксирует обобщенную характеристику эластичности производства. Производственная функция имеет вид

где Р – выпуск продукции

F₁ – стоимость основных производственных фондов

F₂ - отработано человеко-дней

F₃ – затраты на производство

Эластичность выпуска по отдельным факторам производства составляет в среднем 0,3% с ростом F₁ на 1% при неизменном уровне других факторов; 0,2% - с ростом F₂ на 1% также при неизменности других факторов производства и 0,5% с ростом F₃на 1% при неизменном уровне факторов F₁и F₂. Для данного уравнения В = b₁+b₂+b₃ = 1. Следовательно, в целом с ростом каждого фактора производства на 1% коэффициент эластичности выпуска продукции составляет 1%, т.е. выпуск продукции увеличивается на 1%, что в микроэкономике соответствует постоянной отдаче на масштаб.

При практических расчетах не всегда . Она может быть как больше, так и меньше 1. В этом случае величина В фиксирует приближенную оценку эластичности выпуска с ростом каждого фактора производства на 1% в условиях увеличивающейся (В>1) или уменьшающейся (В<1) отдачи на масштаб.

Так, если , то с ростом значений каждого фактора производства на 1% выпуск продукции в целом возрастает приблизительно на 1.2%.

При оценке параметров модели по МНК мерой (критерием) количества подгонки эмпирической регрессионной модели к наблюдаемой выборке служит сумма квадратов ошибок (остатков).

где е = (e1,e2,…..e_n)^T;

Для уравнения применили равенство:

- скалярная функция

Система нормальных уравнений (1) содержит k линейных уравнений относительно k неизвестных i = 1,2,3……k

= (2)

Перемножив (2) получим развернутую форму записи систем нормальных уравнений

Оценка коэффициентов

Стандартизированные коэффициенты регрессии, их интерпретация. Парные и частные коэффициенты корреляции. Множественный коэффициент корреляции. Множественный коэффициент корреляции и множественный коэффициент детерминации. Оценка надежности показателей корреляции.

Параметры уравнения множественной регрессии оцениваются, как и в парной регрессии, методом наименьших квадратов (МНК). При его применении строится система нормальных уравнений, решение которой и позволяет получить оценки параметров регрессии.

Так, для уравнения система нормальных уравнений составит:

Ее решение может быть осуществлено методом определителей:

, ,…, ,

где D – главный определитель системы;

Dа, Db₁, …, Db_p – частные определители.

При этом

а Dа, Db₁, …, Db_p получаются путем замены соответствующего столбца матрицы определителя системы данными левой части системы.

Возможен и иной подход в определении параметров множественной регрессии, когда на основе матрицы парных коэффициентов корреляции строится уравнение регрессии в стандартизованном масштабе:

где - стандартизованные переменные , для которых среднее значение равно нулю , а среднее квадратическое отклонение равно единице: ;

- стандартизованные коэффициенты регрессии.

Применяя МНК к уравнению множественной регрессии в стандартизованном масштабе, после соответствующих преобразований получим систему нормальных вида

Решая ее методом определителей, найдем параметры – стандартизованные коэффициенты регрессии (b-коэффициенты).

Стандартизованные коэффициенты регрессии показывают, на сколько сигм изменится в среднем результат, если соответствующий фактор х_i изменится на одну сигму при неизменном среднем уровне других факторов. В силу того, что все переменные заданы как центрированные и нормированные, стандартизованные коэффициенты регрессии b_I сравнимы между собой. Сравнивая их друг с другом, на результат можно ранжировать факторы по силе их воздействия. В этом основное достоинство стандартизованных коэффициентов регрессии в отличие от коэффициентов «чистой» регрессии, которые несравнимы между собой.

Пример. Пусть функция издержек производства у (тыс. руб.) характеризуется уравнением вида

где х₁ – основные производственные фонды;

х₂ – численность занятых в производстве.

Анализируя его, мы видим, что при той же занятости дополнительный рост стоимости основных производственных фондов на 1 тыс. руб. влечет за собой увеличение затрат в среднем на 1,2 тыс. руб., а увеличение численности занятых на одного человека способствует при той же технической оснащенности предприятий росту затрат в среднем на 1,1 тыс. руб. Однако это не означает, что фактор х₁ оказывает более сильное влияние на издержки производства по сравнению с фактором х₂. Такое сравнение возможно, если обратиться к уравнению регрессии в стандартизованном масштабе. Предположим, оно выглядит так:

Это означает, что с ростом фактора х₁ на одну сигму при неизменной численности занятых затрат на продукцию увеличиваются в среднем на 0,5 сигмы. Так как b₁ < b₂ (0,5 < 0,8), то можно заключить, что большее влияние оказывает на производство продукции фактор х₂, а не х₁, как кажется из уравнения регрессии в натуральном масштабе.

В парной зависимости стандартизованный коэффициент регрессии есть не что иное, как линейный коэффициент корреляции r_xy. Подобно тому, как в парной зависимости коэффициент регрессии и корреляции связаны между собой, так и в множественной регрессии коэффициенты «чистой» регрессии b_i связаны со стандартизованными коэффициентами регрессии b_i, а именно:

(3.1)

Это позволяет от уравнения регрессии в стандартизованном масштабе

(3.2)

переход к уравнению регрессии в натуральном масштабе переменных:

Параметр а определяется как

(3.3)

Рассмотренный смысл стандартизованных коэффициентов регрессии позволяет их использовать при отсеве факторов – из модели исключаются факторы с наименьшим значением b_j.

Компьютерные программы построения уравнения множественной регрессии в зависимости от использованного в них алгоритма решения позволяют получить либо только уравнение регрессии для исходных данных, либо, кроме того, уравнение регрессии в стандартизованном масштабе.

При нелинейной зависимости признаков, приводимой к линейному виду, параметры множественной регрессии также определяются МНК с той лишь разницей, что он используется не к исходной информации, а к преобразованным данным. Так, рассматривая степенную функцию

мы преобразовываем ее в линейный вид:

где переменные выражены в логарифмах.

Далее обработка МНК та же, что и описана выше: строится система нормальных уравнений и определяются параметры lg a, b₁, b₂, … b_p. Потенцируя значение lg a, найдем параметр а и соответственно общий вид уравнения степенной функции.

Поскольку параметры степенной функции представляют собой коэффициенты эластичности, то они сравнимы по разным факторам.

Пример. При исследовании спроса на масло получено следующее уравнение:

где

у – количество масла на душу населения (кг);

х₁ – цена (руб.)

х₂ – доход на душу населения (тыс. руб.).

Анализируя уравнение, видим, что с ростом цены на 1% при том же доходе спрос снижается в среднем на 0,858%, а рост дохода на 1% при неизменных ценах вызывает увеличение спроса в среднем на 1,126%. В виде степенной функции данное уравнение примет вид:

При других нелинейных функциях методика оценки параметров МНК осуществляется так же. В отличие от предыдущих функций параметры более сложных моделей не имеют четкой экономической интерпретации: они не являются показателями силы связи и ее эластичности. Это не исключает возможности их применения, но делает их менее привлекательными в практических расчетах.

Частные уравнения регрессии

На основе линейного уравнения множественной регрессии

могут быть найдены частные уравнения регрессии:

т.е. уравнения регрессии, которые связывают результативный признак с соответствующими факторами х при закреплении других учитываемых во множественной регрессии факторов на среднем уровне. Частные уравнения имеют следующий вид:

При подстановке в эти уравнения средних значений соответствующих факторов они принимают вид парных уравнений линейной регрессии, т.е. имеем:

где

В отличие от парной регрессии частные уравнения регрессии характеризуют изолированное влияние фактора на результат, ибо другие факторы закреплены на неизменном уровне. Эффекты влияния других факторов присоединены в них к свободному члену уравнения множественной регрессии.

Это позволяет на основе частных уравнений регрессии определять частные коэффициенты эластичности:

(3.4)

где b_i – коэффициенты регрессии для фактора х_i в уравнении множественной регрессии;

– частное уравнение регрессии.

Пример. Предположим, что по ряду регионов множественная регрессия величины импорта на определенный товар у относительно отечественного его производства х₁, изменения запасов х₂ и потребления на внутреннем рынке х₃ оказалась следующей:

При этом средние значения для рассматриваемых признаков составили:

На основе данной информации могут найдены средние по совокупности показатели эластичности:

(3.5)

Для данного примера они окажутся равными:

т.е. с ростом величины отечественного производства на 1% размер импорта в среднем по совокупности регионов возрастает на 1,053% при неизменных запасах и потреблении семей.

Для второй переменной коэффициент эластичности составляет:

т.е. с ростом изменения запасов на 1% при неизменном производстве и внутреннем потреблении величина импорта увеличивается в среднем на 0,056%.

Для второй переменной коэффициент эластичности составляет:

т.е. при неизменном объеме производства и величины запасов с увеличением внутреннего потребления на 1% импорт товар возрастает в среднем по совокупности регионов на 1,987%. Средние показатели эластичности можно сравнивать друг с другом и соответственно ранжировать факторы по силе их воздействия на результат. В рассматриваемом примере наибольшее воздействие на величину импорта оказывает размер внутреннего потребления товара х₃, а наименьшее – изменение запасов х₂.

Наряду со средними показателями эластичности в целом по совокупности регионов на основе частных уравнений регрессии могут быть определены частные коэффициенты эластичности для каждого региона. Частные уравнения регрессии в нашем случае составят:

т.е.

т.е.

т.е.

Подставляя в данные уравнения фактические значения по отдельным регионам соответствующих факторов, получим значения моделируемого показателями при заданном уровне одного значения и средних значениях других факторов. Эти расчетные значения результативного признака используются для определения частных коэффициентов по приведенной выше формуле. Так, если, например, в регионе х₁=160,2; х₂=4,0; х₃=190,5, то частные коэффициенты эластичности составят:

Как видим, частные коэффициенты эластичности для региона несколько отличаются от аналогичных средних показателей по совокупности регионов. Они могут быть использованы при принятии решений относительно развития конкретных регионов.

Множественная корреляция

Практическая значимость уравнения множественной регрессии оценивается с помощью показателя множественной корреляции и его квадрата – коэффициента детерминации.

Показатель множественной корреляции характеризует тесноту рассматриваемого набора факторов с исследуемым признаком, или, иначе, оценивает тесноту совместного влияния факторов на результат.

Независимо от формы связи показатель множественной корреляции может быть найден как индекс множественной корреляции:

, (3.6)

где s²_y – общая дисперсия результативного признака;

s_ост² – остаточная дисперсия для уравнения у = ¦(х_1,х₂,….,x_p).

Методика построения индекса множественной корреляции аналогична построению индекса корреляции для парной зависимости. Границы его изменения те же: от 0 до 1. Чем ближе его значение к 1, тем теснее связь результативного признака со всем набором исследуемых факторов. Величина индекса множественной корреляции должна быть больше или равна максимальному парному индексу корреляции:

При правильном включении факторов в регрессионной анализ величина индекса множественной корреляции будет существенно отличаться от индекса корреляции парной зависимости. Если же дополнительно включенные в уравнение множественной регрессии факторы третьестепенны, то индекс множественной корреляции может практически совпадать с индексом парной корреляции (различия в третьем, четвертом знаках). Отсюда ясно, что, сравнивая индексы множественной и парной корреляции, можно сделать вывод о целесообразности включения в уравнение регрессии того фактора. Так, если y рассматривается как функция x и z и получен индекс множественной корреляции R_yzx = 0,85, а индексы парной корреляции при этом были R_yx = 0,82 и R_yz = 0,75, то совершенно ясно, что уравнение парной регрессии у = ¦(х) охватывало 67,2% результативного признака под влиянием фактора x а дополнительное анализ фактора z увеличило долю объясненной вариации до 72,3%, т.е. уменьшилась доля остаточной вариации на 5,1 проц. Пункта (с 32,8 до 27,7 %).

Расчет индекса множественной корреляции предполагает определение уравнения множественной регрессии и на его основе остаточной дисперсии:

.

Можно пользоваться следующей формулой индекса множественной корреляции:

. (3.7)

При линейной зависимости признаков формула индекса корреляции может быть представлена следующим выражением:

(3.8)

где - стандартизованные коэффициенты регрессии;

- парные коэффициенты корреляции результата с каждым фактором.

В справедливости данной формулы можно убедиться, если обратиться к линейному уравнению множественной регрессии в стандартизованном масштабе и определить для его индекс множественной корреляции как

(3.9)

Или, что то же самое,

(3.10)

В формуле (3.10) числитель подкоренного выражения представляет собой факторную сумму квадратов отклонений для стандартизованных переменных:

Поскольку и , индекс множественной корреляции для линейной уравнения в стандартизованном масштабе можно записать в виде

(3.11)

Подставим в эту формулу выражение через

получим:

Так как то получим формулу индекса множественной корреляции следующего вида (3.8):

Формула индекса множественной корреляции для линейной регрессии получила название линейного коэффициента множественной корреляции, или, что то же самое, совокупного коэффициента корреляции.

Возможно также при линейной зависимости определение совокупного коэффициента корреляции через матрицу парных коэффициентов корреляции:

(3.12)

где Dr – определитель матрицы парных коэффициентов корреляции;

Dr₁₁ – определитель матрицы межфакторной корреляции.

Для уравнения определитель матрицы коэффициентов парной корреляции примет вид:

. (3.13)

Определитель более низкого порядка r₁₁ остается, когда вычеркиваются из матрицы коэффициентов парной корреляции первый столбец и первая строка, что и соответствует матрице коэффициентов парной корреляции между факторами:

. (3.14)

Как видом, величина множественного коэффициента корреляции зависит не только от корреляции результата с каждым из факторов, но и от межфакторной корреляции. Рассмотренная формула позволяет определить совокупный коэффициент корреляции, не обращаясь при этом к уравнению множественной регрессии, а используя лишь парные коэффициенты корреляции.

При трех переменных для двухфакторного уравнения регрессии данная формула совокупного коэффициента корреляции легко приводится к следующему виду:

(3.15)

Индекс множественной корреляции равен совокупному коэффициенту корреляции не только при линейной зависимости рассматриваемых признаков. Тожественность этих показателей, как и а парной регрессии, имеет место и для криволинейной зависимости, нелинейной по переменным. Так, если фирмы модель прибыли у имеет вид

,

где х₁– удельные расходы на рекламу;

х₂- капитал фирмы;

х₃ – доля продукции фирмы в общем объеме продаж данной группы товаров по региону;

х₄ – процент увеличения объема продаж фирмы по сравнению с предыдущим годом.

Тогда независимо от того; что фактор х₁ задан линейно, а факторы х₂, х_3,х₄– в логарифмах, оценка тесноты связи может быть произведена с помощью линейного коэффициента множественной корреляции. Так, если рассматриваемая модель в стандартизованном виде оказалась следующей:

а парные коэффициенты корреляции прибыли с каждым из ее факторов составили

,

то коэффициент множественной детерминации окажется равным:

Тот же результат даст и индекс множественной детерминации, определенный через соотношение остаточной и общей дисперсии результативного признака.

Иначе обстоит дело с криволинейной регрессией, нелинейной по оцениваемым параметрам. Предположим, что рассматривается производственная функция Кобба – Дугласа:

где P – объем продукции;

L – затраты труда;

K – величина капитала;

b₁+ b₂ = 1.

Логарифмируя ее, получим линейное в логарифмах уравнение

Оценив параметры этого уравнения по МНК, можно найти теоретические значения объема продукции и соответственно остаточную сумму квадратов , которая используется в расчете индекса детерминации (корреляции):

Однако при этом нельзя забывать, что МНК применяется не к исходным данным продукции, а к их логарифмам. Поэтому в индексе корреляции с общей суммой квадратов сравнивается остаточная дисперсия, которая определена по теоретическим значениям логарифмов продукции: – антилогарифм , т.е. по путем потенцирования нашли .

В показателях множественной корреляции (индекс и коэффициент) используется остаточная дисперсия, которая имеет систематическую ошибку в сторону преуменьшения, тем более значительную, чем больше параметров определяется в уравнении регрессии при заданном объеме наблюдений n. Если число параметров при x_j равно m и приближается к объеме наблюдений, то остаточная дисперсия будет близка к нулю и коэффициент (индекс) корреляции приблизится к единице даже при слабой связи факторов с результатом. Для того чтобы не допустить возможного преувеличения тесноты связи, используется скорректированный индекс (коэффициент) множественной регрессии.

Скорректированный индекс множественной корреляции содержит поправку на число степеней свободы, а именно остаточная сумму квадратов делится на число степеней свободы остаточной вариации (n-m-1), а общая сумма квадратов отклонений - на число степеней свободы в целом по совокупности (n – 1).

Формула скорректированного индекса множественно детерминации имеет вид:

, (3.17)

где m – число параметров при переменных х;

n – число наблюдений.

Поскольку , то величину скорректированного индекса детерминации можно представить в виде

(3.18)

Чем больше величина m, тем сильнее различия и .

Для линейной зависимости признаков скорректированный коэффициент множественной корреляции определяется по той же формуле, что и индекс множественной корреляции, т.е. как корень квадратный из . Отличие состоит лишь в том, что в линейной зависимости под m подразумевается число факторов включенных в регрессионную модель, а в криволинейной зависимости m – число параметров при х и их преобразованиях (х², lnx и др.), которое может быть больше числа факторов как экономических переменных. Так, если у = f (x₁, x₂), то для линейной регрессии m=2, а для регрессии вида

число параметров при х равно 4, т.е. m = 4. При заданном объеме наблюдений при прочих равных условиях с увеличением числа независимых переменных (параметров) скорректированный коэффициент множественной детерминации убывает. Его величина может стать и отрицательной при слабых связях результата с факторами. В этом случае он должен считаться равным нулю. При небольшом числе наблюдений скорректированная величина коэффициента множественной детерминации R² имеет тенденцию переоценивать долю вариации результативного признака, связанную с влиянием факторов, включенных в регрессионную модель.

Пример.Предположим, что при n = 30 для линейного уравнения регрессии с четырьмя факторами R² = 0,7, а с учетом корректировки на число степеней свободы

.

Чем больше объем совокупности, по которой исчислена регрессия, тем меньше различаются показатели и R². Так, уже при n = 50 при том же значении R² и m величина составит 0,673.

В статистических пакетах прикладных программ в процедуре множественной регрессии обычно приводится скорректированный коэффициент (индекс) множественной корреляции (детерминации). Величина коэффициента множественной детерминации используется для оценки качества регрессионной модели. Низкое значение коэффициента (индекса) множественной корреляции означает, что в регрессионную модель не включены существенные факторы – с одной стороны, а с другой стороны – рассматриваемая форма связи не отражает реальные соотношения между переменными, включенными в модель. Требуются дальнейшие исследования по улучшению качества модели и увеличению ее практической значимости.

Частная корреляция

Как было показано выше, ранжирование факторов, участвующих в множественной линейной регрессии, может быть проведено через стандартизованные коэффициенты регрессии ( - коэффициенты). Эта же цель может быть достигнута с помощью частных коэффициентов корреляции – для линейных связей. При нелинейной взаимосвязи исследуемых признаков эту функцию выполняют частные индексы детерминации. Кроме того, частные показатели корреляции широко используются при решении проблемы отбора факторов: целесообразность включения того или иного фактора в модель показывается величиной показателя частной корреляции.

Частные коэффициенты (или индексы) корреляции характеризуют тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включенных в уравнение регрессии.

Показатели частной корреляции представляют собой отношение сокращения остаточной дисперсии за счет дополнительного включения в анализ нового фактора к остаточной дисперсии, имевшей место до введения его в модель.

Пример. Предположим, что зависимость объема продукции у от затрат труда x₁ характеризуется уравнением

,

Подставив в это уравнение фактические значения x₁, найдем теоретические величины объема продукции и соответствующую величину остаточной дисперсии :

Включив уравнение регрессии дополнительный фактор x₂- теоретическую оснащенность производства, получим уравнение регрессии вида

Для этого уравнения остаточная дисперсия, естественно, меньше. Предположим, что , а . Чем большее число факторов включено в модель, тем меньше величина остаточной дисперсии.

Сокращение остаточно дисперсии за счет дополнительного включения фактора x₂ составит:

Чем больше доля этого сокращения в остаточной вариации до введения дополнительного фактора, т. е. в , тем теснее связь между y и x₂ при постоянном действии фактора x₁. Корень квадратный из этой величины и есть индекс частной корреляции, показывающий в «чистом» виде тесноту связи y с x₂.

Следовательно, чистое влияние фактора x₂ на результат y можно определить как

(3.19)

Аналогично определяется и чистое влияние на результат фактора x₁:

(3.20)

Если предположить, что , то частные показатели корреляции для уравнения составят

и

Сравнивая полученные результаты, видим, что более сильное воздействие на объем продукции оказывает техническая оснащенность предприятий.

Если выразить остаточную дисперсию через показатель детерминации, то формула коэффициента частной корреляции примет вид:

, (3.21)

Соответственно

(3.22)

Рассмотренные показатели частной корреляции принято называть коэффициентами (индексами) частной корреляции первого порядка, ибо они фиксируют тесноту связи двух переменных при закреплении (элиминировании влияния) одного фактора.

Если рассматривается регрессия с числом факторов , то возможно частные коэффициенты корреляции не только первого, но и второго, третьего, …, ( ) порядка, т. е. влияние фактора x₁ можно оценить при разных условиях независимости действия других факторов:

-при постоянном действии фактора x₂;

-при постоянном действии факторов x₂ и x₃;

-при неизменном действии всех факторов, включенных в уравнение регрессии.

Сопоставление коэффициентов частной корреляции разного порядка по мере увеличения числа включаемых факторов показывает процесс “очищения” зависимости результативного признака с исследуемым фактором.

Например, при изучении зависимости себестоимости добычи угля от объема добычи парный коэффициент корреляции оказался равным -0,75, характеризуя довольно тесную обратную связь признаков. Частный коэффициент корреляции этой зависимости при постоянном влиянии уровня производительности труда составил -0,58 и демонстрирует хотя и достаточную, но уже заметно менее тесную связь себестоимости и объема добычи. Закрепив на постоянном уровне также и размер основных фондов, теснота связи рассматриваемых признаков оказывается еще более низкой, т. е. -0,52.

Хотя частная корреляция разных порядков и может представлять аналитический интерес, в практических исследованиях предпочтение отдают показателям частной корреляции самого высокого порядка, ибо именно эти показатели являются дополнением к уравнению множественной регрессии.

В общем виде при наличии факторов для уравнения

Коэффициент частной корреляции, измеряющий влияние на у фактора x_i при неизменном уровне других факторов, можно определить по формуле

(3.23)

Где - множественный коэффициент детерминации всего комплекса факторов с результатом;

- тот же показатель детерминации, но без введения в модель фактора x_i.

При i=1 формула коэффициента частной корреляции примет вид:

(3.24)

Данный коэффициент частной корреляции позволяет измерить тесноту связи между y и x₁ при неизменном уровне всех других факторов, включенных в уравнение регрессии.

Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Например, - коэффициент частной корреляции первого порядка. Соответственно коэффициенты парной корреляции называются коэффициентами нулевого порядка. Коэффициенты частной корреляции более высоких порядков можно определить через коэффициенты частной корреляции более низких порядков по рекуррентной формуле

При двух факторах и i=1 данная формула примет вид:

Соответственно при i=2 и двух факторах частный коэффициент корреляции у с фактором x₂ можно определить по формуле

Для уравнения регрессии с тремя факторами частные коэффициенты корреляции второго порядка определяются на основе частных коэффициентов корреляции первого порядка. Так, по уравнению

Возможно исчисление трех частных коэффициентов корреляции второго порядка:

Каждый из которых определяется по рекуррентной формуле.

Например, при i=1 имеем формулу для расчета , а именно

Пример. Предположим, изучается зависимость тиража газеты у от ожидаемого дохода от распродажи газеты x₁, количества персонала редакции x₂, рейтинга газеты среди других газет, распространяемых в регионе x₃. в этом случае матрица парных коэффициентов корреляции составила:

Исходя из этих данных, найдем частные коэффициенты корреляции первого и второго порядка.

Приведем частные коэффициенты корреляции первого порядка зависимости y от x₁ и x₂.