Решение
В нашем случае зависимость товарооборота за месяц характеризуется следующим уравнением:
.
Параметры уравнения множественной регрессии оцениваются методом наименьших квадратов. Система нормальных уравнений имеет вид:
.
Для того чтобы получить систему нормальных уравнений, составим таблицу 1.
Таблица 1 – Исходные и расчетные данные для примера построения множественной регрессии
n | x1 | x2 | y | x12 | x22 | y2 | yx1 | yx2 | x1x2 |
61,26 | 74,04 | 786,40 | 3752,28 | 5482,53 | 618420,33 | 48171,45 | 58228,08 | 4535,64 | |
65,77 | 68,82 | 837,13 | 4325,38 | 4736,68 | 700790,58 | 55056,23 | 57614,40 | 4526,36 | |
66,72 | 67,43 | 875,74 | 4451,83 | 4546,33 | 766912,31 | 58430,86 | 59047,74 | 4498,83 | |
78,09 | 62,35 | 912,13 | 6097,77 | 3887,89 | 831985,43 | 71226,81 | 56874,13 | 4869,03 | |
78,70 | 67,50 | 993,75 | 6193,00 | 4556,25 | 987539,06 | 78203,74 | 67078,13 | 5311,95 | |
78,78 | 70,96 | 1021,32 | 6206,66 | 5034,74 | 1043101,75 | 80462,27 | 72468,91 | 5590,07 | |
81,82 | 81,99 | 1033,46 | 6694,37 | 6721,59 | 1068031,06 | 84556,45 | 84728,18 | 6707,96 | |
82,43 | 55,66 | 1084,19 | 6794,12 | 3098,23 | 1175470,51 | 89366,05 | 60347,99 | 4588,00 | |
83,12 | 76,99 | 1147,06 | 6909,03 | 5926,74 | 1315743,94 | 95344,20 | 88306,66 | 6399,06 | |
83,55 | 75,96 | 1170,22 | 6981,34 | 5769,30 | 1369416,23 | 97777,09 | 88885,14 | 6346,45 | |
84,86 | 80,66 | 1172,43 | 7200,52 | 6506,32 | 1374583,83 | 99487,28 | 94569,99 | 6844,63 | |
86,16 | 82,94 | 1174,63 | 7423,09 | 6879,24 | 1379761,16 | 101203,21 | 97425,39 | 7145,99 | |
87,11 | 83,01 | 1175,74 | 7588,46 | 6891,44 | 1382353,48 | 102420,38 | 97603,32 | 7231,56 | |
88,67 | 73,68 | 1192,28 | 7862,99 | 5428,22 | 1421530,20 | 105723,62 | 87842,94 | 6533,15 | |
90,50 | 77,21 | 1241,91 | 8189,45 | 5960,75 | 1542344,83 | 112387,54 | 95882,89 | 6986,79 | |
90,76 | 73,82 | 1249,63 | 8236,63 | 5449,91 | 1561581,02 | 113411,49 | 92252,27 | 6699,92 | |
91,54 | 85,07 | 1319,12 | 8378,98 | 7237,51 | 1740071,37 | 120747,76 | 112221,99 | 7787,36 | |
98,48 | 85,37 | 1336,76 | 9697,90 | 7287,64 | 1786939,88 | 131641,84 | 114116,46 | 8406,83 | |
107,24 | 80,88 | 1429,41 | 11500,67 | 6541,96 | 2043217,99 | 153291,80 | 115614,19 | 8673,92 | |
122,60 | 84,78 | 1448,16 | 15030,40 | 7187,55 | 2097172,50 | 177542,50 | 122774,30 | 10393,83 | |
Итого | 1708,14 | 1509,12 | 22601,47 | 149514,89 | 115130,80 | 26206967,45 | 1976452,57 | 1723883,11 | 130077,34 |
Итак, система нормальных уравнений имеет вид
Решим эту систему по методу Крамера. Вычисляем определитель системы:
= 63116109,08.
Аналогично вычисляем частные определители, заменяя соответствующий столбец столбцом свободных членов:
= -8788430890,31;
= 722640789,19;
= 243795572,83.
Коэффициенты уравнения определяются по формулам:
-8788430890,31/63116109,08 = -139,24;
722640789,19/63116109,08 = 11,45;
243795572,83/63116109,08 = 3,86.
Таким образом, уравнение имеет вид: -139,24 + 11,45 х1 + 3,86 х2.
Экономическая интерпретация параметров уравнения: с увеличением площади торгового зала на 1 кв.м и неизменных затратах на персонал товарооборот в среднем увеличивается на 11,45 тыс. руб. При неизменной площади торгового зала и увеличении затрат на персонал на 1 тыс.руб. товарооборот в среднем увеличивается на 3,86 тыс.руб.
Определим парные коэффициенты корреляции и .
При этом воспользуемся следующими формулами:
, , , , , . В нашем случае | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
85,41; 75,46; 1130,07; 98822,63; 86194,16; 6503,87. Для расчета , и составим вспомогательную таблицу 2.
Таблица 2 – Вспомогательная таблица для расчета , и
= = 13,47; = = 7,93; = = 182,43. Теперь определим парные коэффициенты корреляции. = = 0,9387; = 0,6380; = 0,5556. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Подставив в уравнение регрессии значения х1 и х2, получим теоретические значения y, т.е. , а также = y - и (табл. 3).
Таблица 3 – Расчет индекса множественной корреляции
Для вычисления индекса множественной корреляции воспользуемся следующей формулой В нашем случае индекс множественной корреляции составит = 0,9490; Тогда = 0,94902 = 0,9007.
Вывод о тесноте связи результата с факторами и объясняемости вариации результата: согласно шкале Чеддока теснота связи между товарооборотом, затратами на персонал и площадью торгового зала весьма высокая, т.е. затраты на персонал и площадь торгового зала – одни из главных факторов, от которых зависит размер товарооборота. Значение коэффициента детерминации свидетельствует о том, что товарооборот на 90% зависит от факторов, включенных в модель (затрат на персонал и площади торгового зала), и на 10% - от прочих факторов, не включенных в модель. Значимость уравнения множественной регрессии в целом оценивается с помощью с помощью F-критерия Фишера:
где R - индекс множественной корреляции (тоже, что и ); n - число наблюдений; m - число параметров при переменных х (в линейной регрессии совпадает с числом включенных в модель факторов). В нашем случае = 77,07. По таблице определяем , которое составляет 3,59. Вывод: поскольку табличное значение критерия Фишера меньше расчетного, уравнение регрессии статистически значимо. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Уравнение регрессии в стандартизованном масштабе строится на основе матрицы парных коэффициентов корреляции:
где - стандартизованные переменные: , для которых среднее значение равно нулю, а среднее квадратическое значение равно единице; - стандартизованные коэффициенты регрессии. Применяя МНК к уравнению множественной регрессии в стандартизованном масштабе, после соответствующих преобразований получим систему нормальных уравнений вида для определения стандартизованных коэффициентов регрессии.
|
В нашем случае система нормальных уравнений имеет вид:
Окончательно получаем уравнение регрессии в стандартизованном масштабе в виде:
.
Из уравнения регрессии в стандартизованном масштабе можно сделать вывод, что площадь торгового зала является более значимым фактором, чем затраты на персонал, поскольку .
Рассчитаем индексы множественной корреляции и детерминации для линейного уравнения регрессии в стандартизованном масштабе.
= 0,9490.
Сравниваем индекс множественной корреляции с парными индексами корреляции:
.
Следовательно, включение обоих факторов в уравнение множественной регрессии является обоснованным.
0,9007.
Матрица парных коэффициентов корреляции в нашем случае имеет вид:
y | х1 | х2 | |
y | 0,9387 | 0,6380 | |
х1 | 0,9387 | 0,5556 | |
х2 | 0,6380 | 0,5556 |
Определитель матрицы парных коэффициентов регрессии составляет
Det |R| = = 0,6908.
Вывод: значение определителя близко к единице, что свидетельствует о слабой взаимной коррелированности объясняющих переменных.
Наиболее значимый фактор – это площадь торгового зала, т.к. ryx1 > ryx2.
Предположим, что зависимость товарооборота за месяц характеризуется уравнением .
Параметры a и b найдем из следующей системы уравнений
где n – число наблюдений.
Расчет производных данных для корреляционного анализа произведем в таблице 4.
Таблица 4 – Расчет производных данных для корреляционного анализа
n | x | y | xy | x2 | y2 |
61,26 | 786,40 | 48171,45 | 3752,28 | 618420,33 | |
65,77 | 837,13 | 55056,23 | 4325,38 | 700790,58 | |
66,72 | 875,74 | 58430,86 | 4451,83 | 766912,31 | |
78,09 | 912,13 | 71226,81 | 6097,77 | 831985,43 | |
78,70 | 993,75 | 78203,74 | 6193,00 | 987539,06 | |
78,78 | 1021,32 | 80462,27 | 6206,66 | 1043101,75 | |
81,82 | 1033,46 | 84556,45 | 6694,37 | 1068031,06 | |
82,43 | 1084,19 | 89366,05 | 6794,12 | 1175470,51 | |
83,12 | 1147,06 | 95344,20 | 6909,03 | 1315743,94 | |
83,55 | 1170,22 | 97777,09 | 6981,34 | 1369416,23 | |
84,86 | 1172,43 | 99487,28 | 7200,52 | 1374583,83 | |
86,16 | 1174,63 | 101203,21 | 7423,09 | 1379761,16 | |
87,11 | 1175,74 | 102420,38 | 7588,46 | 1382353,48 | |
88,67 | 1192,28 | 105723,62 | 7862,99 | 1421530,20 | |
90,50 | 1241,91 | 112387,54 | 8189,45 | 1542344,83 | |
90,76 | 1249,63 | 113411,49 | 8236,63 | 1561581,02 | |
91,54 | 1319,12 | 120747,76 | 8378,98 | 1740071,37 | |
98,48 | 1336,76 | 131641,84 | 9697,90 | 1786939,88 | |
107,24 | 1429,41 | 153291,80 | 11500,67 | 2043217,99 | |
122,60 | 1448,16 | 177542,50 | 15030,40 | 2097172,50 | |
Итого | 1708,14 | 22601,47 | 1976452,57 | 149514,89 | 26206967,45 |
Подставим полученные значения в систему уравнений и получим:
Из системы находим, что a = 44,17, b = 12,71.
Уравнение регрессии имеет вид 44,17 + 12,71х.
Экономическая интерпретация коэффициента регрессии: с увеличением площади торгового зала на 1 кв.м товарооборот увеличится в среднем на 12,71 тыс.руб.
Найдем коэффициент корреляции
rxy = =
= = 0,9387.
Вывод по коэффициенту корреляции: согласно шкале Чеддока теснота связи между товарооборотом и площадью торгового зала весьма высокая.
Возведем коэффициент корреляции в квадрат, получим коэффициент детерминации, равный 0,8812, откуда можно сделать вывод о том, что товарооборот на 88,12% зависит от площади торгового зала и на 11,88% - от прочих факторов, не включенных в модель.
Для оценки значимости уравнения регрессии составим вспомогательную таблицу 5.
Таблица 5 – Вспомогательная таблица для оценки значимости уравнения регрессии
n | x | y | (y - )2 | ( - )2 | (y - )2 | ( - )2 | |
61,26 | 786,40 | 823,01 | 118113,52 | 94290,47 | 1340,21 | 583,27 | |
65,77 | 837,13 | 880,37 | 85814,53 | 62351,42 | 1869,57 | 385,70 | |
66,72 | 875,74 | 892,51 | 64687,94 | 56438,45 | 281,25 | 349,12 | |
78,09 | 912,13 | 1037,02 | 47498,36 | 8658,76 | 15597,20 | 53,56 | |
78,70 | 993,75 | 1044,74 | 18584,10 | 7281,25 | 2600,32 | 45,04 | |
78,78 | 1021,32 | 1045,85 | 11826,56 | 7094,20 | 601,37 | 43,88 | |
81,82 | 1033,46 | 1084,46 | 9334,97 | 2080,83 | 2601,16 | 12,87 | |
82,43 | 1084,19 | 1092,18 | 2105,19 | 1435,95 | 63,82 | 8,88 | |
83,12 | 1147,06 | 1101,00 | 288,50 | 844,98 | 2120,96 | 5,23 | |
83,55 | 1170,22 | 1106,52 | 1611,79 | 554,73 | 4057,66 | 3,43 | |
84,86 | 1172,43 | 1123,07 | 1793,77 | 49,07 | 2436,22 | 0,30 | |
86,16 | 1174,63 | 1139,62 | 1985,49 | 91,06 | 1226,15 | 0,56 | |
87,11 | 1175,74 | 1151,75 | 2085,00 | 469,91 | 575,25 | 2,91 | |
88,67 | 1192,28 | 1171,61 | 3869,57 | 1725,10 | 427,31 | 10,67 | |
90,50 | 1241,91 | 1194,77 | 12507,79 | 4186,21 | 2221,92 | 25,90 | |
90,76 | 1249,63 | 1198,08 | 14294,31 | 4625,42 | 2657,23 | 28,61 | |
91,54 | 1319,12 | 1208,01 | 35737,68 | 6074,49 | 12344,35 | 37,58 | |
98,48 | 1336,76 | 1296,27 | 42721,24 | 27620,00 | 1640,13 | 170,85 | |
107,24 | 1429,41 | 1407,69 | 89603,38 | 77068,91 | 471,99 | 476,74 | |
122,60 | 1448,16 | 1602,95 | 101180,13 | 223609,89 | 23958,66 | 1383,22 | |
Итого | 1708,14 | 22601,47 | 22601,47 | 665643,81 | 586551,10 | 79092,72 | 3628,33 |
Рассчитаем дисперсии на одну степень свободы.
= 665643,81/19 = 35033,88; | |
= 586551,10; | |
= 79092,72/18 = 4394,04. |
Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F-отношения, т.е. критерий F:
= 586551,10/4394,04 = 133,49. |
Вычисленное значение F-отношения признается достоверным (отличным от единицы), если оно больше табличного. В этом случае нулевая гипотеза об отсутствии связи признаков отклоняется и делается вывод о существовании этой связи:
Fфакт. > Fтабл., Н0 отклоняется. |
Если же величина F окажется меньше табличной, то вероятность нулевой гипотезы выше заданного уровня и она не может быть отклонена без риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически значимым:
Fфакт. < Fтабл., Н0 не отклоняется. |
Вывод о значимости уравнения регрессии: поскольку Fфакт. > Fтабл., уравнение регрессии является статистически значимо.
Найдем стандартную ошибку коэффициента регрессии параметра mb
mb = = 1,10. |
Отношение коэффициента регрессии к его стандартной ошибке дает t-статистику, которая подчиняется статистике Стьюдента при (n-2) степенях свободы. Эта статистика применяется при проверке статистической значимости коэффициента регрессии и для расчета его доверительных интервалов.
Для оценки значимости коэффициента регрессии его величину сравнивают с его стандартной ошибкой, т.е. определяют фактическое значение t-критерия Стьюдента:
tb= , |
которое затем сравнивают с табличным значением при определенном уровне значимости и числе степеней свободы (n-2).
В нашем случае фактическое значение t-критерия для коэффициента регрессии составило:
tb= = 11,55.
При =0,05 (для двустороннего критерия) и числе степеней свободы 18 табличное значение t = 2,1009.
Вывод о существенности коэффициента регрессии: поскольку 11,55>2,1009, коэффициент регрессии статистически значим.
Доверительный интервал для коэффициента регрессии определяется как b . Для коэффициента регрессии b в нашем случае 95%-ные границы составят:
12,71-2,1009*1,10 = 10,40;
12,71+2,1009*1,10 = 15,03.
Доверительный интервал: [10,40;15,03].
Найдем стандартную ошибку параметра a
|
Процедура оценивания значимости данного параметра не отличается от рассмотренной выше для коэффициента регрессии: вычисляется t-критерий:
ta= , |
его величина сравнивается с табличным значением при df = n-2 степенях свободы.
Фактическое значение t-критерия для данного параметра составило:
ta= 44,17/95,15 = 0,46.
Вывод о существенности параметра a: поскольку 2,1009>0,46, параметр регрессии статистически не значим.
Доверительный интервал для коэффициента регрессии определяется как a . Для коэффициента регрессии a в нашем случае 95%-ные границы составят:
44,17-2,1009*95,15 = -155,73;
44,17+2,1009*95,15 = 244,07.
Доверительный интервал: [-155,73; 244,07].
Для оценки значимости коэффициента корреляции введем вспомогательную величину z, связанную с коэффициентом корреляции следующим отношением:
z = 0,5ln = 0,5ln = 1,73. |
Стандартная ошибка величины z составит
mz = = = 0,24. |
где n – число наблюдений.
Далее выдвигаем нулевую гипотезу о том, что корреляция отсутствует, т.е. теоретическое значение коэффициента корреляции равно нулю. Коэффициент корреляции значимо отличен от нуля, если z / mz = tz > , т.е. фактическое значение tz превышает его табличное значение на уровне значимости = 0,05.
В нашем случае
tz = 1,73/0,24 = 7,2 при = 2,1009.
Вывод о значимости коэффициента корреляции: поскольку 2,1009 < 7,2, коэффициент регрессии статистически значим.