Методика проведения анализа на основе построения уравнения многофакторной линейной регрессии

По данным 25 хозяйств Орловской области изучить зависимость между выходом валовой продукции на 100 га сельскохозяйственных угодий (тыс. руб.) и факторами:

1. Среднегодовой заработок 1 работника сельскохозяйственного предприятия (тыс. руб.), х1.

2. Удельный вес работников, занятых в сельскохозяйственном производстве в общей численности работников предприятия (%), х2.

3. Удельный вес производственных основных фондов в общей стоимости всех основных средств в общей стоимости всех основных средств (%), х3.

Таблица 4.1. – Показатели деятельности сельскохозяйственных предприятий

№ п/п у х1 х2 х3
116,5 6,93 93,62 89,41
96,1 5,25 91,94 100,00
296,2 11,31 95,33 82,66
…. ...
266,2 12,22 60,83 77,30
5902,7 352,00 2279,16 2080,38
Ср.знач. 236,1 14,08 91,17 83,22

Ход решения:

1) Вычислим описательные статистики. Проверим характер распределения признаков, удалив при необходимости аномальные наблюдения (таблица 4.3.).

Таблица 4.2. – Расчетные величины

№ п/п
51,10 6,01 38,40 14317,26 147,54 966,45
78,05 0,59 281,73 19615,01 114,66 346,12
7,65 17,31 0,31 3605,30 203,84 8521,03
3,46 920,38 34,94 904,81 247,56 346,87
766,79 1319,33 3189,60 196149,76 5902,25 100056,58
Ср. 30,67 52,77 127,58 7845,99 236,09 4002,26

Коэффициенты вариации близки, либо меньше допустимого уровня 30 – 35%, что свидетельствует об однородности совокупностей и близости распределений к нормальному. Поэтому целесообразно применять МНК к изучению данных признаков.

Таблица 4.3. – Характеристики ряда распределения.

фактор Среднее значение σ ν
формула вычисления формула вычисления формула вычисления
х1            
х2      
х3      
у            

 

2) Определим парные коэффициенты корреляции и детерминации, воспользовавшись формулами:

; ; ; и данными таблицы 4.4.

Таблица 4.4 – Расчетные величины, необходимые для вычисления парных коэффициентов корреляции

ух1 ух2 ух3 х1х2 х1х3 х2х3
807,23 10901,97 10412,30 648,94 619,79 8370,50
503,86 8830,78 9605,41 482,26 524,56 9193,55
3350,58 28231,29 24479,91 1078,50 935,19 7879,74
3252,76 16191,83 20577,35 743,31 944,64 4702,29
Σ 91288,66 535998,76 487219,92 32045,55 29396,81 1900092,62
Ср.знач. 3651,55 21439,95 19488,80 1281,82 1175,87 7603,70

1. Зависимость между у и х1 (валовой продукцией на 100 га сельхозугодий и среднегодового заработка работника предприятия).

Уравнение регрессии показывает, что с увеличением х1 на 1 тыс. руб. у увеличивается в среднем на 10,66 тыс. руб. Зависимость между факторами прямая и сильная. Вариация у на 44,89% объясняется вариацией х1.

2. Зависимость между у и х2 (валовой продукцией на 100 га сельхозугодий и удельным весом работников сельскохозяйственного производства).

Уравнение регрессии показывает, что с увеличением х2 на 1% у уменьшается в среднем на 1,618 тыс. руб. Зависимость между факторами обратная и слабая. Вариация у на 1,69% объясняется вариацией х2.

3. Зависимость между у и х3 (валовой продукцией на 100 га сельхозугодий и удельным весом производственных основных средств в общей их стоимости).

Уравнение регрессии показывает, что с увеличением х3 на 1% у уменьшается на 1,249 тыс. руб. в среднем. Зависимость между факторами обратная и слабая. Вариация у на 2,53% объясняется вариацией х3.

4. Зависимость между х1 и х2 (среднегодовым заработком работников предприятия и удельным весом работников сельскохозяйственного производства).

Уравнение регрессии показывает, что с увеличением х2 на 1% х1 уменьшается на 0,035 тыс. руб. в среднем. Зависимость между факторами обратная и очень слабая. Вариация х1 на 0,2% объясняется вариацией х2.

5. Зависимость между х1 и х3 (среднегодовым заработком работников предприятия и долей производственных основных средств).

Уравнение регрессии показывает, что с увеличением х3 на 1% х1 увеличивается в среднем на 0,0324тыс. руб. Зависимость между факторами прямая и очень слабая. Вариация х1 на 0,44% объясняется вариацией х3.

6. Зависимость между х2 и х3 (удельным весом работников сельхоз. предприятия и долей производственных основных фондов).

Уравнение регрессии показывает, что с увеличением х3 на 1% х2 увеличивается на 0,129% в среднем. Зависимость между факторами прямая и слабая. Вариация х2 на 4% объясняется вариацией х3.

Построим матрицу парных коэффициентов корреляции.

 

Таблица 4.5– Матрица парных коэффициентов корреляции.

признаки у, х1 х2 х3
у 0,67 -0,13 -0,159
х1   -0,046 -0,066
х2     0,2
х3      

Коэффициенты корреляции между факторными признаками не превышают 0,7. Следовательно, явно коллинеарных факторов нет и все три фактора войдут в модель.

 

3) Построим уравнение множественной регрессии. Для определения коэффициентов условной чистой регрессии решим систему нормальных уравнений:

Для решения данной системы построим вспомогательную таблицу 4.6.

Уравнение множественной регрессии в данном случае будет иметь вид:

Подставив в систему рассчитанные значения, получим:

 

 

Уравнение множественной регрессии имеет вид:

Коэффициенты условной чистой регрессии bj измеряют влияние отдельных факторов на результат, абстрагируясь от влияния других факторов. Данные коэффициенты являются именованными числами, выраженными в единицах измерения факторов. Поэтому они не сравнимы между собой.

4) Для приведения условных чистых коэффициентов регрессии в сравнимый вид рассчитаем стандартизированные коэффициенты регрессии:

,.

При отклонении х1 на 1 σ (при неизменных х2 и х3) у увеличится на 0,68σ.

При отклонении х2 на 1σ (при неизменных х1 и х3) у уменьшится в среднем на 0,06σ.

При отклонении х3 на 1σ (при неизменных х1 и х2) у уменьшится в среднем на 0,19σ.

По величине стандартизованных коэффициентов регрессии можем ранжировать факторы по силе влияния на результативный признак. Наибольшее влияние на выход валовой продукции на 100 га сельхозугодий оказывает среднегодовой заработок работников, далее по силе влияния следует удельный вес производственных основных средств в общей стоимости всех основных средств. Наименьшее влияние на результативный признак оказывает доля работников сельского хозяйства в общей численности работников предприятия.

Рассчитаем средние частные коэффициенты эластичности:

При изменении фактора х1 на 1% от своей средней величины фактор у изменяется на 0,646% его средней величины.

При изменении фактора х2 на 1% от своей средней величины фактор у изменяется на 0,29% его средней величины.

При изменении фактора х3 на 1% от своей средней величины фактор у изменяется на 0,529% его средней величины.

5) Рассчитаем коэффициенты множественной детерминации:

Вариация у на 50,98% объясняется вариацией всех факторов, входящих в модель.

Связь прямая и сильная.

Рассчитаем коэффициенты раздельной детерминации:

0,49≈0,5

Таким образом за счет х1 объясняется 45,56% вариации у, за счет х2 – 0,78% и за счет х3 – 3,02%.

Рассчитаем коэффициенты частной детерминации и частной корреляции:

Включение фактора х1 позволило на 49,19% снизить необъясненную часть вариации у, включение фактора х2 – на 8,97%, а фактора х3 на 9,4%.

 

; ; .

Роль системного эффекта чрезвычайно слабая.

6) Оценим значимость параметров регрессии с помощью t-критерия Стьюдента:

tтабл = 2,0796 при n-k-1 (21) степенях свободы и с вероятностью 0,95.

tф > tтабл. - следовательно связь надежная, а коэффициент множественной корреляции и параметры уравнения регрессии являются статистически значимыми.

7) С помощью F-критерия Фишера оценим статистическую надежность уравнения регрессии и коэффициента множественной корреляции.

Таблица 4.7 – Дисперсионный анализ

дисперсия Сумма квадратов отклонений, S Количество степеней свободы, df Дисперсия на 1 степень свободы, D
Общая n – 1 = 24 8172,9
Факторная (объясненная) k=3 32052,48
Остаточная n – k – 1 = 21 4764,6

Fтабл. = 3,07 с вероятностью 0,95 и при k1 = 34, k2 = 21.

Fфакт. > Fтабл. – следовательно, уравнение регрессии статистически надежно, а коэффициент множественной детерминации статистически значим.

Сравним значения коэффициентов множественной детерминации:

Корректированный коэффициент детерминации меньше, чем некорректированный, поскольку исключение слабого фактора всегда снижает некорректированный коэффициент детерминации.

8) Найдем частные F–критерии Фишера:

Fтабл. = 4,32 при k1 = 1 и k2 = n – k – 1 (21) и уровне значимости 0,05.

>-- следовательно, дополнительное включение фактора х1 после факторов х2 и х3 в модель статистически оправданно и коэффициент чистой регрессии b1 статистически значим.

<- следовательно, дополнительное включение фактора х2 в модель после факторов х1 и х3 не увеличивает существенно долю объясненной вариации признака у и включать фактор х2 в модель целесообразно, а коэффициент регрессии при х2 статистически незначим.

<- следовательно, дополнительное включение фактора х3 в модель после факторов х1 и х2 не увеличивает существенно долю объясненной вариации признака у и включать фактор х3 в модель целесообразно, а коэффициент b3 при х3 статистически незначим.

Таким образом, построенная модель множественной регрессии надежна, а коэффициент множественной детерминации статистически значим.

Главную роль в вариации результативного признака у (выход валовой продукции на 100 га сельскохозяйственных угодий) сыграла вариация факторного признака х1 (среднегодовой заработок 1 работника сельскохозяйственного предприятия); а добавление факторных признаков х2 (удельный вес работников, занятых в сельскохозяйственном производстве в общей численности работников предприятия) и х3 (удельный вес производственных основных средств) мало увеличило необъясненную вариацию у.