Практикум

Задача 1. Оценить регрессию, построить график, найти коэффициент корреляции, стандартные ошибки коэффициентов регрессии, дать интерпретацию уравнению регрессии и коэффициентов корреляции.

А)

x 1351.7 1369.3 1479.1 1682.5 1799.0 1924.5 2046.0
y 117,9 122,5 125,5 129,2 134,3 138,4 141,0

Здесь х – совокупные личные доходы;

y – текущие расходы на одежду, среднестатистической американской семьи с 1976 по 1982 г.

 

Оценим регрессию

y=78,967+0.031x

 

Найдем коэффициент корреляции:

rxy=0.986

 

Построим график:

Вывод: С каждого дополнительного доллара американская семья в период 1976-1982 г. тратила 3,1 центов на текущие расходы на одежду.

 

Б)

x 1351.7 1369.3 1479.1 1682.5 1799.0 1924.5 2046.0
y 164,3 173,7 181,3 243,2 337,9 376,4 356,6

Здесь х – совокупные личные доходы;

y – текущие расходы на бензин, среднестатистической американской семьи с 1976 по 1982 г.

 

Оценим регрессию

y=-281,825+0.327x

Найдем коэффициент корреляции:

rxy=0.962

Построим график:

Вывод: С каждого дополнительного доллара американская семья в период 1976-1982 г. тратила 32,7 центов на текущие расходы на бензин.

 

Задача 2. Вычислить коэффициенты регрессии общей суммы налогового сбора (переменная y) на сумму поступлений налога на добавленную стоимость (х) данным:

Время наблюдения y, млрд. руб. x, млрд. руб. xi2 yi2 xiyi
январь 38,9 13,4 179,56 1513,21 521,26
февраль 45,3 15,4 237,16 2052,09 697,62
март 61,1 16,7 278,89 3733,21 1020,37
апрель 70,4 16,2 262,44 4956,16 1140,48
май 63,8 13,0 4070,44 829,4
июнь 67,7 15,0 4583,29 1015,5
июль 70,6 20,8 432,64 4984,36 1468,48
август 78,9 16,4 268,96 6225,21 1293,96
сентябрь 73,2 17,4 302,76 5358,24 1273,68
октябрь 78,1 23,6 556,96 6099,61 1843,16
ноябрь 103,0 23,9 571,21 2461,7
декабрь 133,4 34,4 1183,36 17795,56 4588,96
Σ 884,4 226,1 4667,94 71980,4 18154,6
среднее          

 

График уравнения регрессии y на x выглядит следующим образом:

 
 

 


Задача 3. у= b +ах b и а - ?

а = nåxy-åx*åy

nåx2-(åx)2 Þ Þ Þ Þ

b = åy-båx

n ß

Х Y X2 XY
-3 -0,71 2,13
-2 -0,1 0,02
-1 0,51 -0,51
0,82
0,88 0,88
0,81 1,62
0,49 1,47
Сум å 2,79 5,61

 

а = 7*5,61-0*2,79 = 39,27 = 0,20 y= b +аx

7*28-02 196 y= 0,40+0,20x

 

b = 2,79-(0,20)*0 = 0,40 -уравнение линейной регрессии

 

Задача 4. х - мощность пласта, у - смена добычи угля.

 

Х Y X2 XY
Сум å

 

a = 10*664-94*68 = 1.02

10*908-(94)2

 

b = 68-(-2,75)*94 = -2.75

10

Уравнение регрессии

y= 1,02x-2,75.

 

Коэфф. корреляции

R= n*åxy-åxåy = 10*664 - 94*68 =0.866

Ö(n*åx2-(x)2)(n*åy2-(åy)2) Ö(10*908-(94)2)(10*496-(68)2)

 

return false">ссылка скрыта

Связь между Х и Y ближе к линейной.

Коэфф. детерминации R2 ½R½£1

Þ 0.8662 = 0.749 Þ на 74,9% смена добычи угля зависит от мощности пласта и 25,1% от других факторов.

 

Задача 5. В таблице указаны парные коэффициенты корреляции. Проведите анализ целесообразности включения заданных факторов в уравнение множественной линейной регрессии.

 

 

  y x1 x2 x3 x4
y        
x1 0,71      
x2 0,58 0,53    
x3 0,08 0,2 0,13  
x4 0,62 0,81 0,3 0,25

РЕШЕНИЕ. Между y и x3 связь практически отсутствует. Между y и x1 связь сильная, между y и x2, x4 – умеренная.

Отсюда следует вывод о нецелесообразности включения фактора x3 в уравнение множественной линейной регрессии (коэффициент парной корреляции с у равен 0,08).

Между факторами x1 и x4 существует сильная прямая связь (коэффициент парной корреляции > 0,8). Для того, чтобы избежать явления мультиколлинеарности, один из этих факторов должен быть исключен из анализа. Исключается фактор x1, умеренно коррелирующий с x2 (коэффициент их парной корреляции равен 0,53).

Факторы, включенные в модель множественной регрессии: x2, x4.

 

Задача 6. По некоторым территориям районов края известны значения средней суточного душевого дохода в у.е. (фактор X) и процент от общего дохода, расходуемого на покупку продовольственных товаров (фактор Y).

Требуется для характеристики зависимости У от X рассчитать параметры линейной, степенной, показательной функции и выбрать оптимальную модель (провести оценку моделей через среднюю ошибку аппроксимации (А) и F-критерий Фишера.

Район у х
Пожарский (1) 68,8 45,1 61,277 7,5231 11,4989 56,5970
Кавалеровский (2) 61,2 59,0 56,4689 4,7311 2,00817 22,3833
Дальнегорский (3) 59,9 57,2 57,0915 2,8085 0,63123 7,88767
Хасанский (4) 56,7 61,8 55,5004 1,1996 5,69109 1,43904
Лесозаводский (5) 55,0 58,8 56,5381 1,5381 1,81683 2,36575
Хорольский (6) 54,3 47,2 60,5505 6,2505 7,09956 39,0687
Анучинский (7) 49,3 55,2 57,7833 8,4833 0,01055 71,9664
итого 405,2     32,534 28,7563 201,708
среднее 57,886     4,6477    

 

РЕШЕНИЕ.

1а. Для расчета параметров а и b линейной регрессии у=аx+ b решаем систему нормальных уравнений относительно а и b (или используем EXCEL).

Получаем уравнение регрессии: у = 76,88 – 0,35x.

С увеличением среднедневной заработной платы на 1 руб. доля расходов на покупку продовольственных товаров снижается в среднем на 0,35 %-ных пункта.

Рассчитаем линейный коэффициент парной корреляции: r= -0,35326.

Связь умеренная, обратная.

Определим коэффициент детерминации:

R2 = 0,1248.

Вариация результата на 12,5% объясняется вариацией фактора х. Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчетные) значения (см.табл.).

Найдем величину средней ошибки аппроксимации А:

(4,647744/57,88571)´100%=0,080292.

В среднем расчетные значения отклоняются от фактических на 8,03%.

Рассчитаем F-критерий:

Fтабл = 6,6 > Fфакт, при γ = 0,05.

Полученное значение указывает на необходимость принять гипотезу Н0 о случайной природе выявленной зависимости и статистической незначимости параметров уравнения и показателя тесноты связи.

1б. Построению степенной модели у= bxа предшествует процедура линеаризации переменных. Линеаризация производится путем логарифмирования обеих частей уравнения:

lgy = lg b + a lgх , или Y = С + аХ,

где Y = lg(y), X = lg(x), C = lg(b).

Для расчетов используем формулы для линейной регрессии(или используем EXCEL).

Получим уравнение: у = 190,03х-0,2984 . R2 =0,1157.

Характеристики степенной модели указывают, что она несколько хуже линейной функции описывает взаимосвязь.

1в. Построению уравнения показательной кривой у=х предшествует процедура линеаризации переменных при логарифмировании обеих частей уравнения:

lgy = lg b + хlgа , или Y = С + хlgа, и опять же можно использовать формулы для линейной регрессии(или EXCEL).

Получим уравнение: у = 77,24е-0,0053х . R2 =0,1026.

Показательная функция еще хуже, чем степенная, описывает изучаемую зависимость.

1г. Уравнение равносторонней гиперболы у=а/x+ b линеаризуется при замене: x = 1/z .

Тогда у=аz+b. Для расчетов используем формулы для линейной регрессии(или используем EXCEL).

Получено уравнение: у = 38,435 + 1054.7/x. R2 =0.1539.

По уравнению равносторонней гиперболы получена наибольшая оценка тесноты связи (по сравнению с линейной, степенной и показательной регрессиями). A остается на допустимом уровне: 8,1%.

Следовательно, принимается гипотеза Н0 о статистически незначимых параметрах этого уравнения. Этот результат можно объяснить сравнительно невысокой теснотой выявленной зависимости и небольшим числом наблюдений.

 

Задача 7. Построить модель связи между указанными факторами, проверить её адекватность, осуществить точечный и интервальный прогноз методом экстраполяции.

7.1. Исходные данные отложить на координатной плоскости и сделать предварительное заключение о наличии связи.

Таблица 1 Диаграмма 1

x y
2,1 29,5
2,9 34,2
3,3 30,6
3,8 35,2
4,2 40,7
3,9 44,5
5,0 47,2
4,9 55,2
6,3 51,8
5,8 56,7

 

Вывод: Из диаграммы 1 видно, что связь между факторами x и y

прямая сильная линейная связь.

7.2. Рассчитайте линейный коэффициент корреляции. Используя t-критерий Стьюдента, проверьте значимость коэффициента корреляции. Сделайте вывод о тесноте связи между факторами х и у.

Таблица2

xy
2,1 29,5 4,41 870,25 61,95 27,91 1,59 0,054
2,9 34,2 8,41 1169,64 99,18 33,46 0,74 0,022
3,3 30,6 10,89 936,36 100,98 36,23 -5,63 0,184
3,8 35,2 14,44 1239,04 133,76 39,69 -4,49 0,128
4,2 40,7 17,64 1656,49 170,94 42,47 -1,77 0,043
3,9 44,5 15,21 1980,25 173,55 40,39 4,11 0,092
5,0 47,2 2227,84 48,01 -0,81 0,017
4,9 55,2 24,01 3047,04 270,48 47,32 7,88 0,143
6,3 51,8 39,69 2683,24 326,34 57,02 -5,22 0,101
5,8 56,7 33,64 3214,89 328,86 53,55 3,15 0,056
ИТОГО: 42,2 193,34 19025,04 1902,04   0,840
Среднее зн. 4,22 42,56 19,334 1902,504 190,204      

 

7.2.1.Проверим тесноту связи между факторами:

 

;

Вывод: связь сильная.

 

7.2.2.Проверим статистическую значимость по критерию Стьюдента:

1)Критерий Стьюдента: tвыб<=tкр

2)Но: r=0 tкр=2,31

tвыб=rвыб*

Вывод: таким образом поскольку tвыб=5,84<tкр=2,31, то с доверительной вероятностью

90% нулевая гипотеза отвергается, это указывает на наличие сильной линейной связи.

7.3. Полагая, что связь между факторами х и у может быть описана линейной функцией, используя процедуру метода наименьших квадратов, запишите систему нормальных уравнений относительно коэффициентов линейного уравнения регрессии. Любым способом рассчитайте эти коэффициенты.

Последовательно подставляя в уравнение регрессии из графы (2) табл.2, рассчитаем значения и заполним графу (7) табл.2

 

7.4. Для полученной модели связи между факторами Х и У рассчитайте среднюю ошибку аппроксимации. Сделайте предварительное заключение приемлемости полученной модели.

Для расчета заполним 8-ую и 9-ую графу табл.2

<Екр=12%

Вывод: модель следует признать удовлетворительной.

 

7.5. Проверьте значимость коэффициента уравнения регрессии a1 на основе t-критерия Стьюдента.

 

Решение: Таблица 3

         
2,1 29,5 27,91 2,5281 214,623 170,5636
2,9 34,2 33,46 0,5476 82,81 69,8896
3,3 30,6 36,23 31,6969 40,069 143,0416
3,8 35,2 39,69 20,1601 8,237 54,1696
4,2 40,7 42,47 3,1329 0,008 3,4596
3,9 44,5 40,39 16,8921 4,709 3,7636
47,2 48,01 0,6561 29,703 21,5296
4,9 55,2 47,32 62,0944 22,658 159,7696
6,3 51,8 57,02 27,2484 209,092 85,3776
5,8 56,7 53,55 9,9225 120,78 199,9396
ИТОГО: 42,2 425,6 426,1 174,8791 732,687 911,504
Среднее 4,22 42,56        

 

Статистическая проверка:

 


Вывод: С доверительной вероятностью 90% коэффициент a1- статистически значим, т.е. нулевая гипотеза отвергается.

 

 

7.6. Проверьте адекватность модели (уравнения регрессии) в целом на основе F-критерия Фишера-Снедекора.

Решение:

Процедура статистической проверки:

:модель не адекватна

Вывод: т.к. Fвыб.>Fкр., то с доверительной вероятностью 95% нулевая гипотеза отвергается (т.е. принимается альтернативная). Изучаемая модель адекватна и может быть использована для прогнозирования и принятия управленческих решений.

 

 

7.7. Рассчитайте эмпирический коэффициент детерминации.

Решение:

(таб. 3)

-показывает долю вариации.

Вывод: т.е. 80% вариации объясняется фактором включенным в модель, а 20% не включенными в модель факторами.

 

7.8. Рассчитайте корреляционное отношение. Сравните полученное значение с величиной линейного коэффициента корреляции.

Решение:

Эмпирическое корреляционное отношение указывает на тесноту связи между двумя факторами для любой связи, если связь линейная, то , т.е. коэффициент корреляции совпадает с коэффициентом детерминации.

7.9. Выполните точечный прогноз для .

Решение:

 

7.10-7.12. Рассчитайте доверительные интервалы для уравнения регрессии и для результирующего признака при доверительной вероятности =90%. Изобразите в одной системе координат:

а) исходные данные,

б) линию регрессии,

в) точечный прогноз,

г) 90% доверительные интервалы.

Сформулируйте общий вывод относительно полученной модели.

Решение:

-математическое ожидание среднего.

Для выполнения интервального прогноза рассматриваем две области.

1) для y из области изменения фактора x доверительные границы для линейного уравнения регрессии рассчитывается по формуле:

2) для прогнозного значения доверительный интервал для рассчитывается по формуле:

Исходные данные:

1) n=10

2) t=2,31(таб.)

3)

4)

5) : 27,91 42,56 57,02 66,72

6) 19,334-4,222)=1,53.

Таблица 4

                       
1 2,1 -2,12 4,49 3,03 1,74 2,31 4,68 18,81 27,91 9,10 46,72
4,22 0,00 0,00 0,1 0,32 2,31 4,68 3,46 42,56 39,10 46,02
6,3 2,08 4,33 2,93 1,71 2,31 4,68 18,49 57,02 38,53 75,51
7,7 3,48 12,11 9,02 2,31 4,68 32,43 66,72 34,29 99,15

 

Вывод: поскольку 90% точек наблюдения попало в 90% доверительный интервал, данная модель и ее доверительные границы могут использоваться для прогнозирования с 90% доверительной вероятностью.

 

Задача 8. Построить линейную множественную регрессию общей суммы налогов и платежей на общую сумму поступлений по налогу на добавленную стоимость (x1) и налогу на прибыль (доход) (x2).

Время наблюдения y, млрд. руб. x1, млрд. руб. x2, млрд. руб.
январь 38,9 5,6 13,4
февраль 45,3 6,7 15,4
март 61,1 13,1 16,7
I квартал 145,3 25,3 45,5
апрель 70,4 16,9 16,2
май 63,8 18,4
июнь 67,7 19,1
II квартал 201,9 54,4 44,2
I полугодие 347,2 79,8 89,7
июль 70,6 16,1 20,8
август 78,9 23,3 16,4
сентябрь 73,2 19,2 17,4
III квартал 222,7 58,6 54,6
9 месяцев 569,9 138,3 144,3
октябрь 78,1 16,1 23,6
ноябрь 31,8 23,9
декабрь 133,4 35,4 34,4
IV квартал 314,5 83,3 81,9
II полугодие 537,2 141,9 136,5
январь-декабрь 884,4 221,6 226,1
 

а0=-9.7

а1=1.84

а2=2.62

Полученное уравнение