Практикум
Задача 1. Оценить регрессию, построить график, найти коэффициент корреляции, стандартные ошибки коэффициентов регрессии, дать интерпретацию уравнению регрессии и коэффициентов корреляции.
А)
x | 1351.7 | 1369.3 | 1479.1 | 1682.5 | 1799.0 | 1924.5 | 2046.0 |
y | 117,9 | 122,5 | 125,5 | 129,2 | 134,3 | 138,4 | 141,0 |
Здесь х – совокупные личные доходы;
y – текущие расходы на одежду, среднестатистической американской семьи с 1976 по 1982 г.
Оценим регрессию
y=78,967+0.031x
Найдем коэффициент корреляции:
rxy=0.986
Построим график:
Вывод: С каждого дополнительного доллара американская семья в период 1976-1982 г. тратила 3,1 центов на текущие расходы на одежду.
Б)
x | 1351.7 | 1369.3 | 1479.1 | 1682.5 | 1799.0 | 1924.5 | 2046.0 |
y | 164,3 | 173,7 | 181,3 | 243,2 | 337,9 | 376,4 | 356,6 |
Здесь х – совокупные личные доходы;
y – текущие расходы на бензин, среднестатистической американской семьи с 1976 по 1982 г.
Оценим регрессию
y=-281,825+0.327x
Найдем коэффициент корреляции:
rxy=0.962
Построим график:
Вывод: С каждого дополнительного доллара американская семья в период 1976-1982 г. тратила 32,7 центов на текущие расходы на бензин.
Задача 2. Вычислить коэффициенты регрессии общей суммы налогового сбора (переменная y) на сумму поступлений налога на добавленную стоимость (х) данным:
Время наблюдения | y, млрд. руб. | x, млрд. руб. | xi2 | yi2 | xiyi |
январь | 38,9 | 13,4 | 179,56 | 1513,21 | 521,26 |
февраль | 45,3 | 15,4 | 237,16 | 2052,09 | 697,62 |
март | 61,1 | 16,7 | 278,89 | 3733,21 | 1020,37 |
апрель | 70,4 | 16,2 | 262,44 | 4956,16 | 1140,48 |
май | 63,8 | 13,0 | 4070,44 | 829,4 | |
июнь | 67,7 | 15,0 | 4583,29 | 1015,5 | |
июль | 70,6 | 20,8 | 432,64 | 4984,36 | 1468,48 |
август | 78,9 | 16,4 | 268,96 | 6225,21 | 1293,96 |
сентябрь | 73,2 | 17,4 | 302,76 | 5358,24 | 1273,68 |
октябрь | 78,1 | 23,6 | 556,96 | 6099,61 | 1843,16 |
ноябрь | 103,0 | 23,9 | 571,21 | 2461,7 | |
декабрь | 133,4 | 34,4 | 1183,36 | 17795,56 | 4588,96 |
Σ | 884,4 | 226,1 | 4667,94 | 71980,4 | 18154,6 |
среднее |
График уравнения регрессии y на x выглядит следующим образом:
Задача 3. у= b +ах b и а - ?
а = nåxy-åx*åy
nåx2-(åx)2 Þ Þ Þ Þ
b = åy-båx
n ß
№ | Х | Y | X2 | XY |
-3 | -0,71 | 2,13 | ||
-2 | -0,1 | 0,02 | ||
-1 | 0,51 | -0,51 | ||
0,82 | ||||
0,88 | 0,88 | |||
0,81 | 1,62 | |||
0,49 | 1,47 | |||
Сум å | 2,79 | 5,61 |
а = 7*5,61-0*2,79 = 39,27 = 0,20 y= b +аx
7*28-02 196 y= 0,40+0,20x
b = 2,79-(0,20)*0 = 0,40 -уравнение линейной регрессии
Задача 4. х - мощность пласта, у - смена добычи угля.
№ | Х | Y | X2 | XY |
Сум å |
a = 10*664-94*68 = 1.02
10*908-(94)2
b = 68-(-2,75)*94 = -2.75
10
Уравнение регрессии
y= 1,02x-2,75.
Коэфф. корреляции
R= n*åxy-åxåy = 10*664 - 94*68 =0.866
Ö(n*åx2-(x)2)(n*åy2-(åy)2) Ö(10*908-(94)2)(10*496-(68)2)
return false">ссылка скрыта
Связь между Х и Y ближе к линейной.
Коэфф. детерминации R2 ½R½£1
Þ 0.8662 = 0.749 Þ на 74,9% смена добычи угля зависит от мощности пласта и 25,1% от других факторов.
Задача 5. В таблице указаны парные коэффициенты корреляции. Проведите анализ целесообразности включения заданных факторов в уравнение множественной линейной регрессии.
y | x1 | x2 | x3 | x4 | |
y | |||||
x1 | 0,71 | ||||
x2 | 0,58 | 0,53 | |||
x3 | 0,08 | 0,2 | 0,13 | ||
x4 | 0,62 | 0,81 | 0,3 | 0,25 |
РЕШЕНИЕ. Между y и x3 связь практически отсутствует. Между y и x1 связь сильная, между y и x2, x4 – умеренная.
Отсюда следует вывод о нецелесообразности включения фактора x3 в уравнение множественной линейной регрессии (коэффициент парной корреляции с у равен 0,08).
Между факторами x1 и x4 существует сильная прямая связь (коэффициент парной корреляции > 0,8). Для того, чтобы избежать явления мультиколлинеарности, один из этих факторов должен быть исключен из анализа. Исключается фактор x1, умеренно коррелирующий с x2 (коэффициент их парной корреляции равен 0,53).
Факторы, включенные в модель множественной регрессии: x2, x4.
Задача 6. По некоторым территориям районов края известны значения средней суточного душевого дохода в у.е. (фактор X) и процент от общего дохода, расходуемого на покупку продовольственных товаров (фактор Y).
Требуется для характеристики зависимости У от X рассчитать параметры линейной, степенной, показательной функции и выбрать оптимальную модель (провести оценку моделей через среднюю ошибку аппроксимации (А) и F-критерий Фишера.
Район | у | х | ||||
Пожарский (1) | 68,8 | 45,1 | 61,277 | 7,5231 | 11,4989 | 56,5970 |
Кавалеровский (2) | 61,2 | 59,0 | 56,4689 | 4,7311 | 2,00817 | 22,3833 |
Дальнегорский (3) | 59,9 | 57,2 | 57,0915 | 2,8085 | 0,63123 | 7,88767 |
Хасанский (4) | 56,7 | 61,8 | 55,5004 | 1,1996 | 5,69109 | 1,43904 |
Лесозаводский (5) | 55,0 | 58,8 | 56,5381 | 1,5381 | 1,81683 | 2,36575 |
Хорольский (6) | 54,3 | 47,2 | 60,5505 | 6,2505 | 7,09956 | 39,0687 |
Анучинский (7) | 49,3 | 55,2 | 57,7833 | 8,4833 | 0,01055 | 71,9664 |
итого | 405,2 | 32,534 | 28,7563 | 201,708 | ||
среднее | 57,886 | 4,6477 |
РЕШЕНИЕ.
1а. Для расчета параметров а и b линейной регрессии у=аx+ b решаем систему нормальных уравнений относительно а и b (или используем EXCEL).
Получаем уравнение регрессии: у = 76,88 – 0,35x.
С увеличением среднедневной заработной платы на 1 руб. доля расходов на покупку продовольственных товаров снижается в среднем на 0,35 %-ных пункта.
Рассчитаем линейный коэффициент парной корреляции: r= -0,35326.
Связь умеренная, обратная.
Определим коэффициент детерминации:
R2 = 0,1248.
Вариация результата на 12,5% объясняется вариацией фактора х. Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчетные) значения (см.табл.).
Найдем величину средней ошибки аппроксимации А:
(4,647744/57,88571)´100%=0,080292.
В среднем расчетные значения отклоняются от фактических на 8,03%.
Рассчитаем F-критерий:
Fтабл = 6,6 > Fфакт, при γ = 0,05.
Полученное значение указывает на необходимость принять гипотезу Н0 о случайной природе выявленной зависимости и статистической незначимости параметров уравнения и показателя тесноты связи.
1б. Построению степенной модели у= bxа предшествует процедура линеаризации переменных. Линеаризация производится путем логарифмирования обеих частей уравнения:
lgy = lg b + a lgх , или Y = С + аХ,
где Y = lg(y), X = lg(x), C = lg(b).
Для расчетов используем формулы для линейной регрессии(или используем EXCEL).
Получим уравнение: у = 190,03х-0,2984 . R2 =0,1157.
Характеристики степенной модели указывают, что она несколько хуже линейной функции описывает взаимосвязь.
1в. Построению уравнения показательной кривой у=bах предшествует процедура линеаризации переменных при логарифмировании обеих частей уравнения:
lgy = lg b + хlgа , или Y = С + хlgа, и опять же можно использовать формулы для линейной регрессии(или EXCEL).
Получим уравнение: у = 77,24е-0,0053х . R2 =0,1026.
Показательная функция еще хуже, чем степенная, описывает изучаемую зависимость.
1г. Уравнение равносторонней гиперболы у=а/x+ b линеаризуется при замене: x = 1/z .
Тогда у=аz+b. Для расчетов используем формулы для линейной регрессии(или используем EXCEL).
Получено уравнение: у = 38,435 + 1054.7/x. R2 =0.1539.
По уравнению равносторонней гиперболы получена наибольшая оценка тесноты связи (по сравнению с линейной, степенной и показательной регрессиями). A остается на допустимом уровне: 8,1%.
Следовательно, принимается гипотеза Н0 о статистически незначимых параметрах этого уравнения. Этот результат можно объяснить сравнительно невысокой теснотой выявленной зависимости и небольшим числом наблюдений.
Задача 7. Построить модель связи между указанными факторами, проверить её адекватность, осуществить точечный и интервальный прогноз методом экстраполяции.
7.1. Исходные данные отложить на координатной плоскости и сделать предварительное заключение о наличии связи.
Таблица 1 Диаграмма 1
x | y |
2,1 | 29,5 |
2,9 | 34,2 |
3,3 | 30,6 |
3,8 | 35,2 |
4,2 | 40,7 |
3,9 | 44,5 |
5,0 | 47,2 |
4,9 | 55,2 |
6,3 | 51,8 |
5,8 | 56,7 |
Вывод: Из диаграммы 1 видно, что связь между факторами x и y
прямая сильная линейная связь.
7.2. Рассчитайте линейный коэффициент корреляции. Используя t-критерий Стьюдента, проверьте значимость коэффициента корреляции. Сделайте вывод о тесноте связи между факторами х и у.
Таблица2
№ | xy | |||||||
2,1 | 29,5 | 4,41 | 870,25 | 61,95 | 27,91 | 1,59 | 0,054 | |
2,9 | 34,2 | 8,41 | 1169,64 | 99,18 | 33,46 | 0,74 | 0,022 | |
3,3 | 30,6 | 10,89 | 936,36 | 100,98 | 36,23 | -5,63 | 0,184 | |
3,8 | 35,2 | 14,44 | 1239,04 | 133,76 | 39,69 | -4,49 | 0,128 | |
4,2 | 40,7 | 17,64 | 1656,49 | 170,94 | 42,47 | -1,77 | 0,043 | |
3,9 | 44,5 | 15,21 | 1980,25 | 173,55 | 40,39 | 4,11 | 0,092 | |
5,0 | 47,2 | 2227,84 | 48,01 | -0,81 | 0,017 | |||
4,9 | 55,2 | 24,01 | 3047,04 | 270,48 | 47,32 | 7,88 | 0,143 | |
6,3 | 51,8 | 39,69 | 2683,24 | 326,34 | 57,02 | -5,22 | 0,101 | |
5,8 | 56,7 | 33,64 | 3214,89 | 328,86 | 53,55 | 3,15 | 0,056 | |
ИТОГО: | 42,2 | 193,34 | 19025,04 | 1902,04 | 0,840 | |||
Среднее зн. | 4,22 | 42,56 | 19,334 | 1902,504 | 190,204 |
7.2.1.Проверим тесноту связи между факторами:
;
Вывод: связь сильная.
7.2.2.Проверим статистическую значимость по критерию Стьюдента:
1)Критерий Стьюдента: tвыб<=tкр
2)Но: r=0 tкр=2,31
tвыб=rвыб*
Вывод: таким образом поскольку tвыб=5,84<tкр=2,31, то с доверительной вероятностью
90% нулевая гипотеза отвергается, это указывает на наличие сильной линейной связи.
7.3. Полагая, что связь между факторами х и у может быть описана линейной функцией, используя процедуру метода наименьших квадратов, запишите систему нормальных уравнений относительно коэффициентов линейного уравнения регрессии. Любым способом рассчитайте эти коэффициенты.
Последовательно подставляя в уравнение регрессии из графы (2) табл.2, рассчитаем значения и заполним графу (7) табл.2
7.4. Для полученной модели связи между факторами Х и У рассчитайте среднюю ошибку аппроксимации. Сделайте предварительное заключение приемлемости полученной модели.
Для расчета заполним 8-ую и 9-ую графу табл.2
<Екр=12%
Вывод: модель следует признать удовлетворительной.
7.5. Проверьте значимость коэффициента уравнения регрессии a1 на основе t-критерия Стьюдента.
Решение: Таблица 3
№ | ||||||
2,1 | 29,5 | 27,91 | 2,5281 | 214,623 | 170,5636 | |
2,9 | 34,2 | 33,46 | 0,5476 | 82,81 | 69,8896 | |
3,3 | 30,6 | 36,23 | 31,6969 | 40,069 | 143,0416 | |
3,8 | 35,2 | 39,69 | 20,1601 | 8,237 | 54,1696 | |
4,2 | 40,7 | 42,47 | 3,1329 | 0,008 | 3,4596 | |
3,9 | 44,5 | 40,39 | 16,8921 | 4,709 | 3,7636 | |
47,2 | 48,01 | 0,6561 | 29,703 | 21,5296 | ||
4,9 | 55,2 | 47,32 | 62,0944 | 22,658 | 159,7696 | |
6,3 | 51,8 | 57,02 | 27,2484 | 209,092 | 85,3776 | |
5,8 | 56,7 | 53,55 | 9,9225 | 120,78 | 199,9396 | |
ИТОГО: | 42,2 | 425,6 | 426,1 | 174,8791 | 732,687 | 911,504 |
Среднее | 4,22 | 42,56 |
Статистическая проверка:
Вывод: С доверительной вероятностью 90% коэффициент a1- статистически значим, т.е. нулевая гипотеза отвергается.
7.6. Проверьте адекватность модели (уравнения регрессии) в целом на основе F-критерия Фишера-Снедекора.
Решение:
Процедура статистической проверки:
:модель не адекватна
Вывод: т.к. Fвыб.>Fкр., то с доверительной вероятностью 95% нулевая гипотеза отвергается (т.е. принимается альтернативная). Изучаемая модель адекватна и может быть использована для прогнозирования и принятия управленческих решений.
7.7. Рассчитайте эмпирический коэффициент детерминации.
Решение:
(таб. 3)
-показывает долю вариации.
Вывод: т.е. 80% вариации объясняется фактором включенным в модель, а 20% не включенными в модель факторами.
7.8. Рассчитайте корреляционное отношение. Сравните полученное значение с величиной линейного коэффициента корреляции.
Решение:
Эмпирическое корреляционное отношение указывает на тесноту связи между двумя факторами для любой связи, если связь линейная, то , т.е. коэффициент корреляции совпадает с коэффициентом детерминации.
7.9. Выполните точечный прогноз для .
Решение:
7.10-7.12. Рассчитайте доверительные интервалы для уравнения регрессии и для результирующего признака при доверительной вероятности =90%. Изобразите в одной системе координат:
а) исходные данные,
б) линию регрессии,
в) точечный прогноз,
г) 90% доверительные интервалы.
Сформулируйте общий вывод относительно полученной модели.
Решение:
-математическое ожидание среднего.
Для выполнения интервального прогноза рассматриваем две области.
1) для y из области изменения фактора x доверительные границы для линейного уравнения регрессии рассчитывается по формуле:
2) для прогнозного значения доверительный интервал для рассчитывается по формуле:
Исходные данные:
1) n=10
2) t=2,31(таб.)
3)
4)
5) : 27,91 42,56 57,02 66,72
6) 19,334-4,222)=1,53.
Таблица 4
№ | |||||||||||
1 | 2,1 | -2,12 | 4,49 | 3,03 | 1,74 | 2,31 | 4,68 | 18,81 | 27,91 | 9,10 | 46,72 |
4,22 | 0,00 | 0,00 | 0,1 | 0,32 | 2,31 | 4,68 | 3,46 | 42,56 | 39,10 | 46,02 | |
6,3 | 2,08 | 4,33 | 2,93 | 1,71 | 2,31 | 4,68 | 18,49 | 57,02 | 38,53 | 75,51 | |
7,7 | 3,48 | 12,11 | 9,02 | 2,31 | 4,68 | 32,43 | 66,72 | 34,29 | 99,15 |
Вывод: поскольку 90% точек наблюдения попало в 90% доверительный интервал, данная модель и ее доверительные границы могут использоваться для прогнозирования с 90% доверительной вероятностью.
Задача 8. Построить линейную множественную регрессию общей суммы налогов и платежей на общую сумму поступлений по налогу на добавленную стоимость (x1) и налогу на прибыль (доход) (x2).
Время наблюдения | y, млрд. руб. | x1, млрд. руб. | x2, млрд. руб. |
январь | 38,9 | 5,6 | 13,4 |
февраль | 45,3 | 6,7 | 15,4 |
март | 61,1 | 13,1 | 16,7 |
I квартал | 145,3 | 25,3 | 45,5 |
апрель | 70,4 | 16,9 | 16,2 |
май | 63,8 | 18,4 | |
июнь | 67,7 | 19,1 | |
II квартал | 201,9 | 54,4 | 44,2 |
I полугодие | 347,2 | 79,8 | 89,7 |
июль | 70,6 | 16,1 | 20,8 |
август | 78,9 | 23,3 | 16,4 |
сентябрь | 73,2 | 19,2 | 17,4 |
III квартал | 222,7 | 58,6 | 54,6 |
9 месяцев | 569,9 | 138,3 | 144,3 |
октябрь | 78,1 | 16,1 | 23,6 |
ноябрь | 31,8 | 23,9 | |
декабрь | 133,4 | 35,4 | 34,4 |
IV квартал | 314,5 | 83,3 | 81,9 |
II полугодие | 537,2 | 141,9 | 136,5 |
январь-декабрь | 884,4 | 221,6 | 226,1 |
а0=-9.7
а1=1.84
а2=2.62
Полученное уравнение