Построить поле корреляции результата и фактора
Поле корреляции результата (общая сумма ущерба) и фактора (расстояние до ближайшей пожарной станции).
На основании поля корреляции можно сделать вывод, что между факторным (Х) и результативным (Y) признаками существует прямая зависимость.
2. Определить параметры а и bуравнения парной линейной регрессии:
где nчисло наблюдений в совокупности ( в нашем случае 10)
aиbискомые параметры
xиyфактические значения факторного и результативного признаков.
Для определения сумм составим расчетную таблицу из пяти граф, в графе 6 дадим выравненное значение y (ŷ).
В графах 7,8,9 рассчитаем суммы, которые использованы в формулах пунктов 4,5 данной задачи.
№ | X | Y | X² | XY | Y² | Yx | (Y-Yx) | (X-Xср) | (Yx-Y)² | |
1. | ||||||||||
2. | 3,4 | 26,2 | 11,56 | 686,44 | 89,08 | 26,20 | 0,00 | 0,07 | 1,63 | |
3. | 1,8 | 17,8 | 3,24 | 316,84 | 32,04 | 18,70 | 0,81 | 1,76 | 36,68 | |
4. | 4,6 | 31,3 | 21,16 | 979,69 | 143,98 | 31,80 | 0,25 | 2,16 | 47,33 | |
5. | 2,3 | 23,1 | 5,29 | 533,61 | 53,13 | 21,00 | 4,41 | 0,68 | 15,36 | |
6. | 3,1 | 27,5 | 9,61 | 756,25 | 85,25 | 22,86 | 7,29 | 0,00 | 0,01 | |
7. | 5,5 | 30,25 | 36,00 | 0,00 | 5,61 | 122,76 | ||||
8. | 0,7 | 14,1 | 0,49 | 198,81 | 9,87 | 13,50 | 0,36 | 5,90 | 130,41 | |
9. | 22,3 | 497,29 | 66,9 | 24,30 | 4,00 | 0,01 | 0,38 | |||
10. | 2,6 | 19,6 | 6,76 | 384,16 | 50,96 | 22,40 | 7,84 | 0,28 | 6,35 | |
11. | 4,3 | 31,3 | 18,49 | 979,69 | 134,59 | 30,40 | 0,81 | 1,36 | 30,03 | |
∑ | 31,3 | 249,2 | 115,85 | 6628,78 | 863,8 | 249,1 | 25,77 | 17,88 | 390,99 | |
Коэффициент регрессии (b) показывает абсолютную силу связи между вариацией x и вариацией y. Применительно к данной задаче можно сказать, что при применении расстояния до ближайшей пожарной станции на 1 км общая сумма ущерба изменяется в среднем на 4,686 млн. руб.
Таким образом, управление регрессии имеет следующий вид:
3.
Линейный коэффициент корреляцииопределяется по формуле:
В соответствии с полученным значением коэффициента корреляции можно говорить о высокой тесноте связи между y и x, r = 0.957.
Квадрат коэффициента корреляции называется коэффициентом детерминации
Это означает, что доля вариации y объясненная вариацией фактора x включенного в уравнение регрессии равна 91,6%, а остальные 8,4% вариации приходятся на долю других факторов, не учтенных в уравнении регрессии
4. Статистическую значимость коэффициента регрессии «b» проверяем с помощью t-критерия Стьюдента. Для этого сначала определяем остаточную сумму квадратов:
и ее среднее квадратическое отклонение:
Найдем стандартную ошибку коэффициента регрессии по формуле:
Фактическое значение t-критерия Стьюдента для коэффициента регрессии «b» рассчитывается как
Полученное фактическое значение tb сравнивается с критическим tk , который получается по таблице Стьюдента с учетом принятого уровня значимости L=0,05 (для вероятности 0,95) и числа степеней свободы
Полученный коэффициент регрессии признается типичным, т.к.
Оценка статистической значимости построенной модели регрессии в целом производится с помощью F-критерия Фишера.
Фактическое значение критерия для уравнения определяется как
Fфакт сравнивается с критическим значением Fк, которое определяется по таблице F-критерия с учетом принятого уровня значимости L=0,05 (для вероятности 0,95) и числа степеней свободы:
Следовательно, при Fфакт>Fк уравнении регрессии в целом признается существенным.
5. По исходным данным полагают, что расстояние до ближайшей пожарной станции
уменьшится на 5% от своего среднего уровня
Следовательно, значения факторного признака для точечного прогноза:
а точечный прогноз :
Строим доверительный интервал прогноза ущерба с вероятностью 0,95 (L=0,05) по формуле
-табличное значение t-критерия Стьюдента для уровня значимости L=0,05 и числа степеней свободы n-2=10-2=8,
Стандартная ошибка точечного прогноза рассчитывается по формуле
Отсюда доверительный интервал составляет:
Из полученных результатов видно, что интервал от 19,8 до 28,6 млн. руб. ожидаемой величины ущерба довольно широкий. Значительная неопределенность прогноза линии регрессии, это видно из значения ,связана прежде всего с малым объемом выборки (n=10), а также тем, что по мере удаления xk отширина доверительного интервала увеличивается.