Прогнозирование с применением уравнения регрессии
Если модель регрессии признана адекватной, то переходят к построению прогноза.
Прогнозируемое значение переменной у получается при подстановке в уравнение регрессии ожидаемой величины независимой переменной хпрогн:
.
Данный прогноз называется точечным. Вероятность реализации точечного прогноза практически равна нулю, поэтому рассчитывается доверительный интервал прогноза с большой надежностью:
,
где t – t-критерий Стьюдента, определяемый по таблице при уровне значимости 0,05 и числе степеней свободы k=n-2 (для парной регрессии);
– остаточная дисперсия на одну степень свободы, определяемая по формуле:
;
s – стандартная ошибка предсказания, определяемая по формуле:
.
Пример.
По статистическим данным, описывающим зависимость удельного веса бракованной продукции от удельного веса рабочих со специальной подготовкой на предприятиях построить уравнение парной регрессии и определить его значимость.
Номер предприя-тия | Удельный вес рабочих со специальной подготовкой, % х | Удельный вес бракованной продукции, % y |
Решение
1. Построим диаграмму рассеяния для определения наличия зависимости между признаками и типа этой зависимости.
Диаграмма рассеяния или корреляционное поле показывает наличие линейной обратной связи.
2. Определим линейный коэффициент корреляции по формуле . Для этого построим вспомогательную таблицу:
Номер предприя-тия | Удельный вес рабочих со специальной подготовкой, % х | Удельный вес бракован-ной продукции, % y | (x-xср)^2 | (y-yср)^2 | xy |
857,6531 | 83,59184 | ||||
371,9388 | 9,877551 | ||||
86,22449 | 1,306122 | ||||
0,510204 | 0,734694 | ||||
114,7959 | 8,163265 | ||||
429,0816 | 14,87755 | ||||
661,2245 | 34,30612 | ||||
Сумма | 2521,429 | 152,8571 | |||
Среднее значение | 44,28571 | 8,857143 | 360,2041 | 21,83673 | 306,4286 |
Линейный коэффициент корреляции будет равен:
С помощью встроенной функции КОРРЕЛ Excel получаем такое же значение линейного коэффициента корреляции. Для этого в ячейку необходимо ввести =КОРРЕЛ(массив1; массив2), причем не имеет значения последовательность ввода массивов.
Таким образом, делаем вывод о сильной обратной линейной зависимости между изучаемыми признаками.
2. Построим уравнение парной линейной регрессии . Оценим параметры уравнения регрессии а и b с помощью МНК. Для этого построим вспомогательную таблицу.
Номер | х | у | x^2 | xy |
Сумма |
Система нормальных уравнений для нахождения параметров парной линейной регрессии имеет вид:
Подставим необходимые данные и получим:
Решив систему, получим
С помощью встроенной функции ЛИНЕЙН Excel получаем такие же значения параметров уравнения регрессии. Для этого необходимо выделить две ячейки в одной строке, выбрать в главном меню Вставка/Функция, далее выбрать из категории Статистические функцию ЛИНЕЙН. В образовавшемся окне заполнить аргументы функции:
Известные значения y – диапазон, содержащий данные результативного признака;
Известные значения x – диапазон, содержащий данные факторного признака;
Константа – логическое значение, которое указывает на наличие или отсутствие свободного члена в уравнении регрессии, может принимать значение 0 или 1. Указываем 1.
Статистика – логическое значение, которое указывает, выводить дополнительную информацию по регрессионному анализу или нет. Если указать 0, будут выведены только значения параметров уравнения регрессии а и b в двух выделенных ячейках.
Далее необходимо нажать ОК, одновременно удерживая клавиши Ctrl/Shift. В первой ячейке будет указано значение коэффициента при х, во второй – значение свободного члена уравнения регрессии.
Чтобы вывести всю статистику по уравнению регрессии изначально необходимо выделить диапазон из пяти строк и двух столбцов и задать логическое значение 1 в аргументе функции ЛИНЕЙН Статистика. Дополнительная регрессионная статистика будет выводится в порядке, указанном в следующей схеме:
Значение коэффициента а | Значение коэффициента b |
Среднеквадратическое отклонение b (стандартная ошибка параметра b) | Среднеквадратическое отклонение а (стандартная ошибка параметра а) |
Коэффициент детерминации R2 | Среднеквадратическое отклонение у |
F-статистика (F-критерий Фишера) | Число степеней свободы |
Регрессионная сумма квадратов | Остаточная сумма квадратов |
Для разбираемого примера таблица будет выглядеть следующим образом:
-0,23824 | 19,40793 |
0,027796 | 1,339265 |
0,936275 | 1,395765 |
73,46237 | |
143,1163 | 9,740793 |
Таким образом, уравнение регрессии будет иметь вид: .
t-критерий Стьюдента для параметра а будет равен . Табличное значение t-критерия Стьюдента составляет 2,57. Поскольку расчетное значение больше табличного параметр а признается статистически значимым.
t-критерий Стьюдента для параметра а будет равен . Поскольку , параметр b признается статистически значимым.
Т.к. коэффициент детерминации , коэффициент корреляции равен и будет иметь отрицательное значение, поскольку связь обратная, на что указывает отрицательный коэффициент при х в уравнении регрессии.
Расчетное значение F-критерия Фишера равно 73,46, табличное значение F-критерия Фишера равно 6,61. Поскольку расчетное значение F-критерия больше табличного или критического, уравнение парной линейной регрессии в целом признается статистически значимым с вероятностью 95%.
t-критерий Стьюдента для линейного коэффициента корреляции определяется по формуле: , что больше табличного значения, поэтому линейный коэффициент корреляции признается статистически значимым.
3. Рассчитаем теоретические значения результативного признака, остатки и среднюю ошибку аппроксимации:
Номер | х | у | |||
15,83428 | 2,16572238 | 0,120318 | |||
13,45184 | -1,45184136 | 0,120987 | |||
11,06941 | -1,069405099 | 0,106941 | |||
8,686969 | -0,686968839 | 0,085871 | |||
6,304533 | -0,304532578 | 0,050755 | |||
3,922096 | 1,077903683 | 0,215581 | |||
2,730878 | 0,269121813 | 0,089707 | |||
Сумма | 0,79016 |
Средняя ошибка аппроксимации равна: . Таким образом, при прогнозировании по данной модели в среднем ошибка составит 11%, в то время как предельные допустимые значения этого показателя составляют 8-10%. Большая средняя ошибка аппроксимации получилась за счет малого числа наблюдений.