Парная линейная регрессия
Возвратимся к задаче 1.
Найдём линейную зависимость цены от месяца.
Для решения задачи 1 средствами MS Excel составляем таблицу исходных данных (рис.7.) и вызовем окно Анализ данных(рис. 1.), где выбираем раздел Регрессия (рис. 8.). Параметры Входной интервал Y и Входной интервал X представляют собою зависимую и независимую переменные уравнения линейной регрессии .
Для записи уравнения линейной регрессии в виде y=ax+b выберем параметры a и b из рис. 9: коэффициент при неизвестной a – на пересечении столбца Коэффициентыи строки с наименованием № месяца, свободный член b – на пересечении столбца Коэффициентыи строкиY-пересечение. Таким образом, уравнения регрессии для задачи 3 запишется в таком виде:
Цена на сахар = 11,714´№ месяца + 1727,54.
или
y = 11,714 x + 1727,54
Рис. 7 | Рис. 8 |
Рис. 9
Для анализа адекватности полученного уравнения линейной регрессии в MS Excel используются параметры (см. рис. 9): коэффициент множественной корреляции (множественный R); коэффициент детерминации (R-квадрат); критерий Фишера (F-статистика); критерий Стьюдента(t-статистика).
Коэффициент множественной корреляции R позволяет оценить тесноту вероятностной связи между зависимой и независимой переменными. Высокое значение этой величины свидетельствует о сильной связи между переменными (при равенстве R=1 – связь функциональная). Таким образом, величина R=0,921 для задачи 1 говорит о высокой степени связи переменных МЕСЯЦ и САХАР. Однако, характер этой связи пока неясен.
Величина квадрата коэффициента множественной корреляции или коэффициент детерминации R2(RI) показывает долю общего разброса (относительно выборочного среднего зависимой переменной), которая объясняется построенной регрессией. Иными словами данная величина показывает, разброс какой части полученных экспериментальных данных (зависимая переменная) соответствует полученному уравнению линейной регрессии. В задаче 1 эта величина составляет 84,8%, что говорит о том, что имеющиеся статистические данные с достаточно высокой степенью точности могут быть описаны полученным уравнением регрессии.
F-статистика (критерий Фишера) используется для оценки значимости полученной линейной зависимости, иными словами он подтверждает или опровергает гипотезу о существовании линейной зависиомсти. Если полученное значение F-критерия выше критического Fкр, то гипотеза о незначимости линейной зависимости отвергается. Величина Fкр должна быть получена из специальных таблиц в соответствии с числом степеней свободы df. Однако в окне рис. 9 приведено значение величины p – уровня значимости, показывающего вероятность непринятия верной гипотезы. Иными словами, если выдвинута гипотеза о незначимости линейной зависимости, то если уровень значимости p стремится к единице, то между переменными (зависимой и независимой) не существует линейной зависимости (гипотеза принимается), и, наоборот, если p стремится к нулю, то гипотеза отвергается (между переменными существует линейная зависимость). Для задачи 1 F=33,571; df=1,6; p=0,00116, то есть вероятность отвергнуть верную гипотезу о незначимости коэффициента при независимой переменной составляет всего 0,116%.
Значение t-статистики (критерий Стьюдента) используется для оценки значимостей коэффициента при неизвестной и свободного члена полученной линейной зависимости. Если полученное значение t-критерия выше критического tкр, то гипотеза о незначимости свободного члена линейной зависимости отвергается. Аналогично как уровню значимости F-критерия, для t-критерия такжеприведено значение величины p – уровня значимости, показывающего вероятность непринятия верной гипотезы. В задаче 1 для свободного члена t=169,20903; p=2,89Е-12, то есть вероятность отвергнуть верную гипотезу о незначимости cвободного члена практически равна нулю. Для коэффициента при неизвестной t=5,79405; p=0,001158, то есть вероятность отвергнуть верную гипотезу о незначимости коэффициента при неизвестной составляет 0,12%.
Таким образом, проанализировав все четыре вышеназванных параметра можно сделать вывод об адекватности полученного уравнения линейной регрессии.