Расчет коэффициентов уравнения линейной регрессии, их статистическая оценка
Расчет коэффициентов уравнения линейной регрессии, их статистическая оценка
Лабораторная работа № 4 для студентов всех специальностей дневного отделения
Магнитогорск 2008 г.
Составитель: Е.М. Гугина
Обработка статистических данных: Методические указания к выполнению лабораторной работы № 4 по теме «Корреляционная зависимость между двумя измеримыми признаками. Расчет коэффициентов уравнения линейной регрессии, их статистическая оценка» для студентов всех специальностей дневного отделения. Магнитогорск: ГОУ ВПО «МГТУ им. Г.И. Носова», 2008. -17 с.
Данные указания включают
-ход лабораторной работы;
-пример выполнения работы;
-указание соответствующего теоретического материала и список вопросов для подготовки к защите работы.
Рецензент: Реент Н.А., доцент каф. мат. методов в экономике
ВВЕДЕНИЕ
В данной разработке содержатся методические рекомендации для студентов при подготовке и выполнении лабораторной работы по статистике: вопросы для подготовки и сдачи теоретической части и подробные указания по выполнению практической, снабженные соответствующими примерами всех расчетов.
Для изучения теории и выполнения лабораторных работ рекомендуется следующая литература:
- Краснов М.Л., Киселев А.И. и др. Вся высшая математика: Учебник. Т. 5.- М.: Эдиториал УРСС, 2001.- 296 с.
- Гмурман В.Е. Теория вероятностей и математическая статистика.- Учебн. пособие для вузов. - М.: Высш. шк.,2003.-479 с.
- Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике.- Учебн. пособие для вузов. - М.: Высш. шк.,2002.- 405 с.
- Горелова Г.В., Кацко И.А. Теория вероятностей и математическая статистика в примерах и задачах с применением EXCEL. Ростов-на-Дону: Феникс,2002.- 348 с.
- Кимайкина Н.И. и др. Теория вероятностей и математическая статистика. Учебные карты № 3. Магнитогорск, МГМИ, 1991.- 20 с.
- Кимайкина Н.И., Кукушкина О.А. Элементы математической статистики. Методические указания к лабораторному практикуму. Магнитогорск: МГТУ, 2001.- 30 с.
После выполнения лабораторной работы студенты должны написать отчет, содержащий краткое теоретическое введение и все расчеты, связанные с выполнением работы, и защитить ее, отвечая на вопросы для самопроверки и теоретические вопросы.
Лабораторная работа №4
Корреляционная зависимость между двумя измеримыми признаками.
Расчет коэффициентов уравнения линейной регрессии, их статистическая оценка
ЦЕЛЬ РАБОТЫ: Ознакомиться с основными понятиями и методами исследования корреляционной зависимости на примере линейной корреляции. Сделать статистическое оценивание коэффициентов регрессии. Уровень значимости принять равным 0,05.
Теоретические вопросы
[Гмурман, гл. 18, §1-13]
[Краснов и др. гл. XLIV, стр. 199 и далее]
(какие понятия нужно знать, чтобы приступить к выполнению работы)
- Функциональная и статистическая зависимости между двумя измеримыми признаками. Корреляционная зависимость.
- Линии регрессии.
- Две задачи теории корреляции.
- Нахождение параметров выборочного уравнения регрессии по методу наименьших квадратов.
- Влияние выборочного коэффициента корреляции на тесноту линейной зависимости.
- Статистическое оценивание результатов расчетов коэффициентов линейной регрессии.
ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ
(для подготовки к сдаче теоретической части)
- Какие бывают виды зависимости между двумя измеримыми признаками? Приведите примеры функциональной, стохастической, статистической, корреляционной зависимостей.
- Дайте определение условного среднего У на Х (или Х на У), запишите выборочное уравнение регрессии.
- Как найти параметры выборочного уравнения линейной регрессии по несгруппированным и сгруппированным данным.
- Постройте эмпирическую линию регрессии, используя таблицу 2 «Диаграмма рассеяния двумерной выборочной совокупности случайных величин» лабораторной работы №1.
- Расскажите о двух задачах теории корреляции:
- об установлении вида функции регрессии и
- об оценке тесноты связи между признаками
(отметьте, какие известны методы, критерии решения этих задач).
- Статистики тесноты связи: остаточная и межгрупповая дисперсии, корреляционное отношение, корреляционный момент, коэффициент корреляции. Приведите расчетные формулы и назовите свойства.
- Запишите выборочное уравнение линейной регрессии. Как найти коэффициенты этого уравнения, изучите их расчетные формулы. Опишите построение линии регрессии.
- В чем состоит критерий независимости двух измеримых признаков? Как это выполнили в своей работе?
- В чем заключается проверка значимости линейной связи между двумя измеримыми признаками? По какой числовой характеристике случайной величины (признака Х или У) это можно сделать? Поясните на своем примере.
- Почему используют интервальное оценивание коэффициента корреляции и коэффициентов регрессии? Приведите соответствующие формулы.
ХОД РАБОТЫ
Задание: По данным задачи, определить, существует ли зависимость между признаками Х (процентом прочности бетона на сжатие) и У (процентом сопротивления бетона на разрыв).
1.Выпишите результаты лабораторной работы № 2: , , ,
2. Запишите (скопируйте в новое место таблицы EXCEL или распечатайте, если собираетесь считать вручную), корреляционную таблицу 3 (лабораторная работа № 1).
3. Найдите, записав соответствующую формулу в ячейки электронной таблицы или подсчитав то же на калькуляторе, условные средние и :
; , (r- число интервалов) внесите их в корреляционную таблицу 3 лабораторной работы № 1, дописав еще один столбец и одну строку,- получите таблицу 10:
Таблица 10
Корреляционная таблица с записанными условными средними и
Y/X | X1 16.2 | X2 22.57 | X3 28.94 | X4 35.31 | X5 41.68 | X6 48.05 | X7 54.42 | X8 60.8 | ny | |
= 2.9 | - | - | - | - | - | - | - | |||
= 7.14 | - | - | - | - | ||||||
= 11.38 | - | - | - | |||||||
= 15.62 | - | |||||||||
= 19.86 | - | |||||||||
= 24.1 | - | - | - | |||||||
= 28.34 | - | - | - | |||||||
= 32.6 | - | - | - | - | - | - | ||||
nx | ||||||||||
Здесь ;
;
;
и так далее до ; аналогично
;
;
и так далее до .
4. На корреляционном поле (таблица 2, лабораторная работа № 1) постройте схематично эмпирическую линию регрессии (т.е. проведите линию вдоль наибольшего скопления отмеченных там точек).
Например, для задачи, рассматриваемой нами в предыдущих лабораторных работах, этот шаг выполнится так:
Таблица 2
Диаграмма рассеяния двумерной выборочной совокупности случайных величин (корреляционное поле)
5. Найдите с помощью электронной таблицы эмпирический исправленный корреляционный момент по формуле
, заполнив таблицу для подсчета всевозможными значениями пар (Х,У), для которых в корреляционной таблице есть значение частоты , т.е. клетка корреляционной таблицы – не пуста, а в соответствующей клетке корреляционного поля - есть точки:
Таблица 11
хi | yj | хi yj | |
… | … | … | … |
6. Подсчитайте эмпирический коэффициент корреляции:
.
7. Проверьте гипотезу независимости признаков Х и У - гипотеза Но: признаки независимы друг от друга и коэффициент корреляции R = 0.
(Необходимо выяснить, существенно ли отличается от нуля рассчитанный эмпирический коэффициент корреляции , т.е. взята ли выборка из двумерной нормально распределенной совокупности с коэффициентом корреляции R = 0, а значит признаки Х и У не зависят друг от друга. Опровержение гипотезы Но означает, что между Х и У существует линейная зависимость.)
Статистика для проверки – выборочная функция
,
которая при справедливости гипотезы удовлетворяет распределению Стьюдента с к = п-2 степенями свободы.
Для этого:
7.1. подсчитайте значение статистики Т;
7.2. найдите [2, приложение 6, с.466];
7.3. если , то нет основания отвергать гипотезу Но, между Х и У нет зависимости.
Если , то гипотеза Но должна быть отвергнута, эмпирический коэффициент корреляции существенно отличен от нуля. Можем принять альтернативную гипотезу Н1: в генеральной совокупности коэффициент корреляции не равен нулю и Х и У – линейно зависимы.
8. Рассчитайте эмпирические коэффициенты линейной регрессии У на Х (или Х на У) :
; ;
или , где
; .
9. Проверьте теперь значимость уравнения регрессии У на Х: теперь гипотезы схематично записаны так
Но: ; Н1: .
Статистикой для проверки гипотезы служит выборочная функция
,
где - остаточная дисперсия или дисперсия относительно линии регрессии;
( - представляет собой показатель ошибки предсказания уравнением регрессии результатов опыта.)
Аналогично статистикой для проверки гипотезы уравнения регрессии Х на У служит выборочная функция
,
где .
Выборочная функция F, при справедливости нулевой гипотезы, имеет распределение Фишера с и степенями свободы. Значения приведены в приложении 7 [2, с.467].
Итак,
9.1. Вычислите остаточную дисперсию (или ) по выше приведенным формулам.
9.2. Вычислите значение статистики (или ).
9.3. Найдите значение .
9.4. При (или ) нулевая гипотеза принимается, т.е. уравнение (или ) статистически значимо описывает результаты эксперимента. Значение показывает, во сколько раз уравнение регрессии предсказывает результаты опыта лучше, чем среднее .
В противном случае ( ), гипотезу о значимости линейной регрессии нужно отбросить.
10. Найдите интервальные оценки коэффициента корреляции R и коэффициента линейной регрессии по формулам:
;
.
Значения можно найти с помощью приложения 2 [2, приложение 2, с.462] из уравнения , где - надежность, . (Заметим, что при n=100, , значения всех статистик: Т, F и одинаковые для всех вариантов и равны приведенным в следующем примере значениям).