Расчет коэффициентов уравнения линейной регрессии, их статистическая оценка

Расчет коэффициентов уравнения линейной регрессии, их статистическая оценка

 

Лабораторная работа № 4 для студентов всех специальностей дневного отделения

 

 

Магнитогорск 2008 г.


Составитель: Е.М. Гугина

 

 

Обработка статистических данных: Методические указания к выполнению лабораторной работы № 4 по теме «Корреляционная зависимость между двумя измеримыми признаками. Расчет коэффициентов уравнения линейной регрессии, их статистическая оценка» для студентов всех специальностей дневного отделения. Магнитогорск: ГОУ ВПО «МГТУ им. Г.И. Носова», 2008. -17 с.

 

Данные указания включают

-ход лабораторной работы;

-пример выполнения работы;

-указание соответствующего теоретического материала и список вопросов для подготовки к защите работы.

 

Рецензент: Реент Н.А., доцент каф. мат. методов в экономике

 


ВВЕДЕНИЕ

 

В данной разработке содержатся методические рекомендации для студентов при подготовке и выполнении лабораторной работы по статистике: вопросы для подготовки и сдачи теоретической части и подробные указания по выполнению практической, снабженные соответствующими примерами всех расчетов.

Для изучения теории и выполнения лабораторных работ рекомендуется следующая литература:

 

  1. Краснов М.Л., Киселев А.И. и др. Вся высшая математика: Учебник. Т. 5.- М.: Эдиториал УРСС, 2001.- 296 с.
  2. Гмурман В.Е. Теория вероятностей и математическая статистика.- Учебн. пособие для вузов. - М.: Высш. шк.,2003.-479 с.
  3. Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике.- Учебн. пособие для вузов. - М.: Высш. шк.,2002.- 405 с.
  4. Горелова Г.В., Кацко И.А. Теория вероятностей и математическая статистика в примерах и задачах с применением EXCEL. Ростов-на-Дону: Феникс,2002.- 348 с.
  5. Кимайкина Н.И. и др. Теория вероятностей и математическая статистика. Учебные карты № 3. Магнитогорск, МГМИ, 1991.- 20 с.
  6. Кимайкина Н.И., Кукушкина О.А. Элементы математической статистики. Методические указания к лабораторному практикуму. Магнитогорск: МГТУ, 2001.- 30 с.

 

После выполнения лабораторной работы студенты должны написать отчет, содержащий краткое теоретическое введение и все расчеты, связанные с выполнением работы, и защитить ее, отвечая на вопросы для самопроверки и теоретические вопросы.

 


Лабораторная работа №4

Корреляционная зависимость между двумя измеримыми признаками.

Расчет коэффициентов уравнения линейной регрессии, их статистическая оценка

 

ЦЕЛЬ РАБОТЫ: Ознакомиться с основными понятиями и методами исследования корреляционной зависимости на примере линейной корреляции. Сделать статистическое оценивание коэффициентов регрессии. Уровень значимости принять равным 0,05.

 

Теоретические вопросы

[Гмурман, гл. 18, §1-13]

[Краснов и др. гл. XLIV, стр. 199 и далее]

(какие понятия нужно знать, чтобы приступить к выполнению работы)

  1. Функциональная и статистическая зависимости между двумя измеримыми признаками. Корреляционная зависимость.
  2. Линии регрессии.
  3. Две задачи теории корреляции.
  4. Нахождение параметров выборочного уравнения регрессии по методу наименьших квадратов.
  5. Влияние выборочного коэффициента корреляции на тесноту линейной зависимости.
  6. Статистическое оценивание результатов расчетов коэффициентов линейной регрессии.

 

ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ

(для подготовки к сдаче теоретической части)

  1. Какие бывают виды зависимости между двумя измеримыми признаками? Приведите примеры функциональной, стохастической, статистической, корреляционной зависимостей.
  2. Дайте определение условного среднего У на Х (или Х на У), запишите выборочное уравнение регрессии.
  3. Как найти параметры выборочного уравнения линейной регрессии по несгруппированным и сгруппированным данным.
  4. Постройте эмпирическую линию регрессии, используя таблицу 2 «Диаграмма рассеяния двумерной выборочной совокупности случайных величин» лабораторной работы №1.
  5. Расскажите о двух задачах теории корреляции:

- об установлении вида функции регрессии и

- об оценке тесноты связи между признаками

(отметьте, какие известны методы, критерии решения этих задач).

  1. Статистики тесноты связи: остаточная и межгрупповая дисперсии, корреляционное отношение, корреляционный момент, коэффициент корреляции. Приведите расчетные формулы и назовите свойства.
  2. Запишите выборочное уравнение линейной регрессии. Как найти коэффициенты этого уравнения, изучите их расчетные формулы. Опишите построение линии регрессии.
  3. В чем состоит критерий независимости двух измеримых признаков? Как это выполнили в своей работе?
  4. В чем заключается проверка значимости линейной связи между двумя измеримыми признаками? По какой числовой характеристике случайной величины (признака Х или У) это можно сделать? Поясните на своем примере.
  5. Почему используют интервальное оценивание коэффициента корреляции и коэффициентов регрессии? Приведите соответствующие формулы.

ХОД РАБОТЫ

Задание: По данным задачи, определить, существует ли зависимость между признаками Х (процентом прочности бетона на сжатие) и У (процентом сопротивления бетона на разрыв).

 

1.Выпишите результаты лабораторной работы № 2: , , ,

 

2. Запишите (скопируйте в новое место таблицы EXCEL или распечатайте, если собираетесь считать вручную), корреляционную таблицу 3 (лабораторная работа № 1).

 

3. Найдите, записав соответствующую формулу в ячейки электронной таблицы или подсчитав то же на калькуляторе, условные средние и :

; , (r- число интервалов) внесите их в корреляционную таблицу 3 лабораторной работы № 1, дописав еще один столбец и одну строку,- получите таблицу 10:

Таблица 10

Корреляционная таблица с записанными условными средними и

Y/X X1 16.2 X2 22.57 X3 28.94 X4 35.31 X5 41.68 X6 48.05 X7 54.42 X8 60.8 ny
= 2.9   -   -     -   -   -   -     -  
= 7.14   -   -   -     -        
= 11.38   -   -   -            
= 15.62                 -  
= 19.86                 -  
= 24.1     -           -   -  
= 28.34   -           -   -    
= 32.6     -   -     -   -   -   -  
nx    
   

Здесь ;

;

;

и так далее до ; аналогично

;

;

и так далее до .

 

4. На корреляционном поле (таблица 2, лабораторная работа № 1) постройте схематично эмпирическую линию регрессии (т.е. проведите линию вдоль наибольшего скопления отмеченных там точек).

Например, для задачи, рассматриваемой нами в предыдущих лабораторных работах, этот шаг выполнится так:

Таблица 2

Диаграмма рассеяния двумерной выборочной совокупности случайных величин (корреляционное поле)

5. Найдите с помощью электронной таблицы эмпирический исправленный корреляционный момент по формуле

, заполнив таблицу для подсчета всевозможными значениями пар (Х,У), для которых в корреляционной таблице есть значение частоты , т.е. клетка корреляционной таблицы – не пуста, а в соответствующей клетке корреляционного поля - есть точки:

Таблица 11

хi yj хi yj
     

 

6. Подсчитайте эмпирический коэффициент корреляции:

.

7. Проверьте гипотезу независимости признаков Х и У - гипотеза Но: признаки независимы друг от друга и коэффициент корреляции R = 0.

 

(Необходимо выяснить, существенно ли отличается от нуля рассчитанный эмпирический коэффициент корреляции , т.е. взята ли выборка из двумерной нормально распределенной совокупности с коэффициентом корреляции R = 0, а значит признаки Х и У не зависят друг от друга. Опровержение гипотезы Но означает, что между Х и У существует линейная зависимость.)

 

Статистика для проверки – выборочная функция

,

которая при справедливости гипотезы удовлетворяет распределению Стьюдента с к = п-2 степенями свободы.

 

Для этого:

7.1. подсчитайте значение статистики Т;

7.2. найдите [2, приложение 6, с.466];

7.3. если , то нет основания отвергать гипотезу Но, между Х и У нет зависимости.

Если , то гипотеза Но должна быть отвергнута, эмпирический коэффициент корреляции существенно отличен от нуля. Можем принять альтернативную гипотезу Н1: в генеральной совокупности коэффициент корреляции не равен нулю и Х и У – линейно зависимы.

 

8. Рассчитайте эмпирические коэффициенты линейной регрессии У на Х (или Х на У) :

; ;

или , где

; .

9. Проверьте теперь значимость уравнения регрессии У на Х: теперь гипотезы схематично записаны так

Но: ; Н1: .

 

Статистикой для проверки гипотезы служит выборочная функция

,

где - остаточная дисперсия или дисперсия относительно линии регрессии;

 

( - представляет собой показатель ошибки предсказания уравнением регрессии результатов опыта.)

 

Аналогично статистикой для проверки гипотезы уравнения регрессии Х на У служит выборочная функция

,

где .

Выборочная функция F, при справедливости нулевой гипотезы, имеет распределение Фишера с и степенями свободы. Значения приведены в приложении 7 [2, с.467].

Итак,

9.1. Вычислите остаточную дисперсию (или ) по выше приведенным формулам.

9.2. Вычислите значение статистики (или ).

9.3. Найдите значение .

9.4. При (или ) нулевая гипотеза принимается, т.е. уравнение (или ) статистически значимо описывает результаты эксперимента. Значение показывает, во сколько раз уравнение регрессии предсказывает результаты опыта лучше, чем среднее .

В противном случае ( ), гипотезу о значимости линейной регрессии нужно отбросить.

 

10. Найдите интервальные оценки коэффициента корреляции R и коэффициента линейной регрессии по формулам:

;

 

.

 

Значения можно найти с помощью приложения 2 [2, приложение 2, с.462] из уравнения , где - надежность, . (Заметим, что при n=100, , значения всех статистик: Т, F и одинаковые для всех вариантов и равны приведенным в следующем примере значениям).