КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ПИРСОНА. КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ
Мы хотим знать, насколько хорошо приближает наши данные линейная модель.
Формула y = a + bx только частично объясняет вариацию значений y (а именно, слагаемое Но ведь на y влияют и другие факторы. Их влияние скрыто в остатке еi. Если бы связь была строго линейной, то еi = 0. И так для каждой точки xi.
– это общая вариация переменной у.
– это вариация переменной у, которая объясняется формулой y = a + bx.
– это вариация переменной у, которая не объясняется формулой y = a + bx.
Введем характеристику - коэффициент детерминации. Эта мера показывает величину вариации переменной y, которая объясняется переменной x при наличии линейной связи этих величин. В случае строгой линейной зависимости между x и у r2 = 1. Если зависимость между x и y отсутствует, то r2 = 0.
Коэффициент детерминации не указывает причины и следствия. Он просто является математическим выражением взаимосвязи между переменными и показывает степень их взаимосвязанных изменений, хотя в экономической теории и можно постулировать причинно-следственную связь между этими переменными.
Коэффициент корреляции Пирсона:
Вторая дробь – удобная расчетная формула, которую чаще всего используют.
Коэффициент корреляции Пирсона r содержит информацию о поведении y с ростом x. Знак коэффициента корреляции Пирсона r совпадает со знаком коэффициента b. Чем ближе r к 1, тем ближе связь между x и y к линейной. При r = 0 линейной связи между x и y не существует (но, возможно, между x и y есть другая зависимость).
Сильная корреляция между переменными необязательно указывает на причину и следствие. Например, может быть установлена сильная корреляция между зарплатой учителя и продажей спиртных напитков. Отсюда никак нельзя сделать вывод, что учителя пьют. Просто обе эти величины связаны через другую переменную – общий уровень наличного дохода. Это пример ложной корреляции.
Пример 2.Найдем остатки ei, коэффициент корреляции Пирсона и коэффициент детерминации в примере 1.
y = 2,12 – 0,11x. Заполним таблицу.
Номер | x | y | y2 | ỹ =2,12 – 0,11x | е = у – ỹ |
1,9 | 3,61 | 1,90 | 0,00 | ||
1,7 | 2,89 | 1,79 | -0,09 | ||
1,8 | 3,24 | 1,68 | 0,12 | ||
1,6 | 2,56 | 1,57 | 0,03 | ||
1,4 | 1,96 | 1,46 | -0,06 | ||
Сумма | 8,4 | 14,26 |
Поясним, как заполняется таблица. В 4-м столбце указаны квадраты соответствующих чисел 3-го столбца. Каждое число 2-го столбца подставляем в выражение 2,12 – 0,11x: и результат пишем в 5-м столбце. В 6-м столбце указана разность чисел 3-го и 5-го столбцов. В последней строке указана сумма чисел соответствующего столбца.
Это значение близко k–1, что свидетельствует об очень сильной отрицательной связи (с ростом х значения у убывают). Знаки b = –0,11 и r = –0,904 совпадают.
Коэффициент детерминации r2 = (–0,904)2 ≈ 0,817, то есть 81,7% общей вариации себестоимости y зависит от выпуска продукции х.
Наша модель не объясняет 18,3% вариации себестоимости. Эта часть вариации объясняется факторами, не включенными в модель.
Замечание. Для вычисления коэффициента корреляции Пирсона можно воспользоваться статистическими функциями ПИРСОН (массив 1; массив 2) или КОРРЕЛ (массив 1; массив 2) мастера функций fx пакета Excel. Массив 1 и массив 2 – это ссылки на ячейки, содержащие значения переменных. Для вычисления коэффициента детерминации можно воспользоваться статистической функцией КВПИРСОН (изв_знач_y; изв_знач_x).