Регрессионный анализ

Прямая линия на плоскости (в пространстве двух измерений) задается уравнением Y=a+b*X. Переменная Y может быть выражена через константу (a) и угловой коэффициент (b), умноженный на переменную X. Константу иногда называют также свободным членом, а угловой коэффициент - регрессионным или B-коэффициентом. В многомерном варианте, когда имеется более одной независимой переменной, линия регрессии не может быть отображена в двумерном пространстве, однако она также может быть легко оценена. в общем случае, процедуры множественной регрессии будут оценивать параметры линейного уравнения вида:

 

Y = a + b1*X1 + b2*X2 + ... + bp*Xp

 

Регрессионные коэффициенты (или B-коэффициенты) представляют независимые вклады каждой независимой переменной в предсказание зависимой переменной. Другими словами, переменная X1, к примеру, коррелирует с переменной Y после учета влияния всех других независимых переменных. Этот тип корреляции называется частной корреляцией.

Линия регрессии выражает наилучшее предсказание зависимой переменной (Y) по независимым переменным (X). Однако, обычно имеется существенный разброс наблюдаемых точек относительно подогнанной прямой на диаграмме рассеяния. Отклонение отдельной точки от линии регрессии (от предсказанного значения) называется остатком.Чем меньше разброс значений остатков около линии регрессии по отношению к общему разбросу значений, тем, очевидно, лучше переменные коррелируют между собой. Например, если связь между переменными X и Y отсутствует, то отношение остаточной изменчивости переменной Y к исходной дисперсии равно 1,0. Если X и Y жестко связаны, то остаточная изменчивость отсутствует, и отношение дисперсий будет равно 0.0. В большинстве случаев отношение будет лежать где-то между этими экстремальными значениями, т.е. между 0 и 1,0. 1,0 минус это отношение называется R-квадратом или коэффициентом детерминации. Это значение непосредственно интерпретируется следующим образом. Если имеется R-квадрат равный 0,4, то изменчивость значений переменной Y около линии регрессии составляет 1-0,4 от исходной дисперсии; другими словами, 40% от исходной изменчивости могут быть объяснены, а 60% остаточной изменчивости остаются необъясненными. В идеале желательно иметь объяснение если не для всей, то хотя бы для большей части исходной изменчивости. Значение R-квадрата является индикатором степени подгонки модели к данным (значение R-квадрата близкое к 1,0 показывает, что модель объясняет почти всю изменчивость соответствующих переменных).