Метод наименьших квадратов в матричной форме
Для оценки параметров линейного уравнения множественной регрессии применяется метод наименьших квадратов. Скалярный вариант этого метода позволяет получать оценки параметров путемрешения системы нормальных уравнений
(3.5)
которая получается путем дифференцирования суммы квадратов отклонений
. (3.6)
Современный подход к изложению регрессионного анализа основан на матричной алгебре. Поэтому ниже будет рассмотрен матричный вариант МНК.
Чтобы понять переход от скалярного представления регрессионной модели к матричному, запишем регрессионное уравнение для каждого -го ( ) наблюдения в виде следующей системы:
(3.7)
Для удобства будем считать, что коэффициент регрессионного уравнения в системе (4.7) умножен на специально введенную искусственную переменную . С учетом введенной переменной эта система может быть записана следующим образом:
. (3.8)
Введя обозначения
; ; ; ,
перепишем (4.8) в компактной матричной форме
. (3.9)
Сумма квадратов отклонений МНК для (4.9) записывается следующим образом:
. (3.10)
Выполнив умножение в (3.10)
и продифференцировав по вектору результат перемножения
,
получаем систему уравнений в матричной форме
, (3.11)
решение которой позволяет записать выражение для оценки вектора параметров регрессионного уравнения следующим образом:
. (3.12)
Если выполняются гипотезы, лежащие в основе модели множественной регрессии:
1) – спецификация модели;
2) –детерминированная матрица, имеющая максимальный ранг ;
3a) ; 3b) ,
то оценки (3.12) обладают рядом полезных свойств, описание которых приводится ниже.
Прежде всего, покажем, что математическое ожидание оценок МНК равно . Для этого представим оценку в следующем виде:
. (3.13)
Приведенное представление совместно с гипотезой 3а) позволяет записать
. (3.14)
Данное свойство принято назвать несмещенностью оценок МНК. Несмещенность – важное свойство, но его недостаточно для полного описания качественных характеристик вычисляемых по МНК оценок.
Второй качественной характеристикой является стандартная ошибка. Для ее получения вычислим ковариационную матрицу оценки , т.е. математическое ожидание произведения отклонений оценки вектора параметров от своего математического ожидания
. (3.15)
Так как из (4.13) следует , то, произведя замену, получаем
. (3.16)
Дисперсия , фигурирующая в (4.16), обычно неизвестна и поэтому ее величина оценивается по выборочным наблюдениям, т.е. принимается равной
, (3.17)
где – вектор остатков, вычисление которых, в отличие от случайных составляющих , становится возможным после построения регрессионного уравнения, так как . Таким образом, ковариационная матрица векторной оценки имеет вид
. (3.18)
Квадратные корни из элементов главной диагонали матрицы (3.18) принято называть стандартными ошибками коэффициентов регрессии. Эти ошибки обозначают . По теореме Гаусса – Маркова оценки МНК имеют наименьшие стандартные ошибки в классе линейных (по ) несмещенных оценок.
С помощью стандартных ошибок определяется уровень надежности вычисленных оценок коэффициентов регрессии: проверяются гипотезы относительно значимости оценок коэффициентов регрессии, строятся доверительные интервалы. Другими словами, с их помощью устанавливается надежность построенной модели.
Иногда построение уравнения множественной регрессии начинается с построения регрессии в стандартизованном масштабе
, (3.19)
где , – стандартизованные переменные;
– стандартизованные коэффициенты регрессии, которые принято называть бета-коэффициентами. Они получаются как решение системы нормальных уравнений в стандартизованном масштабе
(3.20)
Коэффициентами системы (20) являются парные коэффициенты корреляции. Интересна содержательная интерпретация - коэффициентов. В отличие от коэффициентов регрессии , которые зависят от масштаба измерений зависимой и независимых переменных, эти коэффициенты свободны от такой зависимости и поэтому могут использоваться для ранжирования факторов по степени их влияния на моделируемый показатель. Связь коэффициентов множественной регрессии со стандартизованными коэффициентами определяется соотношением
, (3.21)
что позволяет осуществить переход от стандартизованного уравнения к обычному, свободный член которого вычисляется через среднее значение по формуле
. (3.22)
В случае необходимости (например, для ранжирования факторов по степени воздействия на моделируемый показатель) можно, не прибегая к построению стандартизованного уравнения, определить - коэффициенты по коэффициентам регрессии
. (3.23)
Кроме того, - коэффициенты могут использоваться для расчета множественного коэффициента корреляции
, (3.24)
показывающего тесноту линейной связи независимых переменных, включенных в модель, с зависимой переменной.
В общем случае теснота совместного влияния факторов на моделируемый показатель оценивается индексом корреляции
, (3.25)
значения которого для линейной модели совпадает с множественным коэффициентом корреляции.
Качество построенной модели в целом удобно оценивать с помощью коэффициента множественной детерминации, определяемого как квадрат индекса множественной корреляции, умноженного на 100
(3.26)
и показывающего на сколько процентов изменение зависимой переменной объясняется соответствующими изменениями независимых переменных.
Для этих же целей, когда особое внимание обращается на статистическую значимость, используется скорректированный коэффициент множественной детерминации, рассчитываемый через скорректированный на число степеней свободы множественный индекс корреляции по формуле
. (3.27)
Значимость уравнения множественной регрессии в целом оценивается с помощью дисперсионного отношения Фишера (F-критерия)
. (3.28)
В числители критерия (3.28) стоит сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»), деленная на число степеней свободы , а в знаменателе – остаточная сумма квадратов отклонений, деленная на ( ) (остаточная дисперсия).
Если , то построенная модель считается адекватной. – это максимально возможное значение дисперсионного отношения Фишера при данных степенях свободы и доверительном уровне (см. Приложение).
Частный F-критерий позволяет оценить статистическую значимость каждого из факторов, включенного в модель. Для фактора значение частного F-критерия определяется по формуле
. (3.29)
Статистическая значимость каждого коэффициента регрессии оценивается также с помощью t-критерия Стьюдента
, (3.30)
где – средняя квадратическая ошибка коэффициента регрессии, определяемая по формуле
. (3.31)
Коэффициенты регрессии линейного уравнения интерпретируется как коэффициенты абсолютного роста. С их помощью можно рассчитать средние коэффициенты эластичности, которые определяются по формуле
. (3.32)