Пример.
Необходимо исследовать зависимость между результатами письменных вступительных и курсовых экзаменов по математике. Получены следующие данные о числе решенных задач на вступительных экзаменах X (задание – 10 задач) и курсовых экзаменах Y (задание – 7 задач) 12 студентов, а также распределение этих студентов по фактору «пол».
№ студента | Число решенных задач | Число решенных задач | Пол студента | № студента | Число решенных задач | Число решенных задач | Пол студента |
i | xi | yi | zi | i | xi | yi | zi |
муж. | жен. | ||||||
жен. | муж. | ||||||
муж. | муж. | ||||||
жен. | жен. | ||||||
жен. | муж. | ||||||
муж. | жен. |
Построим линейную регрессионную модель Y по X с использованием фиктивной переменной по фактору «пол». Для ее учета введем в регрессионную модель фиктивную бинарную переменную Z.
1, если i-ый студент мужского пола;
zi=
0, если i-ый студент женского пола.
Таким образом, мы получили регрессионную модель
с общей матрицей
1 1 1 1 1 1 1 1 1 1 1 1
ХT = 10 6 8 8 6 7 6 7 9 6 5 7
1 0 1 0 0 1 0 1 1 0 1 0
По формуле (2.6.3) найдем вектор оценок параметров регрессии
Таким образом, выборочное уравнение множественной регрессии примет вид
(2.8.4)
Коэффициент детерминации .
Уравнение регрессии значимо по F-критерию при 5%-ном уровне значимости, так как в соответствии с (2.6.12)
Из (2.8.4) следует, что при том же числе решенных задач на вступительных экзаменах Х, на курсовых экзаменах юноши решают в среднем на 0,466≈0,5 задачи больше.
Полученное уравнение множественной регрессии значимо по – критерию. Однако коэффициент регрессии β1 при фиктивной переменной Z незначим по t- критерию
Следовательно, по имеющимся данным влияние фактора «пол» оказалось несущественным, и у нас есть основание считать, что регрессионная модель результатов курсовых экзаменов по математике в зависимости от вступительных одна и та же для юношей и девушек.
2.9. НЕЛИНЕЙНЫЕ МОДЕЛИ РЕГРЕССИИ
До сих пор мы рассматривали линейные регрессионные модели, в которых переменные имели первую степень (модели, линейные по переменным), а параметры выступали в виде коэффициентов при этих переменных (модели, линейные по параметрам). Однако соотношения между экономическими переменными далеко не всегда можно выразить линейными функциями.
Так, например, нелинейными оказываются производственные функции (зависимости между объемом произведенной продукции и основными факторами производства – трудом и капиталом).
Для оценки параметров нелинейных моделей используются два подхода.
Первый подход основан на линеаризации модели и заключается в том, что с помощью подходящих преобразований исходных переменных исследуемую зависимость представляют в виде линейного соотношения между преобразованными переменными.
Второй подход применяется в случае, когда подобрать соответствующее линеаризующее преобразование не удается. В этом случае применяются методы нелинейной оптимизации на основе исходных переменных.
Для линеаризации модели в рамках первого подхода могут использоваться как модели, не линейные по переменным, так и не линейные по параметрам.
Если модель нелинейна по переменным, то введением новых переменных ее можно свести к линейной модели, для оценки параметров которой использовать обычный метод наименьших квадратов.
Так, например, если необходимо оценить параметры регрессионной модели
(i=1,…,n)
то вводя новые переменные , получим линейную модель
, (i=1,…,n)
параметры которой находятся обычным методом наименьших квадратов.
Более сложной проблемой является нелинейность модели по параметрам, так как непосредственное применение метода наименьших квадратов для их оценивания невозможно. К числу таких моделей можно отнести, например, мультипликативную модель
, (i=1,..,n) (2.9.1)
экспоненциальную модель
(i=1,..,n) (2.9.2)
и другие.
В ряде случаев путем подходящих преобразований эти модели удается привести к линейной форме. Так, модели (2.9.1) и (2.9.2) могут быть приведены к линейным логарифмированием обеих частей уравнений. Тогда, например, модель (2.9.1) примет вид
(i=1,..,n) (2.9.3)
К модели (2.9.3) уже можно применять обычные методы исследования линейной регрессии. Следует однако отметить и недостаток такой замены, связанный с тем, что вектор оценок получается не из условия минимизации суммы квадратов отклонений для исходных переменных, а из условия минимизации суммы квадратов отклонений для преобразованных переменных, что не одно и то же. Следует также подчеркнуть, что критерии значимости и интервальные оценки параметров, применимые для нормальной линейной регрессии, требуют, чтобы нормальный закон распределения в моделях (2.9.1), (2.9.2) имел логарифм вектора возмущений а вовсе не ε.
Заметим попутно, что к модели
(i=1,..,n) (2.9.4)
изложенные методы уже непригодны, так как модель (2.9.4) нельзя привести к линейному виду.
В качестве примера использования линеаризирующего преобразования регрессии рассмотрим производственную функцию Кобба-Дугласа
(2.9.5)
где - объем производства, - затраты капитала, - затраты труда.
Учитывая влияние случайных возмущений, присущих каждому экономическому явлению, функцию Кобба-Дугласа (2.9.5) можно представить в виде
(2.9.6)
Полученную мультипликативную модель легко свести к линейной путем логарифмирования обеих частей уравнения (2.9.6). Тогда для i-го наблюдения получим
= + (i=1,..,n) (2.9.7)
2.10. ОБОБЩЕННАЯ ЛИНЕЙНАЯ МОДЕЛЬ. ГЕТЕРОСКЕДАСТИЧНОСТЬ ОСТАТКОВ.
При моделировании реальных экономических процессов мы нередко сталкиваемся с ситуациями, в которых условия классической линейной модели регрессии оказываются нарушенными. В частности, могут не выполняться предпосылки регрессионного анализа о том, что случайные ошибки модели имеют постоянную дисперсию и не коррелированны между собой. Для линейной множественной модели эти предпосылки означают, что ковариационная матрица вектора возмущений (ошибок) ε имеет вид
. (2.10.1)
В тех случаях, когда имеющиеся статистические данные достаточно однородны, допущение (2.10.1) вполне оправдано. Однако, в других ситуациях оно может оказаться неприемлемым. Так, например, при исследовании зависимости расходов на потребление от уровня доходов семей можно ожидать, что в более обеспеченных семьях вариация расходов выше, чем в малообеспеченных, то есть дисперсии возмущений не одинаковы.
Обобщенная линейная модель множественной регрессии
(2.10.2)
отличается от классической только видом ковариационной матрицы: вместо
для классической модели имеем для обобщенной.
Для оценки параметров модели (2.10.2) можно применить обычный метод наименьших квадратов.
Оценка , полученная ранее и определенная соотношением (2.6.3), остается справедливой и в случае обобщенной модели. Оценка по-прежнему несмещенная и состоятельная.
Однако, полученная ранее формула для ковариационной матрицы вектора оценок Σ оказывается неприемлемой в условиях обобщенной модели. Действительно, учитывая (2.6.7), получим для обобщенной модели
,
(2.10.3)
в то время как для классической модели имели по формуле (2.6.8)
(2.10.4)
Обычный метод наименьших квадратов в обобщенной линейной регрессионной модели дает смещенную оценку ковариационной матрицы вектора оценок Σ.
Оценка , определенная по (2.6.3), хотя и будет состоятельной и несмещенной, но не будет оптимальной. Для получения эффективной оценки нужно использовать другую оценку, получаемую так называемым обобщенным методом наименьших квадратов.
Согласно теореме Айткена, в классе линейных несмещенных оценок вектора для обобщенной регрессионной модели оценка
(2.10.5)
имеет наименьшую ковариационную матрицу.
На практике ковариационная матрица возмущений 𝛺 почти никогда не известна и оценить ее параметров по n наблюдениям не представляется возможным.