Случайные ошибки
Природа случайности
С помощью метода наименьших квадратов можно получить оценки параметров модели линейной регрессии. Однако они являются лишь оценками. Для каждой другой выборки мы получим другие оценки параметров модели. Поэтому возникает вопрос о том, насколько надежны выборочные оценки.
В методе наименьших квадратов нас интересовало только качество подгонки прямой к точке. Коэффициент регрессии, вычисленный методом наименьших квадратов, является случайной величиной, свойства которой зависят от свойств случайного члена u. Поэтому теперь рассмотрим статистические свойства модели линейной регрессии.
Заметим, что для одного значения x и мы можем наблюдать разные значения y. Например, 1) x – возраст индивидуума, y – зарплата; 2) x – среднедушевой доход семьи, y – расходы на питание.
То есть можно рассматривать зависимости y от x для фиксированных значений x. Регрессионное уравнение имеет вид:
y = a + bx + u, | (41) |
где x – детерминированная (неслучайная) величина, регрессор;
y, u – случайные величины.
Выбор вида уравнения называется спецификацией модели. Спецификация модели отражает наше представление о механизме зависимости y от x и сам выбор объясняющей переменной x.
Какова природа случайной ошибки u?
Есть две основные причины случайности:
‑ наша модель является упрощением действительности и есть еще другие параметры, от которых зависит y (например, зарплата зависит еще от уровня образования, стажа работы, типа фирмы и т.д.);
‑ трудности и ошибки измерения данных (например, расходы на питание составляются на основании записей участников опроса, которые фиксируют свои ежедневные расходы, разумеется при этом возможны ошибки).
Таким образом, можно считать, что u случайная величина с некоторой функцией распределения, которой соответствует функция распределения случайной величины y.