Случайные ошибки

Природа случайности

С помощью метода наименьших квадратов можно получить оценки параметров модели линейной регрессии. Однако они являются лишь оценками. Для каждой другой выборки мы получим другие оценки параметров модели. Поэтому возникает вопрос о том, насколько надежны выборочные оценки.

В методе наименьших квадратов нас интересовало только качество подгонки прямой к точке. Коэффициент регрессии, вычисленный методом наименьших квадратов, является случайной величиной, свойства которой зависят от свойств случайного члена u. Поэтому теперь рассмотрим статистические свойства модели линейной регрессии.

Заметим, что для одного значения x и мы можем наблюдать разные значения y. Например, 1) x – возраст индивидуума, y – зарплата; 2) x – среднедушевой доход семьи, y – расходы на питание.

То есть можно рассматривать зависимости y от x для фиксированных значений x. Регрессионное уравнение имеет вид:

y = a + bx + u,

(41)

где x – детерминированная (неслучайная) величина, регрессор;

y, u – случайные величины.

Выбор вида уравнения называется спецификацией модели. Спецификация модели отражает наше представление о механизме зависимости y от x и сам выбор объясняющей переменной x.

Какова природа случайной ошибки u?

Есть две основные причины случайности:

‑ наша модель является упрощением действительности и есть еще другие параметры, от которых зависит y (например, зарплата зависит еще от уровня образования, стажа работы, типа фирмы и т.д.);

‑ трудности и ошибки измерения данных (например, расходы на питание составляются на основании записей участников опроса, которые фиксируют свои ежедневные расходы, разумеется при этом возможны ошибки).

Таким образом, можно считать, что u случайная величина с некоторой функцией распределения, которой соответствует функция распределения случайной величины y.