Спецификация модели

Тема 2. Парная линейная регрессия

Понимание бизнеса организации, среды ее деятельности

Стандарт 315 «Понимание бизнеса организации, среды ее деятельности и оценка рисков существенного искажения» объединяет следующие параграфы: введение, получение знаний о бизнесе клиента, о среде

В зависимости от количества факторов, включенных в уравнение регрессии, принято различать простую (парную) и множественную регрессии.

Простая регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной y рассматривается как функция одной независимой (объясняющей) переменной x, т.е. это модель вида

Множественная регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной y рассматривается как функция нескольких независимых (объясняющих) переменных x₁, x₂, …, т.е. это модель вида

Любое эконометрическое исследование начинается со спецификации модели, т.е. с формулировки вида модели исходя из соответствующей теории связи между переменными. В первую очередь из всего круга факторов, влияющих на результативный признак, необходимо выделить наиболее существенно влияющие факторы. Парная регрессия достаточна, если имеется один доминирующий фактор, который и используется в качестве объясняющей переменной.

Уравнение простой регрессии характеризует связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем по совокупности наблюдений. Так, если зависимость спроса y от цены x характеризуется, например, уравнением y = 5000 – 2×x, то это означает, что с ростом цены на 1 д.е. спрос в среднем уменьшается на 2 д.е. В уравнении регрессии корреляционная по сути связь признаков представляется в виде функциональной связи, выраженной соответствующей математической функцией.

Практически в каждом отдельном случае величина y складывается из двух слагаемых:

(2.1)

где y_j – фактическое значение результативного признака; –теоретическое значение результативного признака, найденное из уравнения регрессии; e_j – случайная величина, характеризующая отклонения реального значения результативного признака от теоретического.

Случайная величина e_j, или возмущение, включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. Ее присутствие в модели обусловлено тремя источниками: спецификацией модели, выборочным характером исходных данных, особенностями измерения переменных.

От правильно выбранной спецификации модели зависит величина случайных ошибок – они тем меньше, чем в большей мере теоретические значения результативного признака подходят к фактическим данным.

К ошибкам спецификации будет относиться не только неправильный выбор той или иной математической функции, но и недоучет в уравнении регрессии какого-либо существенного фактора, т.е. использование парной регрессии вместо множественной. Так, спрос на конкретный товар может определяться и ценой, и доходом на душу населения.

Наряду с ошибками спецификации могут иметь место ошибки выборки, поскольку исследователь чаще всего работает с выборочными данными при установлении закономерной связи между признаками. Ошибки выборки имеют место и в силу неоднородности данных в исходной статистической совокупности, что, как правило, бывает при изучении экономических процессов. Если совокупность неоднородна, то уравнение регрессии не имеет практического смысла. Для получения хорошего результата обычно исключают из совокупности единицы с аномальными значениям исследуемых признаков. И в этом случае результаты регрессии представляют собой выборочные характеристики. Использование временной информации также представляет собой выборку из всего множества хронологических дат. Изменив временной интервал, можно получить другие результаты регрессии.

Наибольшую опасность в практическом использовании методов регрессии представляют ошибки измерения. Если ошибки спецификации можно уменьшить, изменяя форму модели (вид математической формулы), а ошибки выборки – увеличивая объем исходных данных, то ошибки измерения практически сводят на нет все усилия по количественной оценке связи между признаками. Особенно велика роль ошибок измерения при исследовании на макроуровне. Так, в исследованиях спроса и потребления широко используется «доход на душу населения». Вместе с тем статистическое измерение величины дохода сопряжено с рядом трудностей и не лишено возможных ошибок, например, в результате наличий скрытых доходов.

Предполагая, что ошибки измерения сведены к минимуму, основное внимание в эконометрических исследованиях уделяется ошибкам спецификации модели.

В парной регрессии спецификация модели связана с выбором вида математической функции, а в множественной – также с отбором факторов, включаемых в модель.

При построении регрессионных моделей могут использоваться как линейные, так и нелинейные функции. В большинстве стандартных пакетов прикладных программ предусмотрена процедура преобразования нелинейных функций в линейные. В результате исследователь работает с линейной моделью, построенной по преобразованным данным. Этим объясняется то внимание, которое уделяется рассмотрению именно линейной регрессии как основному виду регрессионных моделей. Кроме того, вариация переменных может быть весьма ограничена, и реальный эффект нелинейности их связи может не проявиться. Это еще один аргумент в пользу линейных моделей. Например, ясно, что чрезмерное внесение удобрений может привести не к росту, а к снижению урожайности, но фактически подобная ситуация маловероятна. Так что если теоретически мы должны выразить зависимость урожайности от удобрений как y = a + b × x + c × x² + e, то, вероятнее всего, вполне достаточным будет выражение как y = a + b × x + e.

Наконец, ошибки измерения в переменных могут свести на нет наши усилия по усложнению модели. И мы должны признать, что при грубых измерениях более эффективно простое описание связей. Это еще один довод, объясняющий предпочтение линейных моделей.