Отбор факторных признаков при построении множественной регрессии.

Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели. Он включает в себя два круга вопросов: отбор факторов и выбор вида уравнения регрессии.

Отбор факторов является важнейшей проблемой при построении множественных регрессионных моделей. Он проводится на основе качественного и количественного анализа социально-экономических явлений с использованием статистических и математических критериев.

Проводят три стадии отбора факторов.

1. Предварительное определение перечня факторов, оказывающих влияние на переменную у

2. Сравнительная оценка и отсев факторов

3. Окончательный отбор факторов в процессе построения раз­ных вариантов моделей и оценки значимости их параметров

Для сравнительной оценки и отсева части факторов состав­ляют матрицу парных коэффициентов корреляции, измеряющих тесноту линейной связи каждого фактора с результативным признаком и с каждым из остальных факторных признаков (таблица 43).

Матрица парных коэффициентов корреляции — симметрич­ная матрица (rij = rji.) , на главной диагонали которой располо­жены характеристики силы связи признаков с самими собой, все другие элементы являются парными коэффициентами кор­реляции i-го и j-го признаков.

Корреляционная матрица позволяет выявить факторы, кото­рые находятся в тесной линейной корреляционной взаимосвя­зи, близкой к функциональной (таблица 43).

Таблица 43 - Корреляционная матрица.

  y x1 x2 xj xk
y ryx1 ryx2 ryx2 ryxk
x1 rx1y rx1x2 rx1xj rx1xk
x2 rx2y rx2x1 rx2 xj rx2xk
xj rxjy rxjx1 rxjx2 rxjxk
xk rxky rxkx1 rxkx2 rxkxj

где y – результативный признак;

x1, x2,…, xk – факторные признаки;

rij – парный коэффициент корреляции между признаками xi и xj.

Если в модель включаются два или более тесно взаимосвязанных фактора, то наряду с уравнением регрессии появляется и другая линейная зависимость. Подобное явление, называемое мультиколлинеарностью. Мультиколлинеарность – тесная зависимость между факторными признаками, включенными в модель.

Мультиколлинеарность искажает величину коэффициентов регрессии, затрудняет их экономическую интерпретацию.

Изменения, возникающие под воздействием мультиколлинеарности.

Ø Искажает величины параметров модели, которые имеют тен­денцию к завышению.

Ø Приводит к изменению смысла экономической интерпрета­ции коэффициентов регрессии.

Ø Вызывает слабую обусловленность системы нормальных уравнений.

Ø Осложняет процесс определения наиболее существенных факторных признаков

Решение проблемы мультиколлинеарности

В решении проблемы мультиколлинеарности можно выделить несколько этапов.

1. Установление наличия мульти­коллинеарности.

2. Определение причин возник­новения мультиколлинеарности.

3. Разработка мер по устранению мультиколлинеарности.

Причины возникновения мультиколлинеарности между признаками.

Ø Изучаемые факторные признаки характеризуют одну и ту же сторону явления или процесса (например, показатели объема произведенной продукции и среднегодовой стоимости основных фондов одновременно включать в модель не реко­мендуется, так как оба характеризуют размер предприятия)

Ø Использование в качестве факторных признаков, суммарное значение которых представляет собой постоянную величину (например, коэффициент годности и коэффициент износа основных фондов)

Ø Факторные признаки, являющиеся элементами друг друга (например, затраты на производство продукции и себестои­мость единицы продукции)

Ø Факторные признаки, по экономическому смыслу дублирующие друг друга (например, прибыль и рентабельность продукции)

Способы определения наличия или отсутствия мультиколлинеарности.

Ø Анализ матрицы коэффициентов парной корреляции

Факторы xi и xj могут быть признаны коллинеарными, если

Ø Иследование матрицы X ́X.

Если определитель матрицы X ́X близок к нулю, то это свидетельствует о наличии мультиколлинеарности.

Устранение мультиколлинеарности возможно посредством исключения из корреляционной модели одного или нескольких линейно связанных факторных признаков или преобразование исходных факторных признаков в новые, укрупненные факторы. Вопрос о том, какой из факторов следует отбросить, решается на основе качественного и логического анализа изучаемого явления.

Методы устранения или уменьшения мультиколлинеарности

1. Сравнение значений линейных коэффициентов корреляции

При отборе факторов предпочтение отдается тому фактору, который более тесно, чем другие факторы, связан с результативным признаком, причем желательно, чтобы связь данного факторного признака с у была выше, чем его связь с другим фак­торным признаком, т.е.

2. Метод включения факторов.

Метод заключается в том, что в модель включаются факторы по одному в определенной последовательности. На первом шаге в модель вводится тот фактор, который имеет наибольший коэффициент корреляции с зависимой переменной.

На втором и последующих шагах в модель включается фактор, который имеет наибольший коэффициент корреляции с остатками модели. После включения каждого фактора в модель рассчитывают ее характеристики, и модель проверяют на достоверность.

3. Метод исключения факторов

Метод состоит в том, что в модель включаются все факторы. Затем после построения уравнения ре­грессии из модели исключают фактор, коэффици­ент при котором незначим и имеет наименьшее значение t-критерия. После этого получают новое уравнение регрессии и снова проводят оценку значимости всех оставшихся коэффициентов регрессии.

Процесс исключения факторов продолжается до тех пор, пока модель не станет удовлетворять определенным условиям и все коэффициенты регрессии не будут значимы.

Пример17:

Требуется провести отбор факторов в модель множественной регрессии на основе условных исходных матрицы парных коэффициентов корреляции (таблица 44):

Таблица 44 – Отбор факторов в модель множественной регрессии.

 
0,8 0,7 0,6
0,8 0,8 0,5
0,7 0,8 0,2
0,6 0,5 0,2

 

Решение:

Очевидно, что факторы и дублируют друг друга. Корреляция с результатом слабее, чем корреляция фактора с , но значительно слабее межфакторная корреляция . Исходя из проведенного исследования в анализ целесообразно включить фактор , а не . В уравнение множественной регрессии включаются факторы , .