Этапы корреляционно-регрессионного анализа

Практическая реализация корреляционно-регрессионного анализа включает следующие этапы:

Первый этап:

Постановка задачи – определяются показатели, зависимость между которыми подлежит оценке, формулируется экономически осмысленная и приемлемая гипотеза о зависимости между ними.

Второй этап:

Формирование перечня факторов, их логический анализ – выбирается оптимальное число наиболее существенных переменных факторов, влияющих на зависимый показатель, т.е. осуществляется это сбор данных.

После подготовки данных начинается их обработка.

Третий этап:

Корреляционный анализ (спецификация функции регрессии) – дается конкретная формулировка гипотезы о форме зависимости. Его цель - определить характер связи (прямая, обратная) и силу связи (связь отсутствует, связь слабая, умеренная, заметная, сильная, весьма сильная, полная связь). Корреляционный анализ создает информацию о характере и степени выраженности связи (коэффициент корреляции), которая используется для отбора существенных факторов, а также для планирования эффективной последовательности расчета параметров регрессионных уравнений. При одном факторе вычисляют коэффициент корреляции, а при наличии нескольких факторов строят корреляционную матрицу, из которой выясняют два вида связей: (1) связи зависимой переменной с независимыми, (2) связи между самими независимыми.

Рассмотрение матрицы позволяет, во-первых, выявить факторы, действительно влияющие на исследуемую зависимую переменную, и выстроить (ранжировать) их по убыванию связи; во-вторых, минимизировать число факторов в модели, исключив часть факторов, которые сильно или функционально связаны с другими факторами (речь идет о связях независимых переменных между собой).

Пятый этап:

Оценка функции регрессии и проверка адекватности модели – определяются числовые значения параметров регрессии, вычисляется ряд показателей, характеризующих точность проведенного анализа. Цель этапа – отыскать наиболее точную меру выявленной связи, для того чтобы можно было прогнозировать, предсказывать значения зависимой величины Y, если будут известны значения независимых величин X1, Х2, .... Хп.

Шестой этап:

Экономическая интерпретация – результаты анализа сравниваются с гипотезами, сформулированными на первом этапе исследования, оценивается их правдоподобие с экономической точки зрения, делаются аналитические выводы.

 

Вопрос 7 «Условия отбора факторов, которые необходимо соблюдать при проведении корреляционно-регрессионного анализа»

От качества данных зависит точность результатов анализа. Поэтому имеется ряд требований и правил, которые следует соблюдать при сборе данных.

Данные должны быть наблюдаемыми, т. е. полученными в результате замера, а не расчета. Наблюдения следует спланировать. Сколько необходимо данных для получения хорошего уравнения? По мнению одних статистиков данных необходимо в 4-6 раз больше, чем число факторов, влияние которых хотят выразить математически, по мнению других - в 7-8 раз больше числа факторов.

Чем больше неодинаковых (не повторяющихся) данных, и чем они однороднее, тем лучше получится уравнение, если связи существенны. Подозрительные данные могут быть вызваны ошибками наблюдений и экспериментов. Например, данные о размерах заработка рабочих завода выражены трехзначными числами, но обнаружены одно пятизначное и одно однозначное числа - для упрощения анализа до начала решения такие данные рекомендуется отбрасывать (исключать из массива).

Известно, что наиболее надежными на практике бывают одно- и двухфакторные модели.

Если будет обнаружено, что два фактора имеют сильную или полную связь между собой, то в регрессионное уравнение достаточно будет включить один из них. В одно регрессионное уравнение нельзя одновременно включать переменные «Количество работающих» и «Производительность труда» как независимые (поскольку показатель производительности труда получают делением выработки работников на количество работающих) - здесь имеет место полная связь. Аналогично будут связаны также показатели прибыли и затрат, поскольку прибыль вычисляют вычитанием затрат из доходов. Исключение одной из каждой пары названных переменных повысит значимость уравнения в целом; при этом исключать следует показатель, полученный не наблюдением (замером или счетом), а вычислением.

Таким образом, при отборе факторов целесообразно соблюдать следующие условия:

1. во внимание необходимо брать только самые существенные факторы;

2. факторы, включаемые в модель, должны быть количественно измеримы;

3. в корреляционную модель линейного типа не следует включать факторы, связь которых с результативным показателем носит исключительно прямолинейный характер;

4. в корреляционную модель нельзя включать взаимозависимые факторы. Так, если парный коэффициент корреляции между двумя факторами больше 0,85, то один из этих факторов надо исключить из расчета;

5. в корреляционную модель нельзя включать факторы, которые имеют с результативным показателем функциональный характер. Показателем этого служит множественный коэффициент детерминации, который должен иметь значение до 0,95;

6. в корреляционную модель нельзя включать факторы, алгебраическая сумма или произведение которых равна 1 или 100%.