Анализ статистической значимости параметров модели
Таблица 6
y | x1 | x2 | x3 |
5,0 | |||
3,5 | 10,0 | ||
15,0 | |||
20,0 | |||
25,0 | |||
30,0 | |||
35,0 |
Проверим наличие мультиколлениарности между факторными переменными, произведём отбор факторов и найдём параметры линейной модели множественной регрессии. Для нахождения коэффициентов парной корреляции можно воспользоваться формулой (2.1). Поскольку вычисления будут достаточно громоздкими,
эффективнее использовать средства табличного процессора Microsoft Excel. Применив к данным из Таблицы 6 обработку Сервис/ Анализ данных/ Корреляция, получим набор коэффициентов парной корреляции:
y | x1 | x2 | x3 | |
y | ||||
x1 | 0,949 | |||
x2 | 0,723 | 0,690 | ||
x3 | 0,938 | 0,992 | 0,630 |
Проверим выполнение условий (3.7) для каждой пары факторных переменных.
Для x1, x2:
- выполняется,
- выполняется,
- выполняется.
Все три условия (3.7) выполняются, значит мультиколлениарность между факторными переменными x1 (температура воздуха в г. Барнауле) и x2 (размер торговой наценки) отсутствует, то есть они могут использоваться в модели одновременно.
Для x1, x3:
- не выполняется,
- не выполняется,
- не выполняется.
Ни одно из условий не выполняется, следовательно, факторы x1 (температура воздуха в г. Барнауле) и x3 (температура воздуха в г. Новосибирске) мультиколлениарны, то есть не рекомендуется использовать их в модели одновременно. Поскольку , то фактор x1 теснее связан с исследуемой переменной y (объём продаж), чем фактор x3. Поэтому исключить из рассмотрения следует фактор x3.
Для x2, x3:
- выполняется,
- выполняется,
- выполняется.
Все три условия выполняются, значит мультиколлениарность между факторными переменными x2 и x3 отсутствует, и они могут использоваться в модели одновременно.
Можно резюмировать, что в модели можно оставить либо пару факторов x1, x2, либо пару x3, x2. То есть выбор необходимо сделать между факторами x1 и x3. Как уже отмечалось выше, фактор x1 имеет преимущество, поскольку теснее, чем x3, связан с y. Поэтому модель для объёма продаж y мы будем строить с учётом влияния факторов x1 и x2:
.
Для вычисления параметров модели по данным наблюдений выпишем вектор Yв и матрицу Xв:
Опуская операции транспонирования матрицы, перемножения матриц и нахождения обратной матрицы (можно воспользоваться в Excel функциями ТРАНСП, МУМНОЖ, МОБР), запишем промежуточный результат вычислений, необходимых для нахождения вектора параметров модели А по формуле (3.6):
.
Продолжая операции с матрицами в соответствии с (3.6), получим искомый вектор параметров модели:
.
То есть мы получили уравнение линейной регрессии следующего вида:
. (3.8)
Значения параметров модели указывают, что в среднем при увеличении температуры воздуха в г. Барнауле на 1 градус объём продаж на изучаемом предприятии увеличивается на 1,36 единицы, а при увеличении торговой наценки на 1% объём продаж увеличивается на 0,20 единицы. Последний вывод выглядит некорректно, поскольку в реальном процессе, наоборот, увеличение наценки сдерживает рост объёма продаж.
Определим по (3.8) расчётные значения исследуемой переменной для набора значений факторов, полученных в наблюдениях (Таблица 6), и составим ряд отклонений εi фактических значений объёма продаж от расчётных значений.
Таблица 7
y | 3,5 | ||||||
yр | -3,30 | 3,49 | 10,29 | 17,09 | 23,88 | 31,66 | 43,39 |
ε | 5,30 | 0,01 | -5,29 | -5,09 | -1,88 | 8,34 | -1,39 |
Значимость параметров модели множественной регрессии aj проверяется с помощью t-критерия Стьюдента аналогично тому, как мы проверяли значимость коэффициентов модели парной регрессии. Для каждого параметра уравнения вычисляется t-статистика:
. (3.9)
Здесь Sст – стандартная ошибка оценки, задаваемая соотношением (2.6), bjj – диагональный элемент матрицы .
Далее по таблицам (или в Excel с помощью функции СТЬЮДРАСПОБР) определяется значение tкр в зависимости от уровня значимости α и параметра n-m-1. Наконец, каждая из t-статистик (3.9) сравнивается с табличным значением. Если ׀taj׀ > tкр, то коэффициент aj считается значимым. В противном случае коэффициент не является значимым и его можно положить равным нулю, тем самым исключить из модели фактор xj (качество модели при этом не ухудшится).
Проверим значимость коэффициентов полученного нами уравнения регрессии (3.8). Вычислим стандартную ошибку оценки:
.
Тогда
.
Находим табличное значение . Для коэффициентов a0, a1 вычисленные t-статистики по модулю больше критического значения. Следовательно, с вероятностью 90% мы можем утверждать, что коэффициенты a0, a1 уравнения регрессии (3.8) являются значимыми.
,
следовательно, коэффициент a2 не является значимым, то есть его можно положить равным нулю, тем самым, исключив фактор x2 из рассмотрения.