Задание 12. Расчет и оценка уравнения множественной регрессии средствами Excel
Построить модель множественной линейной регрессии, которая позволит оценить объем товарооборота на ближайшую перспективу при заданных параметрах независимых переменных: «оборачиваемость товаров» и «удельный вес товаров с высокими торговыми надбавками». Исходные данные представлены в таблице 3.20.
Таблица 3.20 - Исходные данные
А | В | С | D | |
Порядковый номер месяца | Объем товарооборота, ден. ед. | Оборачиваемость товаров, дни | Удельный вес товаров с высокими торговыми надбавками, % | |
43,5 | 22,5 | |||
43,0 | 18,0 | |||
43,0 | 24,9 | |||
43,5 | 24,4 | |||
43,0 | 20,6 | |||
42,5 | 19,0 | |||
43,0 | 22,2 | |||
41,5 | 21,6 | |||
42,0 | 19,8 | |||
41,5 | 19,7 | |||
40,5 | 23,1 | |||
40,0 | 23,9 | |||
40,0 | 21,2 | |||
39,0 | 20,4 | |||
39,5 | 24,2 | |||
39,0 | 26,5 |
Выполнение:
При построении модели множественной регрессии целесообразнее обратиться к инструменту Excel Регрессия, который предлагает исчерпывающую статистическую информацию о ее параметрах и качестве. Порядок работы с инструментом Регрессия определяется соответствующим окном диалога. Его можно вызвать через команду Анализ данных из контекстного меню панели Сервис. Диалоговое окно Регрессия предлагает пользователю определиться с набором следующих параметров (рисунок 3.19):
1) Входной интервал У — предлагает ввод ссылки на ячейки рабочего листа, которые содержат диапазон базовых данных зависимой переменной у (исследуемого показателя). В нашем примере Входной интервал Y – В2:В18;
2) Входной интервал X — предполагает ввод ссылки на ячейки рабочего листа, которые содержат диапазон базовых данных независимых переменных х1, х2, ..., xk. В нашем примере Входной интервал Х – С2:D18;
3) Метки — требует установления флажка, если первая строка входного интервала содержит заголовки (названия столбцов). Если заголовки отсутствуют, то флажок устанавливать не нужно — Excel автоматически создаст соответствующие названия для данных выходного диапазона. В нашем примере – устанавливаем флажок;
4) Уровень надежности — позволяет пользователю определить необходимый уровень надежности оценки выходного диапазона значений. По умолчанию Excel применяет уровень 95 %. Если его нужно изменить, то для данного параметра следует установить флажок и в специально открывшееся поле ввести нужный уровень надежности. В нашем - примере флажок не устанавливаем;
5) Константа-ноль — требует установления флажка, если для уравнения регрессии не нужно рассчитывать параметр b (свободный член). В этом случае Excel принимает b, равным нулю. В нашем примере – флажок не устанавливаем;
6) Выходной диапазон — предполагает ввод ссылки на верхнюю левую ячейку выходного диапазона. Выходной массив значений будет занимать не менее семи столбцов и содержать три основных раздела: 1. Регрессионная статистика; 2. Дисперсионный анализ; 3. Параметры (коэффициенты) регрессии и характеристики их статистической значимости;
7) Новый лист — применяют, если результаты анализа следует разместить на новом листе книги, начиная с ячейки А1;
8) Новая книга — используется, если результаты анализа необходимо разместить на первом листе специально открытой для этого новой книги;
9) Остатки — требует установления флажка, если в целях проведения углубленного статистического анализа качества модели в выходной диапазон, кроме трех основных разделов, необходимо включить значения отклонений фактических данных исследуемого показателя от соответствующих им точек регрессионной прямой (У фактическое - У расчетное);
10) Стандартизированные остатки — применяют с той же целью для включения в выходной диапазон значений стандартных остатков;
11) График остатков — используется, если для статистического анализа необходимо построить диаграммы остатков для каждой независимой переменной х;
12) График подбора — предполагает формирование на рабочем листе диаграмм, позволяющих отследить характер связи и степень разброса наблюдаемых и предсказанных значений исследуемого показателя у с каждой независимой переменной х;
13) График нормальной вероятности — требует установления флажка, если пользователю необходимо получить график нормального распределения вероятности для исследуемого показателя.
Рисунок 3.19 - Окно диалога Регрессия
Так, в первом разделе выходного массива «Регрессионная статистика» (см. ячейки А4:В8 таблицы 3.21) приведены основные статистические характеристики общего качества уравнения: коэффициент множественной корреляции R, коэффициент детерминации R2, стандартная ошибка оценки. Значение R2, равное 0,892, свидетельствует о том, что на основе полученного уравнения регрессии можно объяснить 89,2 % вариации объема товарооборота.
Статистические характеристики второго раздела выходного массива «Дисперсионный анализ» (ячейки A10:F14) позволяют оценить меру разброса (дисперсию) зависимой переменной у и остаточной вариации (дисперсии) отклонений вокруг линии регрессии. Так, значение SSр (ячейка С12) характеризует часть дисперсии, объясненную регрессией, а SSо (ячейка С13) — часть дисперсии, не объясненной регрессией из-за наличия ошибок ε. При проведении регрессионного анализа особый интерес представляет изменение этих значений по мере введения каждого регрессора. Качество модели улучшится, если после введения в нее нового фактора значение объясненной части дисперсии возрастет, а не объясненной — снизится.
В ячейках D12:D13 отражены соответственно дисперсия исходного ряда (МSp = SSp / df, где df = k — см. ячейку В12) и несмещенная дисперсия остаточной компоненты (MS0 = SS0 / df, где df = п - k - 1 — см. ячейку В13).
В ячейке F12 второго раздела выходного массива приведен уровень значимости для оцененного F.Значения F-статистики (53,72) выглядит вполне допустимым, поскольку уровень значимости для нее (5,2×107) остается гораздо ниже 5%-го предела, принятого для табличных F-статистик. Следовательно, есть основания ожидать, что F-наблюдаемое будет больше Fкрит.
Оценив на основе первого и второго разделов выходного массива общее качество модели связи и убедившись в ее значимости, можем перейти к третьему разделу (см. ячейки A16:G19 таблицы 3.21), который содержит детальную информацию о параметрах уравнения регрессии. Приведенные в ячейках В17:В19 значения параметров (коэффициентов) уравнения позволяют придать формальный вид модели, построенной с помощью регрессионного анализа:
у = 71650,26 – 1098,94х1 + 255,838х2,
где х1 — оборачиваемость товаров, дни; х2 - удельный вес товаров с высокими торговыми надбавками, %.
Оценить значимость каждого параметра позволяют значения t-статистики (см. ячейки D17:D19). Можно использовать приведенный в выходном массиве уровень значимости (см. ячейки Е17:Е19): если он не превышает 0,05 (т.е. 5%-го уровня), то рассчитанные характеристики t-статистики будут больше табличного значения. Следовательно, статистическая значимость рассчитанных параметров уравнения весьма высока.
И, наконец, наряду с точечными значениями коэффициентов регрессии третий раздел выходного массива позволяет получить их интервальные оценки с доверительной вероятностью 95 % (см. ячейки F17:G19 таблицы 3.21):
58598,85 < b < 84701,68; -1370,81 < m1 < -827,08; 68,597 < m2 < 443,079.
На основании изложенного можно с 95%-й уверенностью утверждать, что параметры уравнения содержат информацию, значимую для расчета исследуемого показателя.
Таблица 3.21 - Регрессионный анализ