Задачі регресійного аналізу
Регресійний аналіз
Основна особливість регресійного аналізу: при його допомозі можна отримати конкретні відомості про те, яку форму і характер має залежність між досліджуваними змінними.
Послідовність етапів регресійного аналізу
Розглянемо коротко етапи регресійного аналізу.
- Формулювання задачі. На цьому етапі формуються попередні гіпотези про залежність досліджуваних явищ.
- Визначення залежних і незалежних (що пояснюють) змінних.
- Збір статистичних даних. Дані повинні бути зібрані для кожної із змінних, включених в регресійну модель.
- Формулювання гіпотези про форму зв'язку (проста або множинна, лінійна або нелінійна).
- Визначення функції регресії (полягає в розрахунку чисельних значень параметрів рівняння регресії)
- Оцінка точності регресійного аналізу.
- Інтерпретація отриманих результатів. Отримані результати регресійного аналізу порівнюються з попередніми гіпотезами. Оцінюється коректність і правдоподібність отриманих результатів.
- Передбачення невідомих значень залежної змінної.
За допомогою регресійного аналізу можливе вирішення задачі прогнозування і класифікації. Прогнозні значення обчислюються шляхом підстановки в рівняння регресії параметрів значень пояснюючих змінних. Вирішення задачі класифікації здійснюється таким чином: лінія регресії ділить всю множину об'єктів на два класи, і та частина множини, де значення функції більше нуля, належить до одного класу, а та, де вона менше нуля, – до іншого класу.
Розглянемо основні задачі регресійного аналізу: встановлення форми залежності, визначення функції регресії, оцінка невідомих значень залежної змінної.
Встановлення форми залежності.
Характер і форма залежності між змінними можуть утворювати наступні різновиди регресії:
Ø позитивна лінійна регресія (виражається в рівномірному зростанні функції);
Ø позитивна рівноприскорена зростаюча регресія;
Ø позитивна рівносповільнена зростаюча регресія;
Ø негативна лінійна регресія (виражається в рівномірному падінні функції);
Ø негативна рівноприскорена спадаюча регресія;
Ø негативна рівносповільнена спадаюча регресія.
Проте описані різновиди зазвичай зустрічаються не в чистому вигляді, а в поєднанні один з одним. В такому разі говорять про комбіновані форми регресії.
Визначення функції регресії.
Друга задача зводиться до з'ясування дії на залежну змінну головних чинників або причин, за незмінних інших рівних умов, і за умови виключення дії на залежну змінну випадкових елементів. Функція регресії визначається у вигляді математичного рівняння того або іншого типу.
Оцінка невідомих значень залежної змінної.
Вирішення цієї задачі зводиться до вирішення задачі одного з типів:
Ø Оцінка значень залежної змінної усередині даного інтервалу вихідних даних, тобто пропущених значень; при цьому вирішується задача інтерполяції.
Ø Оцінка майбутніх значень залежної змінної, тобто знаходження значень поза заданим інтервалом вихідних даних; при цьому вирішується задача екстраполяції.
Обидві задачі вирішуються шляхом підстановки в рівняння регресії знайдених оцінок параметрів значень незалежних змінних. Результат вирішення рівняння є оцінкою значення цільової (залежною) змінної.
Розглянемо деякі припущення, на які спирається регресійний аналіз.
Припущення лінійності, тобто передбачається, що зв'язок між даними змінними є лінійним. Так, в даному прикладі ми побудували діаграму розсіювання і змогли побачити явний лінійний зв'язок. Якщо ж на діаграмі розсіювання змінних ми бачимо явну відсутність лінійного зв'язку, тобто присутній нелінійний зв'язок, слід використовувати нелінійні методи аналізу.
Припущення про нормальність залишків. Воно допускає, що розподіл різниці передбачених і спостережуваних значень є нормальним. Для візуального визначення характеру розподілу можна скористатися гістограмами залишків.
При використанні регресійного аналізу слід враховувати його основне обмеження. Воно полягає в тому, що регресійний аналіз дозволяє виявити лише залежності, а не зв'язки, що лежать в основі цих залежностей.
Регресійний аналіз дає можливість оцінити міру зв'язку між змінними шляхом обчислення передбачуваного значення змінної на підставі декількох відомих значень.
Рівняння регресії.
Рівняння регресії виглядає таким чином: Y = a + b·x
За допомогою цього рівняння змінна Y виражається через константу а і кут нахилу прямої (або кутовий коефіцієнт) b, помножений на значення змінної X. Константу а також називають вільним членом, а кутовий коефіцієнт – коефіцієнтом регресії або B- коефіцієнтом.
У більшості випадків (якщо не завжди) спостерігається певний розкид спостережень відносно регресійної прямої.
Залишок – це відхилення окремої крапки (спостереження) від лінії регресії (передбаченого значення).
Для вирішення задачі регресійного аналізу в MS Excel вибираємо в меню Сервис "Пакет анализа" і інструмент аналізу "Регрессия". Задаємо вхідні інтервали X і Y. Вхідний інтервал Y – це діапазон залежних аналізованих даних, він повинен включати один стовпець. Вхідний інтервал X – це діапазон незалежних даних, які необхідно проаналізувати. Число вхідних діапазонів должно бути не більше 16.
На виході процедури у вихідному діапазоні отримуємо звіт, наведений в таблиці 8.3а, – 8.3в.
ПІДВЕДЕННЯ ПІДСУМКІВ
Таблиця 8.3а. Регресійна статистика
Регресійна статистика | |
Множественный R | 0,998364 |
R-квадрат | 0,99673 |
Нормированный R-квадрат | 0,996321 |
Стандартная ошибка | 0,42405 |
Наблюдения |
Спочатку розглянемо верхню частину розрахунків, представлену в таблиці 8.3а, – регресійну статистику.
Величина R-квадрат, називається також мірою визначеності, характеризує якість отриманої регресійної прямої. Ця якість виражається мірою відповідності між вихідними даними і регресійною моделлю (розрахунковими даними). Міра визначеності завжди знаходиться в межах інтервалу [0;1].
В більшості випадків значення R-квадрат знаходиться між цими значеннями, називаються екстремальними, тобто між нулем і одиницею.
Якщо значення R-квадрата близьке до одиниці, це означає, що побудована модель пояснює майже всю мінливість відповідних змінних. І навпаки, значення R-квадрата, близьке до нуля, означає погану якість побудованої моделі.
У нашому прикладі міра визначеності дорівнює 0,99673, що говорить про дуже хорошу підгонку регресійної прямої до вихідних даних.
Множественный R – коефіцієнт множинної кореляції R – виражає міру залежності незалежних змінних (X) і залежної змінної (Y).
Множественный R дорівнює квадратному кореню з коефіцієнта детермінації, ця величина набуває значень в інтервалі від нуля до одиниці.
У простому лінійному регресійному аналізі множественный R дорівнює коефіцієнту кореляції Пірсона. Дійсно, множественный R в нашому випадку дорівнює коефіцієнту кореляції Пірсона з попереднього прикладу (0,998364).
Таблиця 8.3б. Коефіцієнти регресії
Коэффициенты | Стандартная ошибка | t-статистика | |
Y-пересечение | 2,694545455 | 0,33176878 | 8,121757129 |
Переменная X 1 | 2,305454545 | 0,04668634 | 49,38177965 |
* Приведений усічений варіант розрахунків |
Тепер розглянемо середню частину розрахунків, представлену в таблиці 8.3б. Тут надано коефіцієнт регресії b (2,305454545) і зсув по осі ординат, тобто константа а (2,694545455).
Виходячи з розрахунків, можемо записати рівняння регресії таким чином:
Y = x·2,305454545 + 2,694545455
Напрям зв'язку між змінними визначається на підставі знаків (негативний або позитивний) коефіцієнтів регресії (коефіцієнта b).
Якщо знак при коефіцієнті регресії – позитивний, зв'язок залежної змінної з незалежною буде позитивним. У нашому випадку знак коефіцієнта регресії позитивний, отже, зв'язок також є позитивним.
Якщо знак при коефіцієнті регресії – негативний, зв'язок залежної змінної з незалежною є негативним (зворотною).
У таблиці 8.3в. представлені результати виведення залишків. Для того, щоб ці результати з'явилися в звіті, необхідно при запуску інструменту "Регрессия" активувати чекбокс "Остатки".
ВИВЕДЕННЯ ЗАЛИШКУ
Таблиця 8.3в. Залишки
Наблюдение | Предсказанное Y | Остатки | Стандартные остатки |
9,610909091 | – 0,610909091 | – 1,528044662 | |
7,305454545 | – 0,305454545 | – 0,764022331 | |
11,91636364 | 0,083636364 | 0,209196591 | |
14,22181818 | 0,778181818 | 1,946437843 | |
16,52727273 | 0,472727273 | 1,182415512 | |
18,83272727 | 0,167272727 | 0,418393181 | |
21,13818182 | – 0,138181818 | – 0,34562915 | |
23,44363636 | – 0,043636364 | – 0,109146047 | |
25,74909091 | – 0,149090909 | – 0,372915662 | |
28,05454545 | – 0,254545455 | – 0,636685276 |
За допомогою цієї частини звіту ми можемо бачити відхилення кожної крапки від побудованої лінії регресії. Найбільше абсолютне значення залишку в нашому випадку – 0,778, найменше – 0,043. Для кращої інтерпретації цих даних скористаємося графіком вихідних даних і побудованою лінією регресії, представленими на рис. 8.3. Як бачимо, лінія регресії досить точно "підігнана" під значення вихідних даних.
Слід враховувати, що даний приклад є досить простим і далеко не завжди можлива якісна побудова регресійної прямої лінійного вигляду.
Рис. 8.3. Вихідні дані і лінія регресії
Залишилося нерозглянутим задача оцінки невідомих майбутніх значень залежної змінної на підставі відомих значень незалежної змінної, тобто задача прогнозування.
Маючи рівняння регресії, задача прогнозування зводиться до вирішення рівняння Y = x·2,305454545 + 2,694545455 з відомими значеннями x. Результати прогнозування залежної змінної Y на шість кроків вперед представлені в таблиці 8.4.
Таблиця 8.4. Результати прогнозування змінної Y
х | Y(прогнозоване) |
28,05455 | |
30,36 | |
32,66545 | |
34,97091 | |
37,27636 | |
39,58182 |
Таким чином, в результаті використання регресійного аналізу в пакеті Microsoft Excel ми:
Ø побудували рівняння регресії;
Ø встановили форму залежності і напрям зв'язку між змінними – позитивна лінійна регресія, яка виражається в рівномірному зростанні функції;
Ø встановили напрям зв'язку між змінними;
Ø оцінили якість отриманої регресійної прямої;
Ø змогли побачити відхилення розрахункових даних від даних вихідного набору;
Ø передбачили майбутні значення залежної змінної.
Якщо функція регресії визначена, інтерпретована і обґрунтована, і оцінка точності регресійного аналізу відповідає вимогам, можна вважати, що побудована модель і прогнозні значення володіють достатньою надійністю.
Прогнозні значення, отримані в такий спосіб, є середніми значеннями, які можна чекати.