Задачі регресійного аналізу

Регресійний аналіз

Основна особливість регресійного аналізу: при його допомозі можна отримати конкретні відомості про те, яку форму і характер має залежність між досліджуваними змінними.

 

Послідовність етапів регресійного аналізу

Розглянемо коротко етапи регресійного аналізу.

  1. Формулювання задачі. На цьому етапі формуються попередні гіпотези про залежність досліджуваних явищ.
  2. Визначення залежних і незалежних (що пояснюють) змінних.
  3. Збір статистичних даних. Дані повинні бути зібрані для кожної із змінних, включених в регресійну модель.
  4. Формулювання гіпотези про форму зв'язку (проста або множинна, лінійна або нелінійна).
  5. Визначення функції регресії (полягає в розрахунку чисельних значень параметрів рівняння регресії)
  6. Оцінка точності регресійного аналізу.
  7. Інтерпретація отриманих результатів. Отримані результати регресійного аналізу порівнюються з попередніми гіпотезами. Оцінюється коректність і правдоподібність отриманих результатів.
  8. Передбачення невідомих значень залежної змінної.

 

За допомогою регресійного аналізу можливе вирішення задачі прогнозування і класифікації. Прогнозні значення обчислюються шляхом підстановки в рівняння регресії параметрів значень пояснюючих змінних. Вирішення задачі класифікації здійснюється таким чином: лінія регресії ділить всю множину об'єктів на два класи, і та частина множини, де значення функції більше нуля, належить до одного класу, а та, де вона менше нуля, – до іншого класу.

 

Розглянемо основні задачі регресійного аналізу: встановлення форми залежності, визначення функції регресії, оцінка невідомих значень залежної змінної.

Встановлення форми залежності.

Характер і форма залежності між змінними можуть утворювати наступні різновиди регресії:

Ø позитивна лінійна регресія (виражається в рівномірному зростанні функції);

Ø позитивна рівноприскорена зростаюча регресія;

Ø позитивна рівносповільнена зростаюча регресія;

Ø негативна лінійна регресія (виражається в рівномірному падінні функції);

Ø негативна рівноприскорена спадаюча регресія;

Ø негативна рівносповільнена спадаюча регресія.

 

Проте описані різновиди зазвичай зустрічаються не в чистому вигляді, а в поєднанні один з одним. В такому разі говорять про комбіновані форми регресії.

 

Визначення функції регресії.

Друга задача зводиться до з'ясування дії на залежну змінну головних чинників або причин, за незмінних інших рівних умов, і за умови виключення дії на залежну змінну випадкових елементів. Функція регресії визначається у вигляді математичного рівняння того або іншого типу.

 

Оцінка невідомих значень залежної змінної.

Вирішення цієї задачі зводиться до вирішення задачі одного з типів:

Ø Оцінка значень залежної змінної усередині даного інтервалу вихідних даних, тобто пропущених значень; при цьому вирішується задача інтерполяції.

Ø Оцінка майбутніх значень залежної змінної, тобто знаходження значень поза заданим інтервалом вихідних даних; при цьому вирішується задача екстраполяції.

 

Обидві задачі вирішуються шляхом підстановки в рівняння регресії знайдених оцінок параметрів значень незалежних змінних. Результат вирішення рівняння є оцінкою значення цільової (залежною) змінної.

Розглянемо деякі припущення, на які спирається регресійний аналіз.

Припущення лінійності, тобто передбачається, що зв'язок між даними змінними є лінійним. Так, в даному прикладі ми побудували діаграму розсіювання і змогли побачити явний лінійний зв'язок. Якщо ж на діаграмі розсіювання змінних ми бачимо явну відсутність лінійного зв'язку, тобто присутній нелінійний зв'язок, слід використовувати нелінійні методи аналізу.

Припущення про нормальність залишків. Воно допускає, що розподіл різниці передбачених і спостережуваних значень є нормальним. Для візуального визначення характеру розподілу можна скористатися гістограмами залишків.

При використанні регресійного аналізу слід враховувати його основне обмеження. Воно полягає в тому, що регресійний аналіз дозволяє виявити лише залежності, а не зв'язки, що лежать в основі цих залежностей.

Регресійний аналіз дає можливість оцінити міру зв'язку між змінними шляхом обчислення передбачуваного значення змінної на підставі декількох відомих значень.

 

Рівняння регресії.

Рівняння регресії виглядає таким чином: Y = a + b·x

За допомогою цього рівняння змінна Y виражається через константу а і кут нахилу прямої (або кутовий коефіцієнт) b, помножений на значення змінної X. Константу а також називають вільним членом, а кутовий коефіцієнт – коефіцієнтом регресії або B- коефіцієнтом.

У більшості випадків (якщо не завжди) спостерігається певний розкид спостережень відносно регресійної прямої.

Залишок – це відхилення окремої крапки (спостереження) від лінії регресії (передбаченого значення).

Для вирішення задачі регресійного аналізу в MS Excel вибираємо в меню Сервис "Пакет анализа" і інструмент аналізу "Регрессия". Задаємо вхідні інтервали X і Y. Вхідний інтервал Y – це діапазон залежних аналізованих даних, він повинен включати один стовпець. Вхідний інтервал X – це діапазон незалежних даних, які необхідно проаналізувати. Число вхідних діапазонів должно бути не більше 16.

На виході процедури у вихідному діапазоні отримуємо звіт, наведений в таблиці 8.3а, – 8.3в.

 

ПІДВЕДЕННЯ ПІДСУМКІВ

 

Таблиця 8.3а. Регресійна статистика

Регресійна статистика
Множественный R 0,998364
R-квадрат 0,99673
Нормированный R-квадрат 0,996321
Стандартная ошибка 0,42405
Наблюдения

 

Спочатку розглянемо верхню частину розрахунків, представлену в таблиці 8.3а, – регресійну статистику.

Величина R-квадрат, називається також мірою визначеності, характеризує якість отриманої регресійної прямої. Ця якість виражається мірою відповідності між вихідними даними і регресійною моделлю (розрахунковими даними). Міра визначеності завжди знаходиться в межах інтервалу [0;1].

В більшості випадків значення R-квадрат знаходиться між цими значеннями, називаються екстремальними, тобто між нулем і одиницею.

Якщо значення R-квадрата близьке до одиниці, це означає, що побудована модель пояснює майже всю мінливість відповідних змінних. І навпаки, значення R-квадрата, близьке до нуля, означає погану якість побудованої моделі.

У нашому прикладі міра визначеності дорівнює 0,99673, що говорить про дуже хорошу підгонку регресійної прямої до вихідних даних.

Множественный R – коефіцієнт множинної кореляції R – виражає міру залежності незалежних змінних (X) і залежної змінної (Y).

Множественный R дорівнює квадратному кореню з коефіцієнта детермінації, ця величина набуває значень в інтервалі від нуля до одиниці.

У простому лінійному регресійному аналізі множественный R дорівнює коефіцієнту кореляції Пірсона. Дійсно, множественный R в нашому випадку дорівнює коефіцієнту кореляції Пірсона з попереднього прикладу (0,998364).

 

Таблиця 8.3б. Коефіцієнти регресії

  Коэффициенты Стандартная ошибка t-статистика
Y-пересечение 2,694545455 0,33176878 8,121757129
Переменная X 1 2,305454545 0,04668634 49,38177965
* Приведений усічений варіант розрахунків

 

Тепер розглянемо середню частину розрахунків, представлену в таблиці 8.3б. Тут надано коефіцієнт регресії b (2,305454545) і зсув по осі ординат, тобто константа а (2,694545455).

Виходячи з розрахунків, можемо записати рівняння регресії таким чином:

Y = x·2,305454545 + 2,694545455

Напрям зв'язку між змінними визначається на підставі знаків (негативний або позитивний) коефіцієнтів регресії (коефіцієнта b).

Якщо знак при коефіцієнті регресії – позитивний, зв'язок залежної змінної з незалежною буде позитивним. У нашому випадку знак коефіцієнта регресії позитивний, отже, зв'язок також є позитивним.

Якщо знак при коефіцієнті регресії – негативний, зв'язок залежної змінної з незалежною є негативним (зворотною).

У таблиці 8.3в. представлені результати виведення залишків. Для того, щоб ці результати з'явилися в звіті, необхідно при запуску інструменту "Регрессия" активувати чекбокс "Остатки".

 

ВИВЕДЕННЯ ЗАЛИШКУ

 

Таблиця 8.3в. Залишки

Наблюдение Предсказанное Y Остатки Стандартные остатки
9,610909091 – 0,610909091 – 1,528044662
7,305454545 – 0,305454545 – 0,764022331
11,91636364 0,083636364 0,209196591
14,22181818 0,778181818 1,946437843
16,52727273 0,472727273 1,182415512
18,83272727 0,167272727 0,418393181
21,13818182 – 0,138181818 – 0,34562915
23,44363636 – 0,043636364 – 0,109146047
25,74909091 – 0,149090909 – 0,372915662
28,05454545 – 0,254545455 – 0,636685276

 

За допомогою цієї частини звіту ми можемо бачити відхилення кожної крапки від побудованої лінії регресії. Найбільше абсолютне значення залишку в нашому випадку – 0,778, найменше – 0,043. Для кращої інтерпретації цих даних скористаємося графіком вихідних даних і побудованою лінією регресії, представленими на рис. 8.3. Як бачимо, лінія регресії досить точно "підігнана" під значення вихідних даних.

Слід враховувати, що даний приклад є досить простим і далеко не завжди можлива якісна побудова регресійної прямої лінійного вигляду.

 

 

Рис. 8.3. Вихідні дані і лінія регресії

 

Залишилося нерозглянутим задача оцінки невідомих майбутніх значень залежної змінної на підставі відомих значень незалежної змінної, тобто задача прогнозування.

Маючи рівняння регресії, задача прогнозування зводиться до вирішення рівняння Y = x·2,305454545 + 2,694545455 з відомими значеннями x. Результати прогнозування залежної змінної Y на шість кроків вперед представлені в таблиці 8.4.

 

Таблиця 8.4. Результати прогнозування змінної Y

х Y(прогнозоване)
28,05455
30,36
32,66545
34,97091
37,27636
39,58182

 

Таким чином, в результаті використання регресійного аналізу в пакеті Microsoft Excel ми:

Ø побудували рівняння регресії;

Ø встановили форму залежності і напрям зв'язку між змінними – позитивна лінійна регресія, яка виражається в рівномірному зростанні функції;

Ø встановили напрям зв'язку між змінними;

Ø оцінили якість отриманої регресійної прямої;

Ø змогли побачити відхилення розрахункових даних від даних вихідного набору;

Ø передбачили майбутні значення залежної змінної.

 

Якщо функція регресії визначена, інтерпретована і обґрунтована, і оцінка точності регресійного аналізу відповідає вимогам, можна вважати, що побудована модель і прогнозні значення володіють достатньою надійністю.

Прогнозні значення, отримані в такий спосіб, є середніми значеннями, які можна чекати.