Основные понятия и определения.

Парная регрессия – уравнение связи двух переменных y и x:

где y – зависимая переменная (результативный признак);

x – независимая, объясняющая переменная (признак-фактор).

Различают линейные и нелинейные регрессии. Линейная регрессия: y=a+bx+e. Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.

Регрессии, нелинейные по объясняющим переменным:

· полиномы разных степеней y=a+b₁x+b₂x²+b₃x³+e;

· равносторонняя гипербола .

Регрессии, нелинейные по оцениваемым параметрам:

· степенная y=a×x^b×e;

· показательная y=a×b^x×e;

· экспоненциальная y=e ^a⁺^b^×^x×e.

Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака y от теоретических минимальна, т.е.

Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно a и b:

Можно воспользоваться готовыми формулами, которые вытекают из этой системы:

Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции r_xy для линейной регрессии (-1£ r_xy£1):

и индекс корреляции ρ_xy – для линейной регрессии (0£ ρ_xy £1):

Оценку качества построенной модели даст коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации.

Средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических: Допустимый предел значений – не более 8-10%.

Средний коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится результат y от своей средней величины при изменении фактора x на 1% от своего среднего значения:

Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:

где - общая сумма квадратов отклонений;

- сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);

- остаточная сумма квадратов отклонений.

Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака y характеризует коэффициент (индекс) детерминации R²:

Коэффициент детерминации – квадрат коэффициента или индекса корреляции.

F-тест – оценивание качества уравнения регрессии – состоит в проверке гипотезы H₀ о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического F_факти критического (табличного) F_табл значений F-критерия Фишера. F_факт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:

где n – число единиц совокупности; m – число параметров при переменных x.

F_табл – это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости a. Уровень значимости a – вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно a принимается равной 0,05 или 0,01.

Если F_табл< F_факт, то H₀– гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F_табл> F_факт, то H₀– гипотеза не отклоняется и признается статистическая незначимость, надежность уравнения регрессии.

Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза H₀о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:

Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:

Если t_табл< t_фак, то H₀отклоняется, т.е. a, b и r_xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора x. Если t_табл> t_фак, гипотеза H₀не отклоняется и признается случайная природа формирования a, b или r_xy.

Для расчета доверительного интервала определяем предельную ошибку D для каждого показателя:

Формулы для расчета доверительных интервалов имеют следующий вид:

Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.

Прогнозное значение y_p определяется путем подстановки в уравнение регрессии соответствующего (прогнозного) x_p. Вычисляется средняя стандартная ошибка прогноза где , и строится доверительный интервал прогноза:

где