Относительно формы связи различают следующие виды.
1. Линейная – когда связи между изучаемыми явлениями носят линейный характер и выражены линейной функцией. Уравнение регрессии имеет вид:
2. Криволинейная корреляция и регрессия – когда между исследуемыми явлениями существуют нелинейные соотношения и связь выражается нелинейной функцией.
Процесс нахождения теоретической линии регрессии заключается в выборе и обосновании типа кривой, в расчете параметров ее уравнения. Для выбора и обоснования типа линии нет универсального метода. Существует несколько путей решения задачи: теоретический, эмпирический, а также опыт предыдущих исследований.
Определить тип уравнения регрессии можно, исследуя зависимость графически, однако существуют и другие приемы, позволяющие выявить тип уравнения связи. Так, если результативный и факторный признаки возрастают примерно одинаково, то это свидетельствует о том, что связь между ними линейная; если же один признак увеличивается, а другой неравномерно уменьшается, – связь гиперболическая. Если с увеличением значений фактора результативный признак сначала растет, а потом снижается, то связь параболическая, и т. д.
Задача заключается в том, чтобы найти такие коэффициенты уравнения регрессии, чтобы ошибка была минимальной. Это достигается путем применения метода наименьших квадратов. Для нахождения значений неизвестных параметров приравняем частные производные по этим параметрам к нулю и после простейших преобразований получим систему уравнений.
Пусть связь между результатом и фактором выражается уравнением параболы второго порядка:
Y = a + b1 x+b2 x2, (1.36)
Миниминизируя сумму квадратов отклонений переменной от ее значений по уравнению, получим:
Для этого берутся частные производные Q по параметрам «а» и «b», которые приравниваются к нулю, и полученная система уравнений решается относительно параметров:
Проделав простейшие преобразования, получим систему из трех уравнений:
Далее задача сводится к решению этой системы нормальных уравнений.
Применим этот метод для определения степени влияния сроков посева на урожайность. Для расчетов используем табл. 12, из которой возьмем следующие данные: сроки посева и средние значения урожайности для каждого срока посева.
Таблица 12
Порядковые номера сроков посева можно рассматривать как кодированные значения Х. Причем
Средняя урожайность представлена таблицей значений:
Y1 = 16; Y2 = 18; Y3 = 18; Y4 = 17; Y5 = 15;
Теперь задача сводится к построению зависимости: Y = f(x).
Исходные данные для расчета зависимости Y = f(x) представлены в табл. 13.
Из табл. 13 видно, что с изменением сроков посева средняя урожайность сначала растет, а затем падает. Следовательно, существуют оптимальные сроки посева, при которых средняя урожайность максимальна.
Подобный процесс целесообразно описать уравнением параболы 2/го порядка:
Таблица 13
Y = a + b1x + b2 x2,
где a, b1, b2 – параметры, подлежащие определению.
Для нахождения параметров a, b1 и b2 необходимо решить систему нормальных уравнений.
Известно, что экстремальные точки функции Y = f (x) определяются из условия Y = f (x), где Y' – первая производная функции Y по переменной x.
Для выбранного вида функции:
Y = (a + b1x + b2 x2) = b1 + 2b2 x.
Откуда
Подставляя из табл. 13 значения (Xi Y) в систему нормальных уравнений, получим:
5a + 15b1 + 55b– = 84;
15a + 55b1 + 225b2 = 249; (I)
55a + 225b1 + 979b2 = 897.
Система решается следующим образом:
1. Все уравнения делятся на коэффициенты при «а»:
a + 3b1 + 11b2 = 16,8;
a + 3,67b1 + 15b2 = 16,8;
a + 4,09b1 + 17,8b2 = 16,3.
2. Из первого уравнения вычитается сначала 2/е, а затем 3/е. В результате получается система уравнений с двумя неизвестными:
– 0,67b1, – 4b2 = +0,2; (II)
– 1,09b1 – 6,8b2 = +0,5.
3. Повторяем процедуру 1 и 2 и получаем:
0,24b2 = -0,16,
откуда b2 = -0,64.
Подставляя в любые уравнения системы II, например в первое, значение: b2 = -0,64, найдем b1 = +3,54.
Из первого уравнения системы I находим:
a = 13,22.
Таким образом, уравнение, выражающее связь сроков посевов с урожайностью, будет иметь вид:
Y = 13,22 + 3,54x – 0,64x2
Оптимальный срок посева будет равен хопт = 2,8, что соответствует периоду с 10 по 20 мая.
Существует много методов решения системы нормальных уравнений, в частности, целесообразно решать систему нормальных уравнений обычными методами линейной алгебры.
До сих пор речь шла о том, что на результативный признак действует один факторный признак, и в зависимости от этого мы строили все свои расчеты. На самом деле все обстоит гораздо сложнее. На результативный признак действует множество случайных факторов, и перед нами возникает новая задача – найти модель наблюдаемого процесса, адекватно отражающую сам процесс, определить, как и в какой степени на результаты наблюдения воздействуют выбранные факторы. Эта задача чрезвычайно важна, так как именно она позволяет правильно оценить с определенной заданной вероятностью место и роль наблюдаемого явления в решении конкретных народно-хозяйственных задач.
Наиболее часто на практике наблюдаемый процесс описывается линейной многофакторной моделью:
Y = a + b1x1 + b2 х2 +… + bkxk, (1.37)
гдеx1x2 … xk – значения факторов; a, b1, b2, bk – параметры модели.
Что же такое модель? Как ее объяснить? Обычно стараются для наглядности все процессы интерпретировать геометрически. Попробуем подойти к многофакторной модели именно с такой позиции.
Совершенно очевидно, что однофакторный процесс является частным случаем многофакторного уравнения. Модели Y = f (?) представляют собой множество кривых различного рода на плоскости. Если рассматривать модель вида Y = a + bx, то это будет множество прямых на плоскости. Внося в рассмотрение еще один фактор, мы получаем уравнение вида Y = f (x1, x2) или для линейной модели: Y = a + b1x1 + b2x2. Это уже будет множество положений плоскости в трехмерном пространстве. Для трех факторов мы уже не можем дать геометрического толкования модели. Однако в целях обобщения можно считать, что линейная модель Y = a + b1 x1 + b2x2 +...bkxk представляет собой «гиперплоскость» в (k + 1) – мерном пространстве.
Рекомендуется всегда предварительно изучить форму и степень связи между результативным и всеми выбранными факторами попарно. Если все попарные связи линейны или близки к линейным, то есть все основания полагать, что и множественная связь будет линейной.
Схема корреляционно-регрессионного анализа подразумевает следующие шаги:
1.определение связи между изучаемыми признаками;
2.формирование уравнения регрессии;
3.расчет показателей связи.
Чтобы отобрать факторы, оказывающие существенное влияние на результативный признак, необходимо произвести группировку по нему. Из всех факторов необходимо отобрать те, которые наиболее связаны с результативным признаком.
Так, например, при изучении влияния основных экономических факторов на себестоимость молока необходимо произвести группировку хозяйств по себестоимости 1 ц молока, взяв в качестве факторных признаков:
1.уровень кормления;
2.стоимость 1 ц кормовых единиц (корм. ед.);
3.уровень оплаты труда;
4.уровень специализации хозяйств на производстве молока и т. п.
Для установления формы связи необходимо построить графики попарной зависимости выбранных факторов с результативным признаком (в нашем случае это себестоимость). В случае прямолинейной зависимости или близкой к таковой между всеми факторами и результатом следует использовать уравнение регрессии линейного типа:
Y=a+b1x1 + b2 x2 + „. + bkxk,
где x1 x2 … xk – выбранные факторы; b1 b2 … bk – коэффициенты регрессии, определяющие степень среднего изменения значений зависимой переменной Y при изменении фактора на единицу, но при условии, что остальные факторы, включенные в уравнение, остаются постоянными.