Выбор формы связи

Определение формы связи изучаемого экономического показателя с выбранными факторами-аргументами, т.е. спецификация -один из наиболее сложных и ответственных этапов корреляционного анализа.

От правильности выбора зависит, насколько построенная модель будет адекватна изучаемому явлению, а это. в свою очередь, в значительной степени предопределяет практическую ценность получаемых результатов. Запас кривых для выравнивания статистических данных бесконечно разнообразен. Для выбора той из них, которая наиболее адекватна не только имеющемуся эмпирическому материалу, но и истинному отношению зависимости между изучаемым экономическим показателем и обуславливающими его факторами, исходят из соображений логического, графического и статистического характера.

Как и при отборе факторов - аргументов, решающая роль принадлежит (логическому) теоретическому обоснованию формы зависимости.

Существенную помощь при выборе формы связи, особенно при парной корреляции, оказывает графический анализ между функцией и ее предполагаемыми аргументами. О типе теоретической кривой в этом случае судят по внешнему виду эмпирического графика регрессии, устраняя мысленно те зигзаги, которые можно предположить случайными.

С увеличением числа факторов-аргументов надежность этого метода существенно снижается, тем не менее, графический анализ зависимости между функцией и каждым ее аргументом в отдельности может оказать помощь при определении формы множественной связи. Например, если все парные связи имеют линейный характер, то большая вероятность того, что в качестве формы связи может быть применена линейная форма уравнения множественной регрессии.

Зачастую при выборе формы связи целесообразно использовать уже известные модели, описывающие процессы, аналогичные исследуемому. Однако ни один из этих способов не позволяет однозначно выбрать функцию, наилучшим образом описывающую изучаемое явление. Поэтому на практике приходится определять искомый вид связи эмпирическим путем сравнения ряда моделей и выбора наилучшей из них с точки зрения принятого критерия сравнения.

При прочих равных условиях предпочтение отдается модели, зависящей от меньшего числа параметров. Изучаемая совокупность должна обладать достаточно большим числом степеней свободы вариации, определяемым соотношением между численностью этой совокупности и числом параметров уравнения множественной регрессии.

В крайнем вырожденном случае, когда число параметров уравнения регрессии равно числу наблюдений или сравнимо с ним, даже если все критерии адекватности принимают свои предельные значения, а нормированная ошибка равна нулю, полученная модель не имеет практического смысла.

Во всех остальных случаях высокий коэффициент множественной корреляции и соответствующий ему коэффициент детерминации свидетельствуют не только о том, что в окончательно отобранную модель включены все основные факторы, но также о справедливости гипотезы о линейной форме связи.

Если выбранная линейная форма связи сильно искажает действительный нелинейный характер зависимости, то величина коэффициента множественной корреляции, вычисленная через параметры уравнения регрессии будет значительно ниже индекса множественной корреляции, определяемого через отношение дисперсии. В том случае, если полученная в результате решения линейная модель оказывается неадекватной, с точки зрения F-критерия Фишера или других критериев целесообразно переходить к параболической кривой, добавляя в уравнение значения неизвестных в квадрате и парные их произведения:

у = а₀ + ах₁ +а-х₂

у = а₀ + а₁х₁ + а₂х₂ + а₃х²₁ + а₄х²₂ + а5х₁х2

Действуя, таким образом, и повышая порядок уравнения, можно подобрать модель, соответствующую любому статистическому материалу. Однако практическая ценность такой модели будет резко снижаться по мере увеличения числа ее параметров.

Считается, что число наблюдений должно быть больше числа параметров уравнения регрессии, по крайней мере, в 6-7 раз.

Поэтому, если дальнейшее повышение степени полиномов наталкивается на эту границу, следует рассматривать другие нелинейные модели, например, модели мультипликативного типа:

y=Ax^a¹₁*x^a²₂…x^ap_p

Данную зависимость простым логарифмированием можно свести к зависимости аддитивного типа:

ln у = ln А + а₁ ln x₁ + а ₂ ln x₂

Тем или иным способом найденную модель можно упростить, отсеяв статистически незначимые или, так называемые лишние факторы, которые незначительно влияют на целевую функцию, и, в то же время, сильно коррелируют с остальными факторами. Для отсева статистически незначимых факторов все включенные в модель факторы следует проранжировать по величине их значимости, т.е. по величине коэффициента t_ai

Фактор, для которого t_ai имеет наименьшее значение, признается незначимым. После этого заново решается новая модель, зависящая от (р-1) фактора, и вся процедура повторяется. Этот процесс продолжается до тех пор, пока оставшиеся в модели факторы не окажутся статистически значимыми.

Эта процедура - метод многошагового регрессионного анализа. Его недостаток - чисто формальный характер процедуры, по причине которого из модели могут быть исключены наиболее существенные факторы. Для преодоления этого недостатка необходимо использовать для ранжирования факторов, наряду с показателем t„j, более содержательный критерий. Одним из таких критериев может быть показатель суммы рангов.

Этот показатель вычисляется по результатам анкетного опроса широкого круга специалистов. Каждому специалисту предлагается заполнить анкету, в которой перечисляются факторы, отобранные для корреляционного анализа изучаемого показателя. Опрашиваемый должен проранжировать эти факторы по степени их важности, при этом фактору, оказывающему наибольшее влияние на данный показатель, присваивается ранг 1 и т. д.

На основании данных анкетного опроса составляется сводная анкета, т.н. матрица рангов.

Наименьшую сумму рангов будет иметь фактор, который, с точки зрения экспертов, оказывает в среднем наибольшее влияние на изучаемый показатель. Соответственно наибольшую сумму рангов имеет фактор, оказывающий в среднем наименьшее влияние (по мнению экспертов).

В отличие от показателей t-критерия Стьюдента, коэффициентов парной и частной корреляции, показатель суммы рангов не зависит ни от объема и характера выборки, ни от вида модели, ни от числа включенных в нее факторов. Это делает данные показатели не только наиболее содержательными, но и наиболее объективными показателями сравнительной сущности факторов.

Несущественные факторы следует исключить из модели, с учетом величины t-критерия Стьюдента и коэффициента, определяемого суммой рангов.

Исключение из модели некоторых факторов не означает полного исключения их влияния. В той или иной степени (в меру своей связи с факторами, оставшимися в модели) они продолжают влиять на целевую функцию, но не явно.

Получаемая в результате описываемого процесса конечная модель не является единственно возможной. Можно получить несколько моделей с несущественно отличающимися коэффициентами множественной корреляции или показателями относительной ошибки.

Окончательный выбор той или иной модели зависит от опыта исследователя и назначения модели.