Выбор формы связи

Определение формы связи изучаемого экономического показа­теля с выбранными факторами-аргументами, т.е. спецификация -один из наиболее сложных и ответственных этапов корреляционно­го анализа.

От правильности выбора зависит, насколько построенная мо­дель будет адекватна изучаемому явлению, а это. в свою очередь, в значительной степени предопределяет практическую ценность по­лучаемых результатов. Запас кривых для выравнивания статистиче­ских данных бесконечно разнообразен. Для выбора той из них, ко­торая наиболее адекватна не только имеющемуся эмпирическому материалу, но и истинному отношению зависимости между изу­чаемым экономическим показателем и обуславливающими его фак­торами, исходят из соображений логического, графического и ста­тистического характера.

Как и при отборе факторов - аргументов, решающая роль при­надлежит (логическому) теоретическому обоснованию формы зави­симости.

Существенную помощь при выборе формы связи, особенно при парной корреляции, оказывает графический анализ между функци­ей и ее предполагаемыми аргументами. О типе теоретической кри­вой в этом случае судят по внешнему виду эмпирического графика регрессии, устраняя мысленно те зигзаги, которые можно предпо­ложить случайными.

С увеличением числа факторов-аргументов надежность этого метода существенно снижается, тем не менее, графический анализ зависимости между функцией и каждым ее аргументом в отдельно­сти может оказать помощь при определении формы множественной связи. Например, если все парные связи имеют линейный характер, то большая вероятность того, что в качестве формы связи может быть применена линейная форма уравнения множественной регрес­сии.

Зачастую при выборе формы связи целесообразно использовать уже известные модели, описывающие процессы, аналогичные ис­следуемому. Однако ни один из этих способов не позволяет одно­значно выбрать функцию, наилучшим образом описывающую изу­чаемое явление. Поэтому на практике приходится определять ис­комый вид связи эмпирическим путем сравнения ряда моделей и выбора наилучшей из них с точки зрения принятого критерия срав­нения.

При прочих равных условиях предпочтение отдается модели, зависящей от меньшего числа параметров. Изучаемая совокупность должна обладать достаточно большим числом степеней свободы вариации, определяемым соотношением между численностью этой совокупности и числом параметров уравнения множественной рег­рессии.

В крайнем вырожденном случае, когда число параметров урав­нения регрессии равно числу наблюдений или сравнимо с ним, да­же если все критерии адекватности принимают свои предельные значения, а нормированная ошибка равна нулю, полученная модель не имеет практического смысла.

Во всех остальных случаях высокий коэффициент множествен­ной корреляции и соответствующий ему коэффициент детермина­ции свидетельствуют не только о том, что в окончательно отобранную модель включены все основные факторы, но также о справед­ливости гипотезы о линейной форме связи.

Если выбранная линейная форма связи сильно искажает дейст­вительный нелинейный характер зависимости, то величина коэф­фициента множественной корреляции, вычисленная через парамет­ры уравнения регрессии будет значительно ниже индекса множе­ственной корреляции, определяемого через отношение дисперсии. В том случае, если полученная в результате решения линейная мо­дель оказывается неадекватной, с точки зрения F-критерия Фишера или других критериев целесообразно переходить к параболической кривой, добавляя в уравнение значения неизвестных в квадрате и парные их произведения:

у = а0 + ах1 +а-х2

у = а0 + а1х1 + а2х2 + а3х21 + а4х22 + а5х1х2

Действуя, таким образом, и повышая порядок уравнения, можно подобрать модель, соответствующую любому статистическому ма­териалу. Однако практическая ценность такой модели будет резко снижаться по мере увеличения числа ее параметров.

Считается, что число наблюдений должно быть больше числа параметров уравнения регрессии, по крайней мере, в 6-7 раз.

Поэтому, если дальнейшее повышение степени полиномов на­талкивается на эту границу, следует рассматривать другие нели­нейные модели, например, модели мультипликативного типа:

y=Axa11*xa22…xapp

Данную зависимость простым логарифмированием можно све­сти к зависимости аддитивного типа:

ln у = ln А + а1 ln x1 + а 2 ln x2

Тем или иным способом найденную модель можно упростить, отсеяв статистически незначимые или, так называемые лишние факторы, которые незначительно влияют на целевую функцию, и, в то же время, сильно коррелируют с остальными факторами. Для от­сева статистически незначимых факторов все включенные в модель факторы следует проранжировать по величине их значимости, т.е. по величине коэффициента tai

Фактор, для которого tai имеет наименьшее значение, признает­ся незначимым. После этого заново решается новая модель, зави­сящая от (р-1) фактора, и вся процедура повторяется. Этот процесс продолжается до тех пор, пока оставшиеся в модели факторы не окажутся статистически значимыми.

Эта процедура - метод многошагового регрессионного анализа. Его недостаток - чисто формальный характер процедуры, по при­чине которого из модели могут быть исключены наиболее сущест­венные факторы. Для преодоления этого недостатка необходимо использовать для ранжирования факторов, наряду с показателем t„j, более содержательный критерий. Одним из таких критериев может быть показатель суммы рангов.

Этот показатель вычисляется по результатам анкетного опроса широкого круга специалистов. Каждому специалисту предлагается заполнить анкету, в которой перечисляются факторы, отобранные для корреляционного анализа изучаемого показателя. Опрашивае­мый должен проранжировать эти факторы по степени их важности, при этом фактору, оказывающему наибольшее влияние на данный показатель, присваивается ранг 1 и т. д.

На основании данных анкетного опроса составляется сводная анкета, т.н. матрица рангов.

Наименьшую сумму рангов будет иметь фактор, который, с точки зрения экспертов, оказывает в среднем наибольшее влияние на изучаемый показатель. Соответственно наибольшую сумму ран­гов имеет фактор, оказывающий в среднем наименьшее влияние (по мнению экспертов).

В отличие от показателей t-критерия Стьюдента, коэффициен­тов парной и частной корреляции, показатель суммы рангов не за­висит ни от объема и характера выборки, ни от вида модели, ни от числа включенных в нее факторов. Это делает данные показатели не только наиболее содержательными, но и наиболее объективны­ми показателями сравнительной сущности факторов.

Несущественные факторы следует исключить из модели, с уче­том величины t-критерия Стьюдента и коэффициента, определяе­мого суммой рангов.

Исключение из модели некоторых факторов не означает полно­го исключения их влияния. В той или иной степени (в меру своей связи с факторами, оставшимися в модели) они продолжают влиять на целевую функцию, но не явно.

Получаемая в результате описываемого процесса конечная мо­дель не является единственно возможной. Можно получить не­сколько моделей с несущественно отличающимися коэффициента­ми множественной корреляции или показателями относительной ошибки.

Окончательный выбор той или иной модели зависит от опыта исследователя и назначения модели.