Методы изучения связи социальных явлений

Рассчитаем коэффициент детерминации по следующей формуле: , т. е. на 92% изменение производительности труда рабочего обусловлено изменением его стажа работы. Остальные 8% связаны с другими факторами, которые мы не рассматриваем.

Таблица 9.3

Для измерения степени тесноты связи между изменениями величины результативного признака (у) и изменениями значений факторных признаков определяется коэффициент множественной (совокупной) корреляции (R).

Изучение множественной корреляционной зависимости начинается с анализа матрицы парных коэффициентов корреляции, что позволяет произвести отбор факторов, включаемых в модель множественной зависимости.

Матрица имеет следующий вид (табл. 9.2).

Таблица 9.2

Признак y x1 x2 xk
y
x1
x2
xk

Анализ первой строки матрицы позволяет выявить факторы, у которых степень тесноты связи с результативным показателем значительна, а поэтому они могут быть включены в модель. Однако при построении многофакторных моделей должно соблюдаться требование возможно меньшей коррелированности (зависимости) включенных в модель признаков-факторов (отсутствие мультиколлинеарности). В качестве критерия мультиколлинеарности может быть принято соблюдение следующих неравенств:

; .

Если приведенные неравенства (или хотя бы одно из них) не выполняются, то исключается тот фактор или , связь которого с результативным признаком у будет менее тесной.

8) Отобранные факторы включаются в модель множественной зависимости.При этом следует учитывать, что число факторов, включаемых в модель, должно быть в 5–6 раз меньше, чем число единиц, входящих в совокупность.

Угадать функцию, которая наилучшим образом отображала бы взаимосвязь между признаками, бывает очень сложно. Обычно проверяют пять основных видов функций:

а) – линейная;

б) – квадратическая;

в) – гиперболическая;

г) – показательная;

д) – степенная.

Мерой достоверности уравнения является процентное отношение средней квадратической ошибки уравнения к среднему уровню результативного показателя, так же как в случае парной корреляции.

Для случая зависимости результативного признака от двух факторных признаков формула коэффициента корреляции имеет вид:

Величина R2 называется коэффициентом детерминации; она показывает, в какой мере вариация результативного признака обусловлена влиянием признаков-факторов, включенных в уравнение множественной зависимости.

Величина совокупного коэффициента корреляции изменяется в пределах от 0 до 1 и численно не может быть меньше, чем любой из образующих его парных коэффициентов корреляции. Чем ближе он к единице, тем меньше роль неучтенных в модели факторов и тем более оснований считать, что параметры регрессионной модели отражают степень эффективности включенных в нее факторов.

Для оценки существенности (значимости) совокупного коэффициента корреляции используется критерий F-Фишера.

Алгоритм:

1. Определяется F-расчетное по следующей формуле:

,

где – факторная дисперсия результативного признака, обусловленная вариацией признаков-факторов;

– остаточная дисперсия;

n – число данных;

m – число параметров уравнения.

2. По таблице F-распределения с учетом принятого уровня значимости и числом степеней свободы , находим табличное значение .

3. Если , то с вероятностью 0,95 можно утверждать, что связь между результативным и факторными признаками существенна.

Кроме совокупного коэффициента корреляции познавательное значение имеют частные коэффициенты корреляции, позволяющие установить степень тесноты связи между результативным признаком у и каждым из факторных признаков при исключении искажающего влияния других факторных признаков. Следовательно, коэффициенты частной корреляции отражают степень «чистого» влияния факторного признака на результативный признак. Для их расчета могут быть использованы парные коэффициенты корреляции.

Для случая зависимости результативного признака у от двух признаков-факторов (х1 и х2) определяются два коэффициента частной корреляции:

1) частный коэффициент корреляции между результативным признаком у и фактором х1 при элиминировании фактора х2 :

;

2) частный коэффициент корреляции между результативным признаком у и фактором х2 при элиминировании фактора х1:

.

Величина частного коэффициента корреляции лежит в пределах от 0 до 1, а знак определяется знаком соответствующих параметров регрессии.

Рассчитывая величины частных коэффициентов корреляции, следует иметь в виду, что каждый из них по своей абсолютной величине не может быть больше величины коэффициента множественной (совокупной) корреляции.

10) Для сравнения роли различных факторов в формировании моделируемого показателя определяется коэффициент эластичности (Эj) или коэффициент ().

Частный коэффициент эластичности показывает, на сколько процентов в среднем изменяется результативный признак у с изменением признака-фактора х на 1%, и определяется по формуле:

,

где – коэффициент регрессии при j-м факторе.

коэффициент показывает, на какую часть среднего квадратического отклонения изменится результативный показатель при изменении соответствующего фактора х на величину его среднего квадратического отклонения. Его формула имеет вид:

.

Пример: Рассмотрим построение однофакторного уравнения регрессии зависимости производительности труда (y) от стажа работы (x) 10 рабочих одной бригады:

Стаж работы, лет х
Дневная выработка рабочего, шт. y

1) Для уточнения формы связи между рассматриваемыми признаками используем графический метод.

Графически взаимосвязь признаков изображается с помощью поля корреляции.

Область, которую образуют эмпирические точки на поле корреляции, близка к прямой линии. Следовательно, можно считать наличие прямолинейной корреляции.

2) Для измерения степени тесноты связи между признаками используем линейный коэффициент корреляции:

.

Для расчета r использована вспомогательная таблица (табл. 9.4)

Поскольку r > 0, то связь между стажем работы и выработкой рабочих прямая, то есть с увеличением стажа работы средняя дневная выработка рабочего увеличивается. Так как линейный коэффициент корреляции находится в промежутке , то связь между факторным и результативным признаками сильная.

Проверяем значимость коэффициента корреляции:

.

По таблице t-распределения Стьюдента с учетом принятого уровня значимости и числа степеней свободы =10 – 2 = 8 определяем = 3,355. Так как , следовательно, можно утверждать существенность коэффициента корреляции.

3) Определяем модель связи. График показывает наличие линейной связи (рис. 3), поэтому используется функция

=a0+a1x,

где – выравненные значения результативного признака;

a0 – значение y при х = 0;

a1 – коэффициент регрессии (пропорциональности), характеризующий изменение значения y при изменении х на 1 единицу.

Параметры уравнения a0 и a1 находим методом наименьших квадратов.

Для линейной функции условие метода наименьших квадратов равносильно следующей системе нормальных уравнений:

где n – число уровней (членов) ряда (в нашем примере 10);

Σx – сумма значений факторного признака;

Σy – сумма значений результативного признака;

Σx2 – сумма значений квадратов факторного признака;

Σхy – сумма произведений значений факторного признака на значение результативного признака.

Чтобы решить данную систему, построим вспомогательную таблицу (табл. 9.4).

Таблица 9.4

Вспомогательная таблица для расчета линейного коэффициента корреляции

и уравнения связи

x y xy x2 y2
4,6 0,36
5,2 0,04
5,8 0,04
6,4 0,36
7,0 0,00
7,6 0,16
8,2 0,04
8,8 0,04
9,4 0,36
10,0 1,00
73,0 2,40

Полученные в итоговой строке значения подставляем в систему нормальных уравнений и решаем ее.

Вычитая из первого уравнения второе, получаем:

, откуда

Подставляем числовое значение в одно из уравнений (например, в первое) и получаем:

, откуда .

Таким образом, нами получено следующее линейное уравнение регрессии:

=4+0,6x.

=4+0,6x.  

Коэффициент регрессии a1 показывает, что при увеличении стажа рабочих на 1 год их производительность труда в среднем возрастает на 0,6 шт.

Если перед угловым коэффициентом прямой a1 знак «-», то наблюдается тенденция к снижению (связь между признаками обратная).

Для проверки значимости параметров уравнения а0 и а1 рассчитаем:

,

где (предварительные расчеты см. в табл. 9.4).

В формуле – значения результативного признака, рассчитанные по уравнению связи. Так, для х = 1 ; для остальных значений х расчет выполняется аналогично. Результаты расчета записаны в табл. 9.4

,

где .

По таблице t-распределения Стьюдента с учетом принятого уровня значимости и числом степеней свободы =10 – 1 – 1 = 8 (где k – число факторных признаков) определяем tкрит = 2,306.

Поскольку и , то параметры а0 и а1 признаем значимыми.

Средняя квадратическая ошибка уравнения

.

Тогда отношение меньше 15%, поэтому уравнение достаточно хорошо отображает взаимосвязь двух признаков и может быть использовано в практической работе.

Применение корреляционного и регрессионного анализа требует, чтобы все признаки были количественно измеримы. Построение аналитических группировок предполагает, что количественным должен быть результативный признак.

Вместе с тем в статистике применяются также непараметрические методы, с помощью которых устанавливается связь между качественными (атрибутивными) признаками. Сфера их применения шире, поскольку не требуется соблюдения условия нормальности распределения зависимой переменной, однако при этом снижается глубина исследования связей. При изучении зависимости между качественными признаками не ставится задача представления ее уравнением. Здесь речь идет об установлении наличия связи и измерения ее тесноты.

 

 

Коэффициенты ассоциации и контингенции

Для определения тесноты связи двух качественных признаков, каждый из которых состоит только из двух групп, применяются коэффициенты ассоциации и контингенции. При исследовании связи числовой материал располагается в виде таблиц сопряженности, например табл. 9.5:

Таблица 9.5

Таблица для вычисления коэффициентов ассоциации и контингенции

a b a+b
c d c+d
a+c b+d a+b+c+d

Для вычисления строится таблица, которая показывает связь между двумя явлениями, каждое из которых должно быть альтернативным, т. е. состоящим из двух качественно отличных друг от друга значений признака (например, хороший, плохой).

Коэффициенты определяются по формулам:

• ассоциации

• контингенции

Коэффициент контингенции всегда меньше коэффициента ассоциации. Связь считается подтвержденной, если или .

Пример. Исследовалась связь между успеваемостью студентов-заочников и работой их по специальности. Результаты обследования характеризуются следующими данными (табл. 9.6).

Таблица 9.6

Зависимость успеваемости студентов-заочников от работы их по специальности

Студенты-заочники Число студентов Из них
получившие положительные оценки получившие неудовлетворительные оценки
Работающие по специальности Не работающие по специальности            
Итого

Таким образом, связь между успеваемостью студентов-заочников и работой их по специальности существенная.

Коэффициенты взаимной сопряженности Пирсона и Чупрова

Когда каждый из качественных признаков состоит более чем из двух групп, то для определения тесноты связи возможно применение коэффициентов взаимной сопряженности Пирсона и Чупрова (табл. 9.7).

Таблица 9.7

Вспомогательная таблица для расчета коэффициентов взаимной сопряженности

у х I II III всего
I II III     nxy nx nx nx
Итого ny ny ny n

Эти коэффициенты вычисляются по следующим формулам:

где – показатель взаимной сопряженности, определяется как сумма отношений квадратов частот каждой клетки таблицы к произведению итоговых частот соответствующего столбца и строки. Вычитая из этой суммы 1, получим величину .

;

К1 – число значений (групп) первого признака;

К2 – число значений (групп) второго признака.

Чем ближе величины КП и КЧ к 1, тем связь теснее.

 

 

Пример: С помощью коэффициентов взаимной сопряженности исследовать связь между себестоимостью продукции и производительностью труда.

себестоимость Производительность труда итого
высокая средняя низкая
Низкая Средняя Высокая
итого

Связь средняя.

Для определения тесноты связи между произвольным числом ранжированных признаков применяется множественный коэффициент ранговой корреляции (коэффициент конкордации), который вычисляется по формуле:

,

 

где m – количество факторов;

n – число наблюдений;

S – отклонение суммы квадратов рангов от средней рангов в квадрате.

Значимость коэффициента конкордации проверяется на основе – критерия Пирсона:

.

По таблице -распределения Пирсона при уровне значимости =0,05 и числе степеней свободы находим . Если , то значимость коэффициента конкордации подтверждается.

В случае наличия связных рангов (т. е. одинаковых рангов) коэффициент конкордации определяется по формуле:

,

где ;

– количество связных рангов по отдельным показателям.

Проверка значимости осуществляется по формуле

Коэффициент конкордации принимает любые значения в интервале .