Социально-экономические явления и методы исследования связей между ними

Содержание

1. Виды и формы связей социально- экономических явлений

2. Основные статистические методы выявления корреляционной связи

3. Корреляционно-регрессионный анализ. Уравнение парной регрессия: экономическая интерпретация и оценка значимости

4. Оценка качества однофакторных линейных моделей

5. Анализ и прогнозирование экономических показателей на основе регрессионных моделей

6. Измерение связей неколичественных переменных

Литература

1. Виды и формы связей социально- экономических явлений

Экономические данные представляют собой количественные характеристики каких-либо экономических объектов или процессов. Они формируются под действием множества факторов, не все из которых доступны внешнему контролю. Неконтролируемые факторы могут принимать случайные значения из некоторого множества значений и тем самым обуславливать случайность данных, которые они определяют. Стохастическая (вероятностная) природа экономических данных обуславливает необходимость применения соответствующих статистических методов для их обработки и анализа.

Статистические распределения характеризуются наличием более или менее значительной вариации в величине признака у отдельных единиц совокупности. Естественно, возникает вопрос о том, какие же причины формируют уровень признака в данной совокупности и каков конкретный вклад каждой из них. Изучение зависимости вариации признака от окружающих условий и составляет содержание теории корреляции.

Изучение действительности показывает, что вариация каждого изучаемого признака находится в тесной связи и взаимодействии с вариацией других признаков, характеризующих исследуемую совокупность единиц. Вариация уровня производительности труда работников предприятий зависит от степени совершенства применяемого оборудования, технологии, организации производства, труда и управления и других самых различных факторов.

При изучении конкретных зависимостей одни признаки выступают в качестве факторов, обусловливающих изменение других признаков. Признаки этой первой группы в дальнейшем будем называть признаками-факторами (факторными признаками); а признаки, которые являются результатом влияния этих факторов, будем называть результативными. Например, при изучении зависимости между производительностью труда рабочих и энерговооруженностью их труда уровень производительности труда является результативным признаком, а энерговооруженность труда рабочих - факторным признаком.

Рассматривая зависимости между признаками, необходимо выделить, прежде всего, две категории зависимости: 1) функциональные и 2) корреляционные.

Функциональные связи характеризуются полным соответствием между изменением факторного признака и изменением результативной величины, и каждому значению признака-фактора соответствуют вполне определенные значения результативного признака. Функциональная зависимость может связывать результативный признак с одним или несколькими факторными признаками. Так, величина начисленной заработной платы при повременной оплате труда зависит от количества отработанных часов.

В корреляционных связях между изменением факторного и результативного признака нет полного соответствия, воздействие отдельных факторов проявляется лишь в среднем при массовом наблюдении фактических данных. Одновременное воздействие на изучаемый признак большого количества самых разнообразных факторов приводит к тому, что одному и тому же значению признака-фактора соответствует целое распределение значений результативного признака, поскольку в каждом конкретном случае прочие факторные признаки могут изменять силу и направленность своего воздействия.

При сравнении функциональных и корреляционных зависимостей следует иметь в виду, что при наличии функциональной зависимости между признаками можно, зная величину факторного признака, точно определить величину результативного признака. При наличии же корреляционной зависимости устанавливается лишь тенденция изменения результативного признака при изменении величины факторного признака. В отличие от жесткости функциональной связи корреляционные связи характеризуются множеством причин и следствий и устанавливаются лишь их тенденции. Статистические показатели могут состоять между собой в следующих основных видах связи: балансовой, компонентной, факторной и др.

Балансовая связь — характеризует зависимость между источниками формирования ресурсов (средств) и их использованием.

— остаток на начало отчетного периода;

— поступление за период;

— выбытие в изучаемом периоде;

— остаток на конец отчетного периода.

Левая часть формулы характеризует предложение

а правая часть — использование ресурсов

Компонентные связи показателей характеризуются тем, что изменение статистического показателя определяется изменением компонентов, входящих в этот показатель, как множители:

В статистике компонентные связи используются в индексном методе. Например, индекс товарооборота в фактических ценах представляет произведение двух компонентов, на пример, — индекса товарооборота в сопоставимых ценах и индекса цен , т.е.

Важное значение компонентной связи состоит в том, что она позволяет определять величину одного из неизвестных компонентов:

или

Факторные связи характеризуются тем, что они проявляются в согласованной вариации изучаемых показателей. При этом одни показатели выступают как факторные, а другие — как результативные.

Факторные связи могут рассматриваться как функциональные и корреляционные.

При функциональной связи изменение результативного признака всецело зависит от изменения факторного признака :

При корреляционной связи изменение результативного признака не всецело зависит от факторного признака , а лишь частично, так как возможно влияние прочих факторов :

Примером корреляционной связи показателей является зависимость сумм издержек обращения от объема товарооборота. В этой связи, помимо факторного признака — объема товарооборота , на результативный признак (сумму издержек обращения ) влияют и другие факторы, в том числе и не учтенные . Поэтому корреляционные связи не являются полными (тесными) зависимостями.

2. Основные статистические методы выявления корреляционной связи

К методам исследования взаимосвязей относятся: метод взаимосвязанных параллельных рядов, балансовый метод, индексный метод, метод аналитических группировок, корреляционные таблицы и графический метод.

Метод взаимосвязанных параллельных рядовсостоит в установлении связей между экономическими явлениями посредством сопоставления показателей двух или нескольких рядов. Для этого признак-фактор ранжируется, т.е. располагается в порядке возрастания или убывания признака и соответственно ему записываются значения результативного признака. Путем сравнения взаимосвязанных рядов выявляется наличие связи и ее направление. Можно сравнивать временные и территориальные ряды.

Балансовый методприменяется для анализа связей и пропорций в экономике. Баланс представляет систему показателей, состоящей из равенства ресурсов и их распределения. Схема баланса может быть представлена равенством:

а + б= в + с

(Остаток начальный + Поступление = Расход + Остаток конечный).

Индексный метод - метод анализа компонентных связей. Это вид связей, когда изменение какого-то сложного явления целиком определяется изменением компонентов, входящих в это сложное явление как множители (а=бв, или ). Индексный метод анализа позволяет определить роль отдельных компонентов в совокупном изменении сложного явления.

Метод аналитических группировок - это установление связи между двумя и более признаками группировкой единиц по факторному признаку, а затем в группах вычисление средних и относительных величин результативного признака. Для оценки тесноты связи одновременно с методом группировок рассчитываются коэффициенты детерминации и эмпирическое корреляционное отношение.

Корреляционная таблицаохватывает два ряда распределения: один ряд представляет факторный признак, а другой - результативный. Концентрация частот около диагонали, соединяющей левый верхний угол с правым нижним углом таблицы, выражает прямую связь, и наоборот, концентрация частот около диагонали, соединяющей левый . нижний угол с правым верхним углом таблицы, выражает обратную связь. Интенсивная концентрация частот около диагонали таблицы указывает на существование тесной корреляционной связи. Корреляционная таблица дает более правильную характеристику связи при условии, что число групп по двум признакам одинаково.

Графический методсостоит в построении графиков. На графике значения факторного признака наносятся на ось абсцисс, а результативного признака - на ось ординат. Если нанести на график средние значения результативного признака, то получим ломаную линию, которая называется эмпирической линией регрессии.

Основная задача корреляционного анализазаключается в выявлении взаимосвязи между случайными переменными путем точечной и интервальной оценки парных (частных) коэффициентов корреляции, вычисления и проверки значимости множественных коэффициентов корреляции и детерминации. Кроме того, с помощью корреляционного анализа решаются следующие задачи: отбор факторов, оказывающих наиболее существенное влияние на результативный признак, на основании измерения степени связи между ними; обнаружение ранее неизвестных причинных связей. Корреляция непосредственно не выявляет причинных связей между параметрами, но устанавливает численное значение этих связей и достоверность суждений об их наличии.

Регрессионный анализ предназначен для исследования зависимости исследуемой переменной от различных факторов и отображения их взаимосвязи в форме регрессионной модели.

В регрессионных моделях зависимая (объясняемая) переменная Y может быть представлена в виде функции f (X₁, X₂, X₃, … Xm), где X₁, X₂, X₃, … Xm - независимые (объясняющие) переменные, или факторы. В качестве зависимой переменной может выступать практически любой показатель, характеризующий, например, деятельность предприятия или курс ценной бумаги. В зависимости от вида функции f (X₁, X₂, X₃, … Xm) модели делятся на линейные и нелинейные. В зависимости от количества включенных в модель факторов Х модели делятся на однофакторные (парная модель регрессии) и многофакторные (модель множественной регрессии).

Связь между переменной Y и m независимыми факторами можно охарактеризовать функцией регрессии Y= f (X₁, X₂, X₃, … Xm), которая показывает, каково будет в среднем значение переменной y_i, если переменные x_i примут конкретные значения.

Данное обстоятельство позволяет использовать модель регрессии не только для анализа, но и для прогнозирования экономических явлений.

Под линейностью здесь имеется в виду, что переменная y предположительно находиться под влиянием переменной x в следующей зависимости:

где - постоянная величина (или свободный член уравнения), - коэффициент регрессии, определяющий наклон линии, вдоль которой рассеяны данные наблюдений. Это показатель, характеризующий изменение переменной , при изменении значения на единицу. Если - переменные и положительно коррелированные, если < 0 – отрицательно коррелированны; - независимые одинаково распределенные случайные величины – остаток с нулевым математическим ожиданием () и постоянной дисперсией (). Она отражает тот факт, что изменение будет неточно описываться изменением Х – присутствуют другие факторы, неучтенные в данной модели.

Для оценки параметров регрессионного уравнениянаиболее часто используют метод наименьших квадратов (МНК), который минимизирует сумму квадратов отклонения наблюдаемых значений от модельных значений .

Согласно принципу метода наименьших квадратов, оценки и находятся путем минимизации суммы квадратов

по всем возможным значениям и при заданных (наблюдаемых) значениях. Задача сводится к известной математической задаче поиска точки минимума функции двух переменных. Точка минимума находится путем приравнивания нулю частных производныхфункции по переменным и . Это приводит к системе нормальных уравнений

решением которой и является пара , . Согласно правилам вычисления производных имеем

так что искомые значения , удовлетворяют соотношениям

Эту систему двух уравнений можно записать также в виде

Эта система является системой двух линейных уравнений с двумя неизвестнымии может быть легко решена, например, методом подстановки. В результате получаем

(3.2)

Такое решение может существовать только при выполнении условия

что равносильно отличию от нуля определителя системы нормальных уравнений. Действительно, этот определитель равен

Последнее условие называется условием идентифицируемостимодели наблюдений , и означает, что не все значениясовпадают между собой. При нарушении этого условия всеточки , лежат на однойвертикальной прямой

Оценки и называют оценками наименьших квадратов. Обратим еще раз внимание на полученное выражение для . Нетрудно видеть, что в это выражение входят уже знакомые нам суммы квадратов, участвовавшие ранее в определении выборочной дисперсии

Для двух переменных теоретический коэффициент корреляции определяется следующим образом:

где - дисперсии случайных переменных , а их ковариация.

Парный коэффициент корреляции является показателем тесноты связи лишь в случае линейной зависимости между переменнымии обладает следующими основными свойствами:

Коэффициент корреляции принимает значение в интервале (-1,+1), или

r_xy| < 1.

Коэффициент корреляции не зависит от выбора начала отсчета и единицы измерения, т.е.

r (α₁X+β; α₂Y+β)=r_xy,

где α_1,α₂, b - постоянные величины, причем α₁>0_,α₂>0.

Случайные величины Х, Y, можно уменьшать (увеличивать) в α раз, а также вычитать или прибавлять к значениям одно и тоже число β - это не приведет к изменению коэффициента корреляции r.

При r = ±1 случайные величинысвязаны линейной зависимостью, т.е.

При r = 0 линейная корреляционная связь отсутствует.

В практических расчетах коэффициент корреляции r генеральной совокупности обычно не известен. По результатам выборки может быть найдена его точечная оценка – выборочный коэффициент корреляции r, так как выборочная совокупность переменных случайна, то в отличие от параметра r , r – случайная величина. Оценкой коэффициента корреляции является выборочный парный коэффициент корреляции:

= , (3.3)

Для оценки значимости коэффициента корреляции применяется t - критерий Стьюдента. При этом фактическое значение этого критерия определяется по формуле:

(3.4)

Вычисленное по этой формуле значение t_набл сравнивается с критическим значением t-критерия, которое берется из таблицы значений t Стьюдента с учетом заданного уровня значимости и числа степеней свободы.

Если t_набл > t_кр, то полученное значение коэффициента корреляции признается значимым (то есть нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается). И таким образом делается вывод о том, что между исследуемыми переменными есть тесная статистическая взаимосвязь.

Если значение близко к нулю, связь между переменными слабая. Если случайные величины связаны положительной корреляцией, это означает, что при возрастании одной случайной величины другая имеет тенденцию в среднем возрастать. Если случайные величины связаны отрицательной корреляцией, это означает, что при возрастании одной случайной величины, другая имеет тенденцию в среднем убывать.

4. Оценка качества однофакторных линейных моделей

Качество модели регрессии связывают с адекватностью модели наблюдаемым (эмпирическим) данным. Проверка адекватности (или соответствия) модели регрессии наблюдаемым данным проводится на основе анализа остатков - .

После построения уравнения регрессии мы можем разбить значение у, в каждом наблюдении на две составляющих - и ; (4.1)

Остаток представляет собой отклонение фактического значения зависимой переменной от значения данной переменной, полученное расчетным путем: (). Если (), то для всех наблюдений фактические значения зависимой переменной совпадают с расчетными (теоретическими) значениями. Графически это означает, что теоретическая линия регрессии (линия, построенная по функции ) проходит через все точки корреляционного поля, что возможно только при строго функциональной связи. Следовательно, результативный признак полностью обусловлен влиянием фактора .

На практике, как правило, имеет место некоторое рассеивание точек корреляционного поля относительно теоретической линии регрессии, т. е. отклонения эмпирических данных от теоретических (). Величина этих отклонений и лежит в основе расчета показателей качества (адекватности) уравнения.

При анализе качества модели регрессии используется основное положение дисперсионного анализа , согласно которому общая сумма квадратов отклонений зависимой переменной от среднего значения может быть разложена на две составляющие — объясненную и необъясненную уравнением регрессии дисперсии:

(4.2)

где - значения y, вычисленные по модели .

Разделив правую и левую часть (4.2) на

Коэффициент детерминации определяется следующим образом:

(4.3)

Коэффициент детерминациипоказывает долю вариации результативного признака, находящегося под воздействием изучаемых факторов, т. е. определяет, какая доля вариации признака Y учтена в модели и обусловлена влиянием на него факторов.

Чем ближе к 1, тем выше качество модели.

Для оценки качества регрессионных моделей целесообразно также использовать коэффициент множественной корреляции(индекс корреляции

R R = = (4.4)

Данный коэффициент является универсальным, так как он отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных.

При построении однофакторной модели он равен коэффициенту линейной корреляции

Очевидно, что чем меньше влияние неучтенных факторов, тем лучше модель соответствует фактическим данным. Также для оценки точности регрессионных моделей целесообразно использовать среднюю относительную ошибку аппроксимации:

( 4.5)

Чем меньше рассеяние эмпирических точек вокруг теоретической линии регрессии, тем меньше средняя ошибка аппроксимации. Ошибка аппроксимации меньше 7 % свидетельствует о хорошем качестве модели.

После того как уравнение регрессии построено, выполняется проверка значимости построенного уравнения в целом и отдельных параметров.

Оценить значимость уравнения регрессии – это означает установить, соответствует ли математическая модель, выражающая зависимость между Y и Х, фактическим данным и достаточно ли включенных в уравнение объясняющих переменных Х для описания зависимой переменной Y

Оценка значимости уравнения регрессии производится для того, чтобы узнать, пригодно уравнение регрессии для практического использования (например, для прогноза) или нет. При этом выдвигают основную гипотезу о незначимости уравнения в целом, которая формально сводится к гипотезе о равенстве нулю параметров регрессии, или, что то же самое, о равенстве нулю коэффициента детерминации: . Альтернативная ей гипотеза о значимости уравнения — гипотеза о неравенстве нулю параметров регрессии.

Для проверки значимости модели регрессии используется F-критерий Фишера, вычисляемый как отношение дисперсии исходного ряда и несмещенной дисперсии остаточной компоненты. Если расчетное значение с n₁= k и n₂ = (n - k - 1) степенями свободы, где k – количество факторов, включенных в модель, больше табличного при заданном уровне значимости, то модель считается значимой. Для модели парной регрессии:

(4.6)

В качестве меры точности применяют несмещенную оценку дисперсии остаточной компоненты, которая представляет собой отношение суммы квадратов уровней остаточной компоненты к величине (n- k -1), где k – количество факторов, включенных в модель. Квадратный корень из этой величины () называется стандартной ошибкой оценки.

(4.7)

Для модели парной регрессии

Анализ статистической значимости параметров модели парной регрессии

Значения , соответствующие данным при теоретических значениях и являются случайными. Случайными являются и рассчитанные по ним значения коэффициентов и .

Надежность получаемых оценок и зависит от дисперсии случайных отклонений (ошибок). По данным выборки эти отклонения и, соответственно, их дисперсия не оцениваются – в расчетах используются отклонения зависимой переменной от ее расчетных значений : . Так как ошибки (остатки) нормально распределены, то среднеквадратическое отклонение ошибок используется для измерения этой вариации. Среднеквадратические отклонения коэффициентов известны как стандартные ошибки (отклонения):

(4.8)

где - среднее значение независимой переменной х;

стандартная ошибка, вычисляемая по формуле (4.8);

Проверка значимости отдельных коэффициентов регрессии связана с определением расчетных значений t-критерия (t–статистики) для соответствующих коэффициентов регрессии:

(4.9)

Затем расчетные значения сравниваются с табличными t_табл. Табличное значение критерия определяется при (n-2) степенях свободы (n - число наблюдений) и соответствующем уровне значимости a (0,1; 0,05)

Если расчетное значение t-критерия с (n - 2) степенями свободы превосходит его табличное значение при заданном уровне значимости, коэффициент регрессии считается значимым. В противном случае фактор, соответствующий этому коэффициенту, следует исключить из модели (при этом ее качество не ухудшится).

По имеющейся информации о результатах деятельности 19 Российских предприятий, стоящих по рейтингу на первых позициях, построить уравнение линейной зависимости прибыли предприятий от размера собственного капитала.

Собранный статистический материал представлен в таблице 1.

Таблица 1. Данные о величине собственного капитала и прибыли Российских предприятий за 2005

Рейтинг	Название предприятия	Собственный капитал, млн. руб.	Прибыль, млн. руб.
1	2	3	4
1	"Газпром"	2772000	348400
2	РЖД	1851000	237545
3	ОАО "Сургутнефтегаз"	707913	214479
4	РАО "ЕЭС России"	386200	203448
5	Нефтяная компания "ЛУКойл"	222156	126326
6	ГМК "Норильский никель"	208143	118159
7	ТНК-ВР	165000	110400
8	"Связьинвест"	167572	95700
9	Нефтяная компания "Сибнефть"	153000	84800
10	АФК "Система"	150844	76503
11	Сбербанк России	148000	62929
12	“Татнефть”	103653	36876
13	"Северсталь"	103275	34312
14	Нефтегазовая компания "Славнефть"	101270	29923
15	Евраз Груп	77558	29517
16	"Русал"	75600	28512
17	АК "Транснефть"	46629	4608
18	АвтоВАЗ http://www.ta Переходи и прокачайся на 5+