Малые выборки

Выборки, при которых наблюдением охватывается небольшое число единиц (n < 30), принято называть малыми выборками. Они обычно применяются в том случае, когда невозможно или нецелесообразно использовать большую выборку (исследование качества продукции, если это связано с ее разрушением, в частности на прочность, на продолжительность срока службы и т.д.).

Предельная ошибка малой выборки определяется по формуле:

Средняя ошибка малой выборки:

где - дисперсия малой выборки :

где - среднее значение признака по выборке;

- число степеней свободы

- коэффициент доверия малой выборки, зависящей не только от заданной доверительной вероятности, но и от численности единиц выборки.

Вероятность того, что генеральная средняя находится в определенных границах, определяется по формуле

где - значение функции Стьюдента.

Для расчета коэффициента доверия определяют значение функции по формуле:

.

Затем по таблице распределения Стьюдента (см. приложение 4) в зависимости от значения функции и числа степеней определяют значение .

Функция используется также для определения вероятностей того, что фактическое нормированное отклонение не превзойдет табличное значение.

 


Тема 7. Статистическое изучение взаимосвязи: Понятие статистической связи. Виды и формы статистической связи. Задачи статистического изучения взаимосвязи явлений. Особенности связей социально-экономических явлений. Основные методы статистического изучения связей.

Корреляционная связь –связь, проявляющаяся не в каждом отдельном случае, а в массе случаев в средних величинах в форме тенденции.

Статистическое исследование ставит своей конечной целью получение модели зависимости для ее практического использования. Решение этой задачи осуществляется в следующей последовательности.

1. Логический анализ сущности изучаемого явления и причинно-следственных связей. В результате устанавливаются результативный показатель (у), факторы его изменения, характеризуемые показателями {, х2, х3, ..., х„). Связь двух признаков и х) называется парной корреляцией.Влияние нескольких факторов на результативный признак называется множественной корреляцией.

По общему направлению связи могут быть прямые и обратные. При прямых связях с увеличением признака x увеличиваетcя и признак у, при обратных - с увеличением признака х признак у уменьшается.

2. Сбор первичной информации и проверка ее на однородность и нормальность распределения. Для оценки однородности совокупности используется коэффициент вариации по факторным признакам

Совокупность считается однородной, если коэффициент вариации не превышает 33%. Проверка нормальности распределения исследуемых факторных признаков (х{, х2, х3, ..., х„) проводится с помощью правила «трех сигм». Результаты проверки на нормальность распределения следует представлять в табличной форме:

Интервалы значений признака-фактора Число единиц, входящих в интервал Удельный вес единиц, входящих в интервал, в общем их числе, % Удельный вес единиц, входящих в интервал, при нормальном распределении, %
    68,3 95,4 99,7

Сопоставление данных гр. 3 и гр. 4 позволяет судить о наличии или об отсутствии нормальности распределения.

На практике часто встречаются случаи отклонения от этих двух предпосылок. Однако это не означает, что следует отказаться от применения корреляционного анализа.

3. Исключение из массива первичной информации всех резко выделяющихся (аномальных) единиц по уровню признаков-факторов. Исключаются все единицы, у которых уровень признака-фактора не попадает в интервал

и формируется новый массив для последующего анализа.

4. Установление факта наличия и направления корреляционной зависимости между результативным (у) и факторным (х) признаками. Основным методом выявления наличия корреляционной связи является метод аналитической группировки и определения групповых средних. Он заключается в том, что все единицы совокупности разбиваются на группы по величине признака-фактора и для каждой группы определяется средняя величина результативного признака. На основе данных аналитической группировки строится график эмпирической линий связи (линии регрессии), вид которой не только позволяет судить о возможном наличии связи, но и дает некоторое представление о форме корреляционной связи. Если эмпирическая линия связи по своему виду приближается к прямой линии, то можно предположить наличие прямолинейной корреляционной связи; если эмпирическая линия приближается к какой-либо кривой, то это связано с наличием криволинейной связи.

5. После установления факта наличия связи и ее формы измеряется степень тесноты связи и проводится оценка ее существенности.

Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции (г); при любой форме зависимости (линейной и криволинейной) - эмпирическое корреляционное отношение (г)). Формулы их расчета для несгруппированных данных следующие:

или

;

где отклонения вариантов значений признака-фактора от их средней величины;

– отклонения вариантов значений результативного признака от их средней величины;

п - число единиц в совокупности;

среднее квадратическое отклонение соответственно признака-фактора и результативного признака;

– межгрупповая дисперсия результативного признака, вызванная влиянием признака-фактора.

Линейный коэффициент корреляции может принимать значения в пределах от -1 до +1. Чем ближе он по абсолютной величине к 1, тем теснее связь. Знак при нем указывает направление связи: знак «+» соответствует прямой зависимости, знак «-» — обратной. Корреляционное отношение изменяется от 0 до 1: чем ближе к 1, тем связь теснее; направление связи он не показывает, оно устанавливается по данным групповой таблицы.

Оценка существенности линейного коэффициента корреляции при большом объеме выборки проводится с использованием отношения коэффициента корреляции (г) к его средней квадратической ошибке (σг):

где

Если это отношение окажется больше значения t-критерия Стьюдента, определяемого по приложению 6 при числе степеней свободы k= п - 2 и с вероятностью (1 - α), то следует говорить о существенности коэффициента корреляции (α - уровень значимости 0,01 или 0,05).

В тех случаях, когда г получен по данным малой выборки, для проверки его существенности целесообразно использовать метод преобразованной корреляции, предложенный Р. Фишером.

При недостаточном количестве данных в выделенных группах к рассчитанной величине корреляционного отношения вносится поправка:

где т - число выделенных групп.

В практике могут быть использованы и другие показатели для определения степени тесноты связи.

Элементарной характеристикой степени тесноты связи являетсякоэффициент Фехнера:

где паколичество совпадений знаков отклонений индивидуальных величин факторного признака х и результативного признака у от их средней арифметической величины (например, «плюс» и «плюс», «минус» и «минус», «отсутствие отклонения» и «отсутствие отклонения»);

return false">ссылка скрыта

пb, – количество несовпадений знаков отклонений индивидуальных значений изучаемых признаков от значения их средней арифметической.

Коэффициент Фехнера целесообразно использовать для установления факта наличия связи при небольшом объеме исходной информации. Он изменяется в пределах – 1,0≤Кф≤+1,0

Для определения тесноты связи как между количественными,так и между качественными признаками, при условии, что значения этих признаков могут быть проранжированы по степени убывания или возрастания, используется коэффициент корреляции рангов Спирмэна:

где dtразность между величинами рангов признака-фактора и результативного признака;

п – число показателей (рангов) изучаемого ряда.

Он варьирует в пределах от -1,0 до +1,0.

Ранговый коэффициент обычно исчисляется на основе небольшого объема исходной информации, поэтому необходимо выполнить проверку его существенности. В приложении 7 приводится таблица предельных значений коэффициента корреляции рангов Спирмэна при условии верности нулевой гипотезы об отсутствии корреляционной связи при заданном уровне значимости и определенном объеме выборочных данных.

Если полученное значение р превышает критическую величину при данном уровне значимости, то нулевая гипотеза может быть отвергнута, т. е. величина р не является результатом случайных совпадений рангов.

Для исследования степени тесноты связи между качественными признаками, каждый из которых представлен в виде альтернативных признаков, может быть использован коэффициент ассоциации Д. Юлаиликоэффициент контингенции К. Пирсона.

Расчетная таблица в этом случае состоит из четырех ячеек (таблица «четырех полей»), статистическое сказуемое которой схематически может быть представлено в следующем виде:

Признаки А.(да) А (нет) Итого
В (да) а Ь а + Ь
В (нет) с d c + d
Итого а + с b + d п

а, Ь. с. d – частоты взаимного сочетания (комбинации) двух альтернативных признаков – А-А и В-В;

п - общая сумма частот.

Коэффициент ассоциации исчисляется по формуле

Коэффициент контингенции:

где а. Ь, с, d – числа в четырехклеточной таблице.

Коэффициент контингенции также изменяется от -1 до +1, но всегда его величина для тех же данных меньше коэффициента ассоциации.

Для оценки тесноты связи между альтернативными признаками, принимающими любое число вариантов значений, применяется коэффициент взаимной сопряженности К. Пирсона.

Первичная статистическая информация для исследования этой связи располагается в форме таблицы:

Признаки А В С Итого
D m11 m12 m13 Σm1j
Е m21 m22 m23 Σm2j
F m31 m32 m33 Σm3j
Итого Σmi1 Σmi2 Σmi3 n

где mij - частоты взаимного сочетания двух атрибутивных признаков; п - число пар наблюдений.

Коэффициент взаимной сопряженности определяется по формуле

где - показатель средней квадратической сопряженности.

Коэффициент взаимной сопряженности изменяется от 0 до 1.

6. После установления достаточной степени тесноты связи выполняется построение модели связи (уравнения регрессии). Тип модели выбирается на основе сочетания теоретического анализа и исследования эмпирических данных посредством построения эмпирической линии регрессии. Чаще всего используются следующие типы функций:

а) линейная - ух = а + Ьх;

б) гиперболическая - ух = а+b ;

в) параболическая - ух = а + Ьх + сх2;

г) показательная - ух = abx

Для определения численных значений параметров уравнения связи (линии регрессии) используется метод наименьших квадратов и решается система нормальных уравнений.

Для определения параметров а и b уравнения прямолинейной корреляционной связи система нормальных уравнений (для несгруппированных данных) следующая:

 

Решение указанной системы уравнений дает следующие формулы для расчета параметров а и Ь:

или

Для определения параметров гиперболической функции система нормальных уравнений следующая:

Для проверки возможности использования линейной функции определяется разность ; если она менее 0,1, то считается возможным применение линейной функции. Для решения этой задачи можно использовать величину со , определяемую по формуле

где т - число групп, на которое разделен диапазон значений факторного признака.

Если окажется меньше табличного значения F-критерия, то нулевая гипотеза о возможности использования в качестве уравнения регрессии линейной функции не опровергается. Значение F-критерия определяется по таблице в зависимости от уровня значимости α = 0,05 (вероятность Р = 0,95) и числа степеней свободы числителя (k1 = т - 2) и знаменателя (k2 = п - т) (см. приложение 5).

В качестве меры достоверности уравнения корреляционной зависимости используется процентное отношение средней квадратической ошибки уравнения (Se) к среднему уровню результативного признака ( ):

где у – фактические значения результативного признака;

значения результативного признака, рассчитанные по уравнению регрессии;

l – число параметров в уравнении регрессии.

Если это отношение не превышает 10 - 15%, то следует счи­тать, что уравнение регрессии достаточно хорошо отображает изучаемую взаимосвязь.

7. Изучение множественной корреляционной зависимости начинается с анализа матрицы парных коэффициентов корреляции, что позволяет произвести отбор факторов, включаемых в модель множественной зависимости. Матрица имеет следующий вид:

 

Признак у0 х1 х2 хк
у0 r01 r02   r0k
х1 r01 r21   rk1
х2 r02 r12   rk2
       
хк r0k r1k r2k  

Анализ первой строки матрицы позволяет выявить факторы, у которых степень тесноты связи с результативным показателем значительна, а поэтому они могут быть включены в модель. Однако при построении многофакторных моделей должно соблюдаться требование возможно меньшей коррелированности включенных в модель признаков-факторов (отсутствие мультиколлинеарности). В качестве критерия мультиколлинеарности может быть принято соблюдение следующих неравенств:

Если приведенные неравенства (или хотя бы одно из них) не выполняются, то исключается тот фактор х} или xh связь которо­го с результативным признаком у будет менее тесной.

8. Отобранные факторы включаются в модель множественной зависимости. При этом следует учитывать, что число факторов, включаемых в модель, должно быть в 5 - 6 раз меньше, чем число единиц, входящих в совокупность.

Линейное уравнение множественной зависимости имеет следующий вид:

Мерой его достоверности является процентное отношение средней квадратической ошибки уравнения к среднему уровню результативного показателя, так же как в случае парной корреляции.

9. Для измерения степени тесноты связи между изменениями величины результативного признака (у) и изменениями значений факторных признаков определяется коэффициент множественной (совокупной) корреляции (R).

Для случая зависимости результативного признака от двух факторных признаков формула совокупного коэффйциейта корреляции имеет вид:

Если число факторов-признаков более двух, то совокупный коэффициент корреляции определяется следующим образом:

где Δ - матрица парных коэффициентов корреляции;

– соответствует матрице парных коэффициентов корреляции (Δ) без верхней строки и первого столбца.

Величина R2 называется еще коэффициентом детерминации; она показывает, в какой мере вариация результативного признака обусловлена влиянием признаков-факторов, включенных в уравнение множественной зависимости.

Величина совокупного коэффициента корреляции изменяется в пределах от 0 до 1 и численно не может быть меньше, чем любой из образующих его парных коэффициентов корреляции. Чем ближе он к единице, тем меньше роль неучтенных в модели факторов и тем более оснований считать, что параметры регрессионной модели отражают степень эффективности включенных в нее факторов.

Для оценки существенности (значимости) совокупного коэффициента корреляции используется критерий F-Фишера.

Для этого определяется F-расчетное по следующей формуле:

где - факторная дисперсия результативного признака, обусловленная вариацией признаков-факторов;

где - значения результативного признака, рассчитанные по уравнению регрессии;

- остаточная дисперсия: ,

- общая дисперсия результативного признака;

п - число данных;

l - число параметров уравнения.

По таблице F-распределения (см. приложение 5) следует отыскать табличное значение Fтабл при числе степеней свободы k1 = l – 1, k2 = n - 1 и уровне значимости α= 0,05 (Р=1-- 0,05). Если Fрасч < Fтабл, то с вероятностью 0,95 можно утверждать, что связь между результативным и факторными признаками существенна.

 


Тема 8. Ряды динамики: Понятие и виды рядов динамики. Показатели ряда динамики. Выявление тенденции развития. Многомерный статистический анализ. Прогнозирование на основе тренда и колеблемости.

Социально-экономические явления общественной жизни находятся в непрерывном развитии. Их изменение во времени статистика изучает при помощи построения и анализа рядов динамики.

Ряд динамики – числовые значения статистического показателя, представленные во временной последовательности. Он состоит из двух граф: в первой указываются периоды (или даты), во второй – показатели, характеризующие изучаемый объект за эти периоды (или на эти даты).

Показатели второй графы носят название уровней ряда: первый показатель называется начальным уровнем, последний – конечным. Уровни ряда могут быть выражены абсолютными, средними и относительными величинами. Ряды динамики относительных и средних величин строятся на основе рядов абсолютных величин. Для наглядного представления ряда динамики широко используются графические изображения, чаще всего линейной диаграммы.

Ряды динамики могут быть двух видов: интервальные и моментные.

В интервальном ряду приводятся данные, характеризующие величину показателя за определенные периоды. Особенностью интервальных рядов из абсолютных величин является то, что их уровни моно суммировать, получая новые численные значения объема явления, относящиеся к более длительным периодам.

В моментном ряду динамики приводятся данные, характеризующие размеры явления на определенные моменты времени. Уровни моментных динамических рядов суммировать нельзя; сумма не имеет смысла, так как каждый последующий уровень полностью или частично включает в себя предыдущий уровень. Однако разность уровней имеет смысл, характеризую увеличение или уменьшение уровня ряда между датами учета.

Важнейшим условием правильного формирования рядов динамики является сопоставимость уровней,образующих ряд. Основным требованием сопоставимости уровней является одинаковая методология их исчисления для всех периодов или дат. При этом все уровни должны быть даны не только в одинаковых, но и в равноценных единицах измерения. Условием сопоставимости данных является также одинаковая полнота охвата различных частей явления, представленного рядом динамики. Уровни показателей в интервальных динамических рядах должны относиться к периодам с одинаковой продолжительностью. Для моментных рядов должна соблюдаться неизменность даты учета.

Прежде чем анализировать ряд динамики, надо, исходя из цели исследования, обеспечить сопоставимость уровней ряда дополнительными расчетами, то есть провести так называемое смыкание рядов динамики.

Специальным условием сопоставимости абсолютных величин интервального динамического ряда является равенство периодов, за которые приводятся данные; если это условия нарушено, то ряд подвергают дополнительной обработке – рассчитывают величины явления в среднем на единицу времени.

Например, объем капитальных вложений (инвестиций) по фирме характеризуется следующими данными:

Показатель Период
1985-1990 гг. 1991-1994 гг. 1995-1997 гг. 1998 г.
Абсолютный объем капитальных вложений (в сопоставимых ценах), млн. руб. 840,7 420,8 540,3 200,5

Приведенный ряд дает неправильное представление о динамике капитальных вложений, так как показатели относятся к периодам с различной продолжительностью. Чтобы выявить изменение объема капитальных вложений во времени, следует определить величину капитальных вложений на одну и ту же единицу каждого периода – один год.

Объем капитальных вложений за один год составляет (млн. руб.):

1985 – 1990 гг. – 840,7:6 = 140,1;

1991 – 1994 гг. – 420,8:4 = 105,2;

1995 – 1997 гг. – 540,3:3 = 180,1;

1998 г. – 200,5.

Как видно из этих данных объем капитальных вложений по фирме снижался до 1995г., и лишь начиная с 1995г. наметилось некоторое его повышение.

Если несопоставимость в рядах динамики вызвана административно-территориальными изменениями, то для изучения развития явления необходимо построить ряд сопоставимых уровней в новых территориальных границах.

Например, имеются данные об объеме транспортной работы (грузообороте) автотранспортных предприятий, обслуживающих регион грузовыми перевозками (млн. ткм):

  1995г. 1996г. 1997г. 1998г.
В старых границах региона -
В новых границах региона - -

Для приведения этой информации к сопоставимому виду определяется коэффициент пересчета (коэффициент соотношения двух уровней):

Умножая на этот коэффициент уровни объема грузооборота 1995 и 1996 гг., можно построить ряд динамики сопоставимых уровней в новых территориальных границах региона:

  1995г. 1996г. 1997г. 1998г.
В новых границах региона 285,6

При изучении рядов динамики перед статистикой стоят следующие задачи:

· охарактеризовать интенсивность развития явления от периода к периоду (от даты к дате), а также среднюю интенсивность развития за исследуемый период;

· выявить основную тенденцию в развитии явления;

· осуществить прогноз развития на будущее;

· изучить сезонные колебания.

Для изучения интенсивности изменения уровней ряда во времени исчисляются следующие показатели динамики:

· абсолютные приросты;

· коэффициенты роста;

· темпы роста;

· темпы прироста;

· абсолютные значения одного процента прироста.

Перечисленные показатели динамики можно исчислять с переменной или постоянной базой. Если производится сравнение каждого уровня с предыдущим уровнем, то получаются показатели динамики с переменной базой (цепные показатели динамики). Если каждый уровень сравнивается с начальным уровнем или каким-то другим, принятым за базу сравнения, то получаются показатели динамики с постоянной базой (базисные показатели динамики). База сравнения должна выбираться обоснованно, в зависимости от экономических особенностей явления и задач исследования.

При расчете показателей приняты следующие условные обозначения:

– уровень любого периода (кроме первого), называемый уровнем текущего периода;

– уровень периода, предшествующего текущему;

– уровень, принятый за постоянную базу сравнения (часто начальный уровень).