Непараметрические методы обработки равных

Непараметрические методы не предполагают использование какого- либо параметрического семейства; для них класс возможных распределений очень широк – обычно включает в себя все непрерывные функции распределения.

Непараметрические методы обладают некоторыми преимуществами по сравнению с классическими методами: имеют более широкую область применения, менее чувствительны к искажениям данных и влиянию промахов. Часто они проще, чем соответствующие классические методы.

Непараметрические методы для разнообразных задач проверки гипотез, не связанных с определенными параметрами. При этом в качестве центра распределения целесообразно принимать медиану.

При обработке данных нередко возникает необходимость проверки гипотез однородности нескольких групп данных, т.е. равенства функций распределения двух выборок. Иногда бывает необходимо, проверить совпадение центров распределений (медиан) или одинаковое рассеивание нескольких выборок. Можно также проверить определенные свойства одной выборки, например, соответствие ее заданной функции распределения, гипотезы о симметрии, независимости и одинаковом распределении (т.е. однородности) членов выборки. Все эти гипотезы можно проверять с помощью непараметрических критериев.

Большинство непараметрических методов основано на вариационном ряде, который получается, если члены исходной выборки расположить в порядке возрастания:

x1 ` £ x2` £ …£xn`.

Тогда в качестве оценки центра распределения принимают выборочную медиану.

       
   
 

       
   
 

т.е. среднее значение ряда, а доверительный интервал, характеризующий точность этой оценки, при доверительной вероятности p имеет вид ( xu`,xυ`) где u - наибольшее целое число, меньшее ( n+1 -zpÖn ) / 2,

u - наименьшее целое число, большее (n+1 +zp Ön )/2 ,zp – квантиль аппаратного искусственного распределения.

Например, при n=100, р=0,95 получаем

med ½ (x`50 +x51`), u=41, u=61

Следовательно, действительный интервал для медианы при Р=0,95 равен (x41 , x61).

1.
Для проверки однородности произвольного числа выборок L ³2 часто применяют критерий χ2 . Для каждой выборки xj1 ,…x j n j , j=1..,L производят разбиение на классы по некоторому признаку или из τ интервалов. Распределение данных по классам обычно представляют в виде таблицы


В таблице через n ί j обозначено число данных из j-й выборки, попавших в ί – й класс,

–общее число данных попавших в ί –й класс, –общее число данных.

Если выполняется группировка, то рекомендуется принимать интервал равной длины, причем при N =100…200 число интервалов t=8…12, при N =200…500 - t=10…15. Целесообразно применять критерий, если общее число данных N>40, а классы данных не очень узкие:

статистика c имеет вид:

Сравниваемые выборки считаются однородными, если c2 < c p 2, где c квантиль c2 распределяется с f =( t -1) (L-1) степенями свободы.

При проверке однородности двух групп объемов n1 и n2 статистика c2 вычисляется по формуле

Критерий c2 можно использовать также для проверки согласия выборочного распределения с теоретическим. При этом также выполняют группировку по t интервалам. Выборочные частоты попадания в интервалы n ί сравнивают с ожидаемыми согласно теоретическому распределению частотами

, где h –длина интервала φ (x ί ) – значение плотности распределения в центре ί –го интервала.

Статистика c2 вычисляется по формуле

Если теоретическое распределение было задано, то число степеней свободы

f=t-1

Если по выборке оценивались k его параметров, то f = t -k – 1 (в частности для нормального распределения f= t -3). Считают, что выборка соответствует заданному распределению, если c2 < c2 P ,где c2 P – квантиль c распределения с f степенями свободы.

2. Для проверки однородности двух выборок с непрерывными функциями распределений используют критерий Колмогорова – Смирнова, который основан на сравнении эмпирических функций распределений.

Для выборок x1…xn и y1… ym определяют эмпирические функции распределений

F1n(x) = { число x ί < x }

F2m(x) = { число y ί < x }

и вычисляют расстояния между ними

 

Dnm+ = max{ F1n(x) – F2m(x)}

Dnm = max ïF1n(x) – F2m(x)ï

Вычисленные значения

Dnm и Dnm+

сравнивают с критическими значениями Z (a ) Z+(a ); для уровней a, равных 0,05 и 0,01 эти значения следующие:

Z (0,05 ) = 1,358 Z ( 0,01 ) = 1,628

Z+( 0,05 ) = 1,224 Z+ ( 0,01 ) = 1,517

При использовании критерия Колмогорова – Смирнова полезно вычертить графики эмпирических функций F1n и F2m, которые позволяют выявить особенности выборок.

3. При предварительном анализе данных можно применить простые непараметрические критерии однородности – критерии знаков и серий. Обычно они применяются для сравнения двух паралельных выборок или парных наблюдений

x1 …xn и y1 … yn β критерии знаков вычисляют попарные разности z ί = x ί - yί , ί =1 …n и подсчитывают число положительных разностей u+. Гипотеза однородности применяется, если выполнено условие t < u+ < n-t2, где критические значения t2(n) для уровня значимости a = 0,05 при n < 50 находят по таблице

n 6 - 8 9 - 11 12 - 14 15 - 16 17 - 19 20 – 22
tn Г
n 25 – 28 30 - 33 35 - 37 40 - 42 44 - 47
t2 7 – 8 9 - 10 11 – 12 13 - 14 15 - 16

Если n ³ 50, то вычисляют по формуле

Критерий знаков можно применять и при одной выборке для проверки того, что медиана распределения имеет заданное значение a.

В этом случае рассматривают разности Z ί = xί – a.

В частности, при а =0 проверяют гипотезу симметрии выборочного распределения.

В критерии серий используется статистика R, равная общему числу серий в последовательности остатков ( разностей ) Z1 …Z n. Серией называется часть последовательностей, содержащие члены одного знака.

Гипотеза однородности выборок принимается, если выполнено условие < R <

Критические значения при n <40 исходили (для случая u+ = u_ = n/2 )по таблице

n/2
Ra¯
Ra+

Если n>40 вычисляют по формуле

4. Наиболее эффективными критериями проверки равенства двух функций распределения выборок x1…xn и y1…ym, m≥n≥ 5 являются критериями Уилкоксона и Манна – Уитни.

В них располагают все значения xí и yí в порядке возрастания; затем для каждого xí находим uí – число символов y, предшедствующих xí и í – номер xí в общей последовательности (ранг xí ). Статистически Манна – Уитни u и Уилкоксона T задаются выражениями

Выборки считаются однородными, если выполнено условие

<T<

Где критические значения при m≤15 и α = 0.05 определяют по таблице

 

n
m T‾0.05 T 0.05
n
M T‾0.05 T 0.05
n
M T‾0.05 T 0.05
                                           

Если m>15 то значения T0.05 вычисляются по формуле

Непараметрические критерии согласия можно сравнивать по эффективности с пара ммс см с для проверки равенства средних значений двух гауссовских выборок с одинаковым распределениями. Оказывается, что при Гауссовском распределении критерий Cтъюдента незначительно эффективнее, чем критерий Уилконсона (≈ 5%), но последний оказывается гораздо мощнее при отклонениях от гауссовского распределения.

5. Для проверки одинакового распределения двух выборок можно использовать ранговый критерий Сидхела – Тьюки

При этом ранг rí´ определяют на основе общего вариационного ряда z1≤z2≤…zn+m, состоящего из n+m значений xí и yí по следующему правилу: ´(z1) =1, а затем приписывают по два очередных номера следующим наибольшим и наименьшим значениям:

´(zn+m) =2

´(zn+m-1)=3

´(z2) =4

´(z3) =5

´(zn+m-2)=6

Ранг í´ соответствует значению хí.

Выборки считаются однородными, если выполнено условие <T<, где критические значения те же, что и в критерии Уилкоксона.