Оценки моментов и квантилей распределения

Для характеристики эмпирического распределения можно использовать оценки центральных и начальных моментов. Применение находят моменты до четвертого порядка включительно, так как точность выборочных моментов резко падает с увеличением их порядка, в частности, дисперсия начальных моментов порядка r зависит от моментов порядка 2r. Она становится значительной для моментов высокого порядка даже при больших объемах выборки. Выборочные значения моментов определяют непосредственно по выборке или по сгруппированным данным [3, 5, 9].

Выборочные значения центральных моментов случайной величины X вычисляются по выборке с применением с формул

    (2.1)  

Указанные величины являются оценками соответствующих теоретических моментов m1 m4 и должны рассматриваться как случайные. Вычисления по формулам (2.1) дают состоятельные, но смещенные оценки моментов старше первого. Смещение удается устранить введением поправочных коэффициентов, зависящих от объема выборки. Несмещенными и состоятельными будут оценки

  (2.2)  

Оценки моментов по сгруппированным ЭД

  (2.3)  

где Xц , j – центр j-го интервала; ψ – количество интервалов.

Группирование и приписывание соответствующей частости значения варианты в середине интервала группирования вносят некоторые искажения. Если распределение непрерывно и имеет достаточно высокий порядок соприкосновения с осью абсцисс (значения функции плотности распределения быстро убывают при удалении от центра распределения), то для снижения ошибок группирования используют поправки Шеппарда. Уточненные значения выборочных моментов для случая равной длины всех интервалов определяются через оценки моментов, вычисленные по сгруппированным данным:

  (2.4)  

где h – длина интервала группирования. Указанные поправки ведут к уточнению только при соблюдении указанного условия, в противном случае они могут привести к еще большей ошибке.

Начальный эмпирический момент порядка r по несгруппированным данным определяется соотношением

. (2.5)  

Центральные и начальные оценки моментов связаны между собой следующими зависимостями:

  (2.6)  

В процессе обработки ЭД проще сначала определить оценки начальных моментов, потом перейти к смещенным оценкам центральных моментов и затем вычислить несмещенные оценки.

Квантилью, отвечающей уровню вероятности g , называют такое значение варианты xg , при котором функция распределения случайной величины принимает значение g ,т. е. квантиль – это значение аргумента xg функции распределения, при котором F(xg )=g . Эмпирическую квантиль находят по заданному значению вероятности g , используя вариационный ряд или ступенчатую ломаную линию.

Наряду с указанными параметрами для описания распределений применяются и другие характеристики:

среднеквадратическое отклонение ;

коэффициенты асимметрии и эксцесса ;

стандартизованные переменные u=(x m 1)/s .

Коэффициент асимметрии характеризует "скошенность" распределения относительно симметричного нормального распределения (у любого симметричного распределения b 1= 0), рис. 2.4. Этот показатель в основном зависит от крайних значений выборки.

 

Коэффициент эксцесса характеризует островершинность распределения относительно нормального распределения (этот коэффициент у нормального распределения равен трем), рис. 2.5. Термин "эксцесс" (превышение) целесообразно применять не к величине b2, а к сравнению этой величины изучаемого распределения с величиной данного коэффициента нормального распределения, т. е. с величиной, равной трем. Исходя из этого, часто вместо b2 используют величину b2 – 3.

Стандартизация переменной позволяет упростить расчеты, кроме того, в литературе многие справочные статистические таблицы приводятся именно для стандартизованных переменных. Нетрудно показать, что математическое ожидание стандартизованной переменной равно нулю, а дисперсия равна единице, т.е. после такого преобразования ЭД справедливы следующие соотношения:

 

Величина u называется центрированной и нормированной. Переход от центрированной и нормированной величины к исходной осуществляется простым преобразованием x = u s + m1. Потери информации при стандартизации и обратном преобразовании не происходит.

Вариация. Мера относительной изменчивости наблюдаемой случайной величины.

V=σ/μ1

Пример 2.3. Необходимо определить числовые характеристики распределения по данным, представленным в виде вариационного и статистического ряда, табл. 2.3 и 2.4 соответственно.

Решение. Вычислим значения центральных моментов по вариационному ряду, пользуясь формулами (2.1)

m 1 = 27,508;

Эти оценки, кроме математического ожидания, являются смещенными. Несмещенные оценки получим на основе (2.2)

m 2 = 0,913; m 3 = 0,132; m 4 =1,819; s = 0,956.

Вычисление оценок моментов на основе статистического ряда по (2.3) дает следующие результаты:

m 1 = 27,482; 0,805; 0,137; 1,320.

Судя по гистограмме, по крайней мере левый край распределения не имеет гладкого соприкосновения с осью х, поэтому поправки Шеппарда нецелесообразны.

Значения оценок моментов различаются при их вычислении по вариационному ряду и по сгруппированным данным. Можно предполагать, что оценки, вычисленные по вариационному ряду, будут точнее оценок, рассчитанных по статистическому ряду.

Оценка коэффициента асимметрии b 1 = 0,132/0,9131,5 = 0,15 говорит о небольшой положительной асимметрии распределения (мода функции плотности распределения находится левее математического ожидания), а оценка коэффициента эксцесса b 2 = 1,819/0,9132 = 2,18 – о пологости распределения ("островершинность" выражена слабее, чем у нормального распределения).

Анализируя назначение рассмотренных параметров, необходимо отметить следующее. Одни параметры характеризует средние величины, а другие – вариацию. Главное назначение средних величин (оценок начальных моментов и в первую очередь первого момента распределения) состоит в их обобщающей функции. Это обобщение позволяет заменить множество различных индивидуальных значений показателя средней величиной, характеризующей всю однородную совокупность. Иначе говоря, средняя величина является типической характеристикой варианты в конкретной выборке. Иногда средняя величина обобщает и неоднородные показатели однотипных объектов.

Каждый элемент ЭД формируется под влиянием как общих закономерностей, так и особых условий и случайных событий. Следовательно, в обработке ЭД большой интерес представляют вопросы оценки величин, характеризующих вариацию значений параметра у разных объектов или у одного и того же объекта в разные моменты времени. Вариацией какого-либо параметра (показателя) в совокупности наблюдений называется различие его значений у разных элементов этой совокупности. Именно это свойство является объектом исследования большинства методов обработки ЭД. Для характеристики вариации нет единого показателя, в этих целях применяются моменты распределения выше первого, производные от них величины, размах выборки, квантили и др.

Надо отметить, что приведённые числовые оценки справедливы для равноточных экспериментальных данных. Для неравноточных необходимо их модифицировать.