Определение статистической оценки. Точечные статистические оценки.

Статистические оценки параметров генеральной совокупности. Статистические гипотезы

ЛЕКЦИЯ 16

 

Пусть требуется изучить количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак. Отсюда возникает задача оценки параметров, которыми определяется это распределение. Например, если известно, что изучаемый признак распределён в генеральной совокупности по нормальному закону, то необходимо оценить (приближённо найти) математическое ожидание и среднеквадратическое отклонение, так как эти два параметра полностью определяют нормальное распределение. Если же имеются основания считать, что признак имеет распределение Пуассона, то необходимо оценить параметр , которым это распределение определяется.

Обычно в распределении исследователь имеет лишь данные выборки, например, значения количественного признака , полученные в результате наблюдений (здесь и далее наблюдения предполагаются независимыми). Через эти данные и выражают оцениваемый параметр.

Рассматривая как значения независимых случайных величин , можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения означает найти функцию от наблюдаемых случайных величин, которая и даёт приближённое значение оцениваемого параметра. Например, как будет показано далее, для оценки математического ожидания нормального распределения служит функция (среднее арифметическое наблюдаемых значений признака):

 

.

 

Итак, статистической оценкой неизвестного параметра теоретического распределения называют функцию от наблюдаемых случайных величин. Статистическая оценка неизвестного параметра генеральной совокупности, записанная одним числом, называется точечной. Рассмотрим следующие точечные оценки: смещенные и несмещённые, эффективные и состоятельные.

Для того, чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны удовлетворять определённым требованиям. Укажем эти требования.

Пусть есть статистическая оценка неизвестного параметра теоретического распределения. Допустим, что при выборке объёма найдена оценка . Повторим опыт, то есть извлечём из генеральной совокупности другую выборку того же объёма и по её данным найдём оценку и т.д. Повторяя опыт многократно, получим числа , которые, вообще говоря, будут различаться между собой. Таким образом, оценку можно рассматривать как случайную величину, а числа – как возможные её значения.

Ясно, что если оценка даёт приближённое значение с избытком, то каждое найденное по данным выборок число будет больше истинного значения . Следовательно, что в этом случае и математическое (среднее значение) случайной величины будет больше, чем , то есть . Очевидно, что если даёт приближённое значение с недостатком, то .

Поэтому, использование статистической оценки, математическое ожидание которой не равно оцениваемому параметру, приводит к систематическим (одного знака) ошибкам. По этой причине естественно потребовать, чтобы математическое ожидание оценки было равно оцениваемому параметру. Хотя соблюдение этого требования, в общем, не устранит ошибок (одни значения больше, а другие меньше чем ), ошибки разных знаков будут встречаться одинакова часто. Однако соблюдение требования гарантирует невозможность получения систематических ошибок, то есть устраняет систематические ошибки.

Несмещённой называют статистическую оценку (ошибку) , математическое ожидание которой равно оцениваемому параметру при любом объёме выборки, то есть .

Смещённой называют статистическую оценку , математическое ожидание которой не равно оцениваемому параметру при любом объёме выборки, то есть .

Однако было бы ошибочным считать, что несмещённая оценка всегда даёт хорошее приближение оцениваемого параметра. Действительно, возможные значения могут быть сильно рассеяны вокруг своего среднего значения, то есть дисперсия может быть значительной. В этом случае, найденная по данным одной выборки оценка, например , может оказаться весьма удалённой от среднего значения , а значит, и от самого оцениваемого параметра . Таким образом, приняв в качестве приближённого значения , мы допустим большую ошибку. Если же потребовать, чтобы дисперсия была малой, то возможность допустить большую ошибку будет исключена. По этой причине к статистической оценке предъявляется требование эффективности.

Эффективной называют статистическую оценку, которая (при заданном объёме выборки ) имеет наименьшую возможную дисперсию.

Далее, при рассмотрении выборок большого объёма (достаточно велико!) к статистическим оценкам предъявляется требование состоятельности.

Состоятельной называют статистическую оценку, которая при стремится по вероятности к оцениваемому параметру, то есть, справедливо равенство:

.

Например, если дисперсия несмещённой оценки при стремится к нулю, то такая оценка оказывается также состоятельной.

 

Рассмотрим вопрос о том, какие выборочные характеристики лучше всего в смысле несмещённости, эффективности и состоятельности оценивают генеральную среднюю и дисперсию.

Пусть изучается дискретная генеральная совокупность относительно некоторого количественного признака .

Генеральной средней называется среднее арифметическое значений признака генеральной совокупности. Она вычисляется по формуле:

§ – если все значения признака генеральной совокупности объёма различны;

§ – если значения признака генеральной совокупности имеют соответственно частоты , причём . То есть генеральная средняя есть средняя взвешенная значений признака с весами, равными соответствующим частотам.

 

Замечание: пусть генеральная совокупность объёма содержит объекты с различными значениями признака . Представим себе, что из этой совокупности наудачу извлекается один объект. Вероятность того, что будет извлечён объект со значением признака, например , очевидно, равна . С этой же вероятностью может быть извлечён и любой другой объект. Таким образом, величину признака можно рассматривать как случайную величину, возможные значения которой имеют одинаковые вероятности, равные . Нетрудно, в этом случае, найти математическое ожидание :

 

 

Итак, если рассматривать обследуемый признак генеральной совокупности как случайную величину, то математическое ожидание признака равно генеральной средней этого признака: . Этот вывод мы получили, считая, что все объекты генеральной совокупности имеют различные значения признака. Такой же итог будет получен, если допустить, что генеральная совокупность содержит по несколько объектов с одинаковым значением признака.

Обобщая полученный результат на генеральную совокупность с непрерывным распределением признака , определим генеральную среднюю как математическое ожидание признака: .

 

Пусть для изучения генеральной совокупности относительно количественного признака извлечена выборка объёма .

Выборочной средней называют среднее арифметическое значений признака выборочной совокупности. Она вычисляется по формуле:

§ – если все значения признака выборочной совокупности объёма различны;

§ – если значения признака выборочной совокупности имеют соответственно частоты , причём . То есть выборочная средняя есть средняя взвешенная значений признака с весами, равными соответствующим частотам.

 

Замечание: выборочная средняя, найденная по данным одной выборки есть, очевидно, определённое число. Если же извлекать другие выборки того же объёма из той же генеральной совокупности, то выборочная средняя будет изменяться от выборки к выборке. Таким образом, выборочную среднюю можно рассматривать как случайную величину, а следовательно, можно говорить о распределениях (теоретическом и эмпирическом) выборочной средней и о числовых характеристиках этого распределения[28], в частности, о математическом ожидании и дисперсии выборочного распределения.

 

Далее, если генеральная средняя неизвестна и требуется оценить её по данным выборки, то в качестве оценки генеральной средней принимают выборочную среднюю, которая является несмещённой и состоятельной оценкой (предлагаем это утверждение доказать самостоятельно). Из сказанного следует, что если по нескольким выборкам достаточно большого объёма из одной и той же генеральной совокупности будут найдены выборочные средние, то они будут приближённо равны между собой. В этом состоит свойство устойчивости выборочных средних[29].

 

Отметим, что если дисперсии двух совокупностей одинаковы, то близость выборочных средних к генеральным не зависит от отношения объёма выборки к объёму генеральной совокупности. Она зависит от объёма выборки: чем объём выборки больше, тем меньше выборочная средняя отличается от генеральной. Например, если из одной совокупности отобран 1% объектов, а из другой совокупности отобрано 4% объектов, причём объём первой выборки оказался большим, чем второй, то первая выборочная средняя будет меньше отличаться от соответствующей генеральной средней, чем вторая.

 

Для того чтобы охарактеризовать рассеяние значений количественного признака генеральной совокупности вокруг своего среднего значения, вводят сводную характеристику – генеральную дисперсию. Генеральной дисперсией называется среднее арифметическое квадратов отклонений значений признака генеральной совокупности от их среднего значения , и вычисляется по формуле:

 

, или .

 

Для того чтобы охарактеризовать рассеяние наблюдаемых значений количественного выборки вокруг своего среднего значения, вводят сводную характеристику – выборочную дисперсию. Выборочной дисперсией называется среднее арифметическое квадратов отклонений наблюдаемых значений признака выборочной совокупности от их среднего значения , и вычисляется по формуле:

 

, или .

 

Вычисление дисперсии, безразлично, выборочной или генеральной, можно упростить, если воспользоваться следующей теоремой: дисперсия равна среднему квадратов значений признака минус квадрат общей средней: . Действительно, справедливость теоремы вытекает из преобразований:

 

 

Кроме дисперсии для характеристики рассеяния значений признака генеральной (выборочной) совокупности вокруг своего среднего значения используют сводную характеристику – среднее квадратическое отклонение. Генеральным (выборочным) средним квадратическим отклонением называют квадратный корень из генеральной (выборочной) дисперсии: ().

 

Далее, пусть из генеральной совокупности в результате независимых наблюдений над количественным признаком извлечена повторная выборка объёма :

 

Значения признака . . .
частота . . .
причём

 

Требуется по данным выборки оценить (приближённо найти) неизвестную генеральную дисперсию . Если в качестве оценки генеральной дисперсии принять выборочную дисперсию, то эта оценка будет приводить к систематическим ошибкам, давая заниженное значение генеральной дисперсии. Объясняется это тем, что как можно доказать, выборочная дисперсия является смещённой оценкой генеральной дисперсии . Другими словами, математическое ожидание выборочной дисперсии не равно оцениваемой генеральной дисперсии, а равно

 

.

 

Легко «исправить» выборочную дисперсию так, чтобы её математическое ожидание было равно генеральной дисперсии. Для этого достаточно умножить на дробь . Сделав это, получим «исправленную дисперсию», которую обычно принято обозначать через :

 

.

 

«Исправленная дисперсия» является, конечно, несмещённой оценкой генеральной дисперсии. Действительно

 

.

 

Итак, в качестве оценки генеральной дисперсии принимают «исправленную дисперсию»

.

 

Для оценки же среднего квадратического отклонения генеральной совокупности используют соответственно «исправленное» среднее квадратическое отклонение, которое равно квадратному корню из «исправленной дисперсии»:

 

.

 

Подчеркнём, что не является несмещённой оценкой; чтобы отразить этот факт мы написали и будем писать далее так: «исправленное» среднее квадратическое отклонение.

 

Замечание: сравнивая формулы

 

и

 

видим, что они отличаются лишь знаменателем. Очевидно, при достаточно больших значениях объёма выборки, выборочная и «исправленная» дисперсии различаются мало. На практике пользуются «исправленной дисперсией», если примерно .