Нормальное распределение

Случайная величина Х имеет нормальное распределение (или распределение по закону Гаусса), если ее плотность вероятности имеет вид:

 

,

 

где параметры а – любое действительное число и s>0.

График дифференциальной функции нормального распределения называют нормальной кривой (кривой Гаусса). Нормальная кривая (рис. 12.12) симметрична относительно прямой х=а, имеет максимальную ординату , а в точках х = а ± s – перегиб.

 

j(х)

 

 

 

0 а–s аа+s х

Рис. 12.12

 

Доказано, что параметр а является математическим ожиданием (также модой и медианой), а s – средним квадратическим отклонением. Коэффициенты асимметрии и эксцесса для нормального распределения равны нулю: As = Ex = 0.

Установим теперь, как влияет изменение параметров а и s на вид нормальной кривой. При изменении параметра а форма нормальной кривой не изменяется. В этом случае, если математическое ожидание (параметр а) уменьшилось или увеличилось, график нормальной кривой сдвигается влево или вправо (рис. 12.13).

При изменении параметра s изменяется форма нормальной кривой. Если этот параметр увеличивается, то максимальное значение функции убывает, и наоборот. Так как площадь, ограниченная кривой распределения и осью Ох, должна быть постоянной и равной 1, то с увеличением параметра s кривая приближается к оси Ох и растягивается вдоль нее, а с уменьшением s кривая стягивается к прямой х = а (рис. 12.14).

 

j(х) j(х)

s1<s2<s3 s1

 

s2

s3

а1 0 а2 а3 x 0 x

Рис. 12.13 Рис. 12.14

Функция плотности нормального распределения j(х) с параметрами а = 0, s = 1 называется плотностью стандартной нормальной случайной величины, а ее график ­ стандартной кривой Гаусса.

Функция плотности нормальной стандартной величины определяется формулой

,

а ее график изображен на рис. 12.15.

 

j(х)

 

 

 

0 x

Рис. 12.15

Из свойств математического ожидания и дисперсии следует, что для величины D(U)=1, M(U) = 0. Поэтому стандартную нормальную кривую можно рассматривать как кривую распределения случайной величины , где Х – случайная величина, подчиненная нормальному закону распределения с параметрами а и s.

Нормальный закон распределения случайной величины в интегральной форме имеет вид

(12.10)
Полагая в интеграле (12.10) , получим

,

где . Первое слагаемое равно 1/2 (половине площади криволинейной трапеции, изображенной на рис. 12.15). Второе слагаемое

(12.11)
называется функцией Лапласа, а также интегралом вероятности.

Поскольку интеграл в формуле (12.11) не выражается через элементарные функции, для удобства расчетов составлена для z ³ 0 таблица функции Лапласа.

Функция Лапласа нечетная

Ф(–z) = – Ф(z).

Окончательно получаем расчетную формулу

Отсюда получаем, что для случайной величины Х, подчиняющейся нормальному закону, вероятность ее попадания на отрезок [a,b] есть

(12.12)
С помощью формулы (12.12) найдем вероятность того, что модуль отклонения нормального распределения величины Х от ее центра распределения а меньше 3s. Имеем

Р(|x – a| < 3s) =P(а–3s< X< а+3s)= Ф(3) – Ф(–3) = 2Ф(3)»0,9973.

Значение Ф(3) получено по таблице функции Лапласа.

Принято считать событие практически достоверным, если его вероятность близка к единице, и практически невозможным, если его вероятность близка к нулю.

Мы получили так называемое правило трех сигм: для нормального распределения событие (|x – a| < 3s) практически достоверно.

Правило трех сигм можно сформулировать иначе: хотя нормальная случайная величина распределена на всей оси х, интервал ее практически возможных значений есть (a -3s, a +3s).

Нормальное распределение имеет ряд свойств, делающих его одним из самых употребительных в статистике распределений.

Если предоставляется возможность рассматривать некоторую случайную величину как сумму достаточно большого числа других случайных величин, то данная случайная величина обычно подчиняется нормальному закону распределения. Суммируемые случайные величины могут подчиняться каким угодно распределениям, но при этом должно выполняться условие их независимости (или слабой независимости). Также ни одна из суммируемых случайных величин не должна резко отличаться от других, т.е. каждая из них должна играть в общей сумме примерно одинаковую роль и не иметь исключительно большую по сравнению с другими величинами дисперсию.

Этим и объясняется широкая распространенность нормального распределения. Оно возникает во всех явлениях, процессах, где рассеяния случайной изучаемой величины вызывается большим количеством случайных причин, влияние каждой из которых в отдельности на рассеяние ничтожно мало.

Большинство встречающихся на практике случайных величин (таких, например, как ошибка измерения; отклонение снарядов от цели по дальности или по направлению; отклонение действительных размеров деталей, обработанных на станке, от номинальных размеров и т.д.) может быть представлено как сумма большого числа независимых случайных величин, оказывающих равномерно малое влияние на рассеяние суммы. Такие случайные величины принято считать нормально распределенными. Гипотеза о нормальности подобных величин находит свое теоретическое обоснование в центральной предельной теореме и получила многочисленные практические подтверждения.

Представим себе, что мы измерим температуру воды в сосуде несколькими термометрами одновременно. Из–за случайных ошибок (ошибки отсчета показаний приборов, физиологические изменения органов чувств исполнителя измерений, колебания температуры, влажность и другие неконтролируемые изменения окружающей среды) показания термометров будут несколько различаться, но среднее всех значений будет приближаться к истинной температуре воды.

Отклонения показаний термометров от среднего образуют симметричную кривую распределения, близкую к кривой нормального распределения. Любая систематическая ошибка термометров проявится в асимметрии распределения.

Задача 12.10. Случайная величина распределена нормально с параметрами а = 8, s = 3. Найти вероятность того, что случайная величина в результате опыта примет значение, заключенной в интервале (12,5; 14).

Решение. Воспользуемся формулой (13.12). Имеем

 

 

Задача 12.11. Ошибку Х измерения расстояния можно считать распределенной нормально. Среднее квадратическое отклонение ошибки s = 0,80 м. Найти вероятность того, что отклонение измеренного значения от истинного не превзойдет по модулю 1,6 м, если: 1) при измерении расстояния допускается систематическая ошибка в сторону завышения на 1,2 м; 2) систематической ошибки нет.

Решение. Иногда вследствие неправильной настройки измерительного прибора возникает систематическая ошибка прибора (систематическое смещение результатов измерения в одну сторону). В этом случае математическое ожидание случайной ошибки измерения равно систематической ошибке.

Если же прибор исправен, то систематической ошибки нет, а математическое ожидание случайной ошибки измерения будет равно нулю.

1) Ошибка Х распределена нормально с параметрами а = М(Х) = 1,2;
s = 0,80. Требуется вычислить вероятность неравенства |X| £ 1,6. По формуле (12.12) получаем

 

 

2) Ошибка Х распределена нормально с параметрами а = М(Х) = 0, s = 0,80. Вероятность неравенства |X| £ 1,6 получаем по формуле (12.12):

.

Ч А С Т Ь V

 

Математическая статистика

 

Глава 13. Выборочные аналоги закона распределения и числовых характеристик случайной величины

§13.1. Выборка. Эмпирическая функция распределения

Пусть в некотором опыте наблюдается случайная величина Х с функцией распределения F(x). И пусть однократное осуществление опыта позволяет нам найти одно из возможных ее значений. Предположим, что опыт в одних и тех же условиях можно повторять какое угодно число раз, и что сами опыты (испытания) являются независимыми.

Результаты рассматриваемых n опытов представляют собой последовательность

x1, x2, … , xn

 

действительных чисел, которая называется выборкой объема n. Такова практическая трактовка выборки. Каждое xi (i=1,2, … , n) называется вариантой(наблюденным значением, значением признака).

Полученные в результате n опытов наблюдаемые значения x1, x2, … , xn представляют собой выборку из всей совокупности значений, которые может принимать интересующая нас величина Х. Принято говорить, что мы имеем дело с набором значений, соответствующим некоторой выборке из генеральной совокупности. Рассматриваемая выборка должна обладать свойством репрезентативности (представительности), то есть быть такой, чтобы по ее данным можно было получить правильное представление об всей генеральной совокупности в целом. Будет рассматриваемая выборка репрезентативной или нет – это зависит от способа отбора.

В математической литературе слово «выборка» гораздо чаще используется в другом смысле. Конкретную выборку x1, x2, … , xn мы можем рассматривать как реализацию значений системы случайных величин (x1, x2, … , xn), распределенных одинаково, по тому же закону, что и Х.

Выборкой объема n из распределения случайной величины Х называется последовательность x1, x2, … , xn независимых и одинаково распределенных – по тому же закону, что и Х–случайных величин.

Часто в практических ситуациях возникает следующая задача: имеется выборка и отсутствует всякая информация о виде функции распределения F(x). Требуется построить оценку (приближение) для этой неизвестной функции F(x).

Наиболее предпочтительной оценкой функции F(x) является эмпирическая функция распределения Fn(x), которая определяется следующим образом

,

где nx – число вариант меньших х (х Î R), n – объем выборки.

Функция Fn(x) служит хорошим приближением для неизвестной функции распределения для больших n.

Пример 13.1. Проводился спектрографический анализ пяти образцов глинистого сланца пенсильванского возраста из юго-восточного Канзаса. Зафиксировано следующее содержание хрома, представленное в табл. 13.1.

Таблица 13.1

Номер образца Содержание, млн–1

 

Построим выборочную функцию распределения по данным табл. 13.1.

Объем выборки по условию равен 5, т.е. n = 5. Наименьшая варианта равна 195, следовательно,

F5(х) = 0 при х £ 195.

Значение X < 205, а именно х1 = 195 наблюдалось один раз; следовательно,

.

Значение X < 220, а именно х1 = 195 и х2 = 205 наблюдалось два раза; следовательно,

.

Значение X < 235, а именно х1 = 195, х2 = 205 и х3 = 220 наблюдалось три раза; следовательно,

.

Значение X < 255, а именно х1 = 195, х2 = 205, х3 = 220 и х4 = 235 наблюдалось четыре раза; следовательно,

.

Так как Х = 255 – наибольшая варианта, то

F5(х) = 1 при х > 255.

Окончательно имеем

График эмпирической функции распределения изображен на рис. 13.1.

F5(x)

1

4/5

3/5

2/5

1/5

0 195 205 220 235 255 x

Рис. 13.1.

§13.2. Построение интервального вариационного ряда распределения

При большом числе наблюдений (n ³ 20) выборка перестает быть удобной формой записи – она становится слишком громоздкой и мало наглядной. Поэтому первичные данные (выборка) нуждаются в обработке, которая всегда начинается с их группировки.

Рассмотрим группировку на конкретном примере.

В таблице 13.2. приведены данные наблюдений, представляющие собой результаты измерений диаметра деревьев сосны.

Таблица 13.2

Диаметра деревьев сосны, см

24,9 32,2 26,3 39,9 26,1 33,0 24,1 35,6 26,1 35,4
42,0 34,3 39,5 29,4 38,1 29,3 30,1 26,2 30,9 21,8
41,1 23,0 34,2 25,0 28,9 22,7 30,2 30,8 23,1 30,7
29,0 38,2 29,4 33,2 35,1 29,3 25,8 18,3 30,3 25,5
39,1 36,1 26,4 28,1 18,1 33,1 22,1 30,3 22,2 29,1
38,4 20,7 30,4 31,1 32,3 27,1 31,1 22,9 53,6 26,5
41,7 36,2 25,9 32,2 44,8 33,1 48,0 33,7 17,9 33,8
45,0 31,6 32,1 22,7 31,5 28,0 19,4 28,0 26,5 26,6
38,6 27,0 37,9 36,3 27,8 35,0 31,8 22,0 32,5 27,4

Построение интервального вариационного ряда распределения включает следующие этапы:

1. Определение среди имеющихся наблюдений (табл. 13.2) минимального хmin и максимального хmax значений признака. В данном примере это будут хmin = 17,9 и хmax = 53,6.

2. Определение размаха варьирования признака R = хmax - хmin = 35,7.

3. Определение длины интервала по формуле Стерджеса

, где n – объем выборки.

В данном примере .

4. Определение граничных значений интервалов (аi – bi). За нижнюю границу первого интервала рекомендуется брать величину, равную а1 = хmin – h/2.

Верхняя граница первого интервала b1 = a1 + h. Тогда, если bi - верхняя граница i-го интервала (причем аi+1 = bi), то b2 = a2 + h, b3 = a3 + h и т.д. Построение интервалов продолжается до тех пор, пока начало следующего по порядку интервала не будет равно или больше хmax.

 

В примере граничные значения составляют:

а1 = 17,9 – 0,5×4,5 = 15,7; b1 = 20,2;

a2 = 20,2; b2 = 24,7 и т.д.

Границы последовательных интервалов запишем в первой графе табл.14.3.

5. Сгруппируем результаты наблюдений.

Просматриваем статистические данные в том порядке, в каком они записаны в табл. 13.2, и значения признака разносим по соответствующим интервалам, обозначая их черточками |, ||,

,

По одной для каждого наблюдения). Так как граничные значения признака могут совпадать с границами интервалов, то условимся в каждый интервал включать варианты, большие, чем нижняя граница интервала (хi > ai), и меньшие или равные верхней границе (хi £ bi). Общее количество штрихов, отмеченных в интервале (табл. 13.3, гр. 3), даст его частоту (табл. 13.3., гр. 4). В результате получим интервальный статистический ряд распределения частот (табл. 13.3., гр.2 и 4). Таблица 13.3 Интервальный ряд распределения диаметра деревьев сосны № Интервалы ai - bi Подсчет частот Частота ni Накопленная частота nнi 15,7 –20,2

| 20,2 – 24,7

|| 24,7 – 29,2

|| 29,2 – 33,7

33,7 – 38,2

Число интервалов обычно берут равным от 7 до 15 в зависимости от числа наблюдений и точности измерений с таким расчетом, чтобы интервалы были достаточно наполнены частотами. Однако приближенно число интервалов можно оценить исходя только из объема выборки с помощью таблицы 13.4.   Таблица 13.4 Выбор числа интервалов группировки   Объем выборки, n Число интервалов Объем выборки, n Число интервалов 30 – 50 4 – 6 400 – 1000 9 – 11 50 – 100 6 – 8 1000 – 2000 11 – 12 100 – 400 8 – 9       §13.3. Выборочные начальные и центральные моменты. Асимметрия. Эксцесс Приведем краткий обзор характеристик, которые применяются для анализа вариационного ряда и являются аналогами соответствующих числовых характеристик случайной величины. Начальным выборочным моментом k-го порядка называется величина, определяемая по формуле: , где хi – наблюдаемое значение с частотой ni, n = – число наблюдений. В частности, начальный выборочный момент первого порядка обозначается и называется выборочной средней: . Медианой называется значение признака, приходящееся на середину ранжированного ряда наблюдений. Модой называется вариант, которому соответствует наибольшая частота. Вариационный размах R равен разности между наибольшим и наименьшим вариантом ряда. Центральным выборочным моментом k-го порядка называется величина, определяемая по формуле: . В частности, центральной выборочный момент второго порядка обозначается S2 и называется выборочной дисперсией: . Средним квадратическим отклонением S называется арифметическое значение корня квадратного из дисперсии: . Коэффициентом вариации называется отношение среднего квадратического отклонения к средней, выраженное в процентах: . Справедливы следующие формулы, выражающие центральные через выборочные моменты различных порядков начальные: Выборочным коэффициентом асимметрии называется число , определяемое формулой . Выборочный коэффициент асимметрии служит для характеристики асимметрии полигона (см. далее) вариационного ряда. Если полигон асимметричен, то одна из ветвей его, начиная с вершины, имеет более пологий «спуск», чем другая. В случае отрицательного коэффициента асимметрии более пологий «спуск» полигона наблюдается слева, в противном случае – справа. В первом случае асимметрию называют левосторонней, а во втором – правосторонней. Выборочным эксцессом или коэффициентом крутизны называется число , определяемое формулой . Выборочный эксцесс служит для сравнения на «крутость» выборочного распределения с нормальным распределением. Ранее подчеркивалось, что эксцесс для случайной величины, распределенной нормально, равен нулю. Поэтому за стандартное значение выборочного эксцесса принимают = 0. Если выборочному распределению соответствует отрицательный эксцесс, то соответствующий полигон имеет более пологую вершину по сравнению с нормальной кривой. В случае положительного эксцесса полигон более крутой по сравнению с нормальной кривой. §13.4. Упрощенный способ вычисления выборочных характеристик распределения Для вычисления выборочных характеристик (выборочной средней, дисперсии, асимметрии и эксцесса) целесообразно пользоваться вспомогательной таблицей 13.5, которая составляется так: 1) используя данные таблицы 13.3, найдем середину каждого интервала и заполним столбец 1 табл. 13.5; 2) во второй столбец записывают частоты ni, складывают все частоты и их сумму (объем выборки n) помещают в нижнюю клетку столбца; 3) в третий столбец записывают условные варианты , причем в качестве ложного нуля С выбирают варианту, которая имеет наибольшую частоту или занимает среднее положение в ряду данных, и полагают h равным разности между любыми двумя соседними вариантами (длина интервала bi – – ai); по данным примера С = 31,4, h = 4,5; практически же третий столбец заполняется так: в клетке третьего столбца, которая принадлежит строке, содержащей наибольшую частоту, пишем 0; над нулем последовательно –1, –2, –3, а под нулем 1, 2, 3, 4, 5. Дальнейший порядок заполнения таблицы простой и не требует пояснений. Последний столбец таблицы – контрольный. Контроль выполняется по правилу: . В нашем примере имеем: 1707 + 4×101 + 6×207 + 4×(–13) + 90 = 3391. Следовательно, вычисления произведены правильно. В итоге получаем расчетную таблицу 13.5. Таблица 13.5 Вспомогательная таблица для вычисления выборочных характеристик xi ni ui ni×ui ni×ui2 ni×ui3 ni×ui4 ni×(ui +1)4 17,9 –3 –12 –108 22,4 –2 –22 –88 26,9 –1 –23 –23 31,4 35,9 40,4 44,9 49,4 53,9 S   –13 Выборочный условный момент k–го порядка определяется по формуле   По данным примера . Вычислим искомые выборочные среднюю и дисперсию: Выборочное среднее квадратическое отклонение . Найдем центральные эмпирические моменты третьего и четвертого порядка: Найдем значение коэффициента асимметрии и эксцесса: Медиана – значение признака, приходящееся на середину ранжированного ряда наблюдений. Для интервального ряда медиану следует вычислять по формуле , где Ме означает номер медианного интервала, (Ме–1) – интервала, предшествующего медианному. В нашем примере . Мода для совокупности наблюдений равна тому значению признака (табл. 13.2), которому соответствует наибольшая частота. Для одномодального интервального ряда моду можно вычислить по формуле , где Мо означает номер модального интервала (интервал с наибольшей частотой), (Мо–1) и (Мо+1) – номера предшествующего модальному и следующего за ним интервалов. В примере . Так как по величине , и мало отличаются друг от друга, есть основания предполагать теоретическое распределение нормальным. Коэффициент вариации . Коэффициент вариации является относительной мерой рассеяния признака. Коэффициент вариации используется и как показатель однородности выборочных наблюдений. Считается, что если коэффициент вариации не превышает 10%, то выборку можно считать однородной, т.е. полученной из одной генеральной совокупности. Однако к коэффициенту вариации нужно подходить с осторожностью. Продемонстрируем возможность ошибки на следующем примере. Если на основании многолетних наблюдений среднее арифметическое среднесуточных температур 8 марта составляет в какой–либо местности 0°С, то получим бесконечный коэффициент вариации независимо от разброса температур. Поэтому в данном случае коэффициент вариации не применим в качестве показателя рассеяния температур, а специфику явления более объективно оценивает стандартное отклонение S. Практически коэффициент вариации применяется в основном для сравнения выборок из однотипных генеральных совокупностей.   §13.5. Графическое изображение вариационных рядов   Для визуального подбора теоретического распределения, а также выявления положения среднего значения ( ) и характера рассеивания (S2 и S) вариационные ряды изображаются графически. Для изображения как дискретных, так и интервальных рядов применяются полигоны и кумулята, для изображения только интервальных рядов – гистограмма. Для построения этих графиков запишем вариационные ряды распределения (интервальный и дискретный) относительных частот (частостей) Wi = ni / n, накопленных относительных частот WHi и найдем отношение Wi / h, заполнив табл. 13.6.     Таблица 13.6 Статистический ряд распределения диаметра деревьев сосны Интервалы ai – bi xi Wi WHi Wi / h 15,7 – 20,2 17,9 0,05 0,05 0,01 20,2 – 24,7 22,4 0,12 0,17 0,03 24,7 – 29,2 26,9 0,26 0,42 0,06 29,2 – 33,7 31,4 0,3 0,2 0,07 33,7 – 38,2 35,9 0,14 0,87 0,03 38,2 – 42,7 40,4 0,09 0,96 0,02 42,7 – 47,2 44,9 0,02 0,98 0,004 47,2 – 51,7 49,4 0,01 0,99 0,002 51,7 – 56,2 53,9 0,01 0,002 Для построения гистограммы относительных частот (частостей) по оси абсцисс откладываем частичные интервалы, на каждом из которых строим прямоугольник, площадь которого равна относительной частоте Wi данного i–го интервала. Тогда высота элементарного прямоугольника должна быть равна Wi / h; в нашем примере h = 4,5 (рис. 13.2).   Wi/h 0,08 0,07 0,06 0,05 0,04 0,04 0,03 0,03 0,02 0,02 0,004 0,01 0,01 0,002   15,7 24,7 33,7 42,7 51,7 х Рис. 13.2 Следовательно, площадь под гистограммой равна сумме всех относительных частот, т.е. единице. Из гистограммы можно получить полигон того же распределения, если сере- дины верхних оснований прямоугольников соединить отрезками прямой (рис. 13.3)   Wi/h 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 15,7 24,7 33,7 42,7 51,7 х Рис. 13.3 Гистограмма и полигон являются аппроксимациями кривой плотности (дифференциальной функции) теоретического распределения (генеральной совокупности). Поэтому по их виду можно судить о гипотетическом законе распределения. Для построения кумуляты дискретного ряда по оси абсцисс откладывают значения признака, а по оси ординат – накопленные (относительные) частоты WHi. Полученные точки соединяют отрезками прямых. Для интервального ряда по оси абсцисс откладывают верхние границы группировки (рис. 13.4). С кумулятой сопоставляется график интегральной функции распределения F(x). В нашем примере коэффициенты асимметрии и эксцесса не намного отличаются от нуля. Коэффициент асимметрии оказался положительным ( ), что свидетельствует о правосторонней асимметрии данного распределения. Эксцесс также оказался положительным ( ). Это говорит о том, что кривая, изображающая ряд распределения, по сравнению с нормальной имеет более крутую вершину. Гистограмма и полигон напоминают кривую нормального распределения (рис. 13.2 и рис. 13.3). Все это дает возможность выдвинуть гипотезу о том, что распределение диаметра деревьев сосны является нормальным. WHi             0,95   0,85   0,75   0,65   0,55   0,45   0,35   0,25   0,15   0,05   0 15,7 20,2 24,7 29,2 33,7 38,2 42,7 47,2 51,7 56,2 х Рис. 13.4 Глава 14. Статистические оценки §14.1. Точечные оценки Основная задача математической статистики состоит в нахождении распределения наблюдаемой случайной величины X по данным выборки. Во многих случаях вид распределения X можно считать известным, и задача сводится к получению приближенных значений неизвестных параметров этого распределения. Пусть F(x,q) – функция распределения случайной величины X, содержащая один неизвестный параметр q («тэта»), а х1, х2, …, хn – выборка наблюдений этой случайной величины. Точечной оценкой q* неизвестного параметра q называется приближенное значение этого параметра, полученное по выборке. Очевидно, что оценка q* есть значение некоторой функции элементов выборки, то есть q*=q*(x1,x2,…,xn). Любую функцию элементов выборки называют статистикой. Чтобы выяснить, какие свойства должна иметь статистика q*(x1,x2,…,xn) для того, чтобы ее значения могли бы считаться хорошей в некотором смысле оценкой параметра q, ее рассматривают как функцию случайного вектора (X1,X2,…,Xn), одной из реализаций которого является данная выборка x1,x2,…,xn. Качество оценок характеризуется следующими основными свойствами. 1.Состоятельность.Оценка q*=q =q*(x1,x2,…,xn) называется состоятельной оценкойпараметра q, если для любого e > 0 (14.1) Поясним смысл равенства (14.1). Пусть e - очень малое положительное число. Тогда равенство (14.1) означает, что чем больше число наблюдений n, тем больше уверенность (вероятность) в незначительном по абсолютной величине отклонении оценки q от неизвестного параметра q. Состоятельность оценки q во многих случаях может быть установлена с помощью следующей теоремы. 1Если M(q )®q и D(q )®0 при n®¥, то q - состоятельная оценка параметра q. 2.Несмещенность. Оценка q называетсянесмещенной оценкойпараметра q, если для любого фиксированного числа наблюдений n выполняется равенство M(q )=q, (14.2) то есть математическое ожидание оценки равно оцениваемому параметру. Поясним смысл равенства (14.2) в терминах выборки. Для этого зафиксируем объем выборки n; произведем все возможные выборки с возвратом этого объема из генеральной совокупности. Для каждой из них найдем значение оценки q , а затем среднее этих значений ­­­­­­– это М(q ). Равенство (14.2) означает: если оценка несмещенная, то при любом фиксированном n среднее из значений оценки, вычисленное для всевозможных выборок объема n, то есть M(q ), совпадает с точным значением значением генеральной характеристики q. 3.Эффективность.Несмещенная оценка q параметра q называется несмещенной эффективной, если она среди всех прочих несмещенных оценок того же самого параметра обладает наименьшей дисперсией. Установим смысл этого свойства. Допустим, что по выборке объема n найдена оценка q (1). Повторим опыт, т.е. из генеральной совокупности извлечем выборку объема n и по ее данным найдем оценку q (2). Повторяя опыт многократно, получим числа q (1),q (2),…,q (k), которые, вообще говоря, различны. Оценку q можно рассматривать как случайную величину, а q (i) – ее возможные значения. Возможные значения q могут быть сильно рассеяны вокруг своего среднего значения, т.е. D(q ) может быть значительной. В этом случае найденная по данным одной выборки оценка q (i) может оказаться весьма уделенной от среднего значения, а значит и самого оцениваемого параметра. Приняв данную оценку q (i) в качестве приближенного значения q, можно допустить большую ошибку. Если же потребовать, чтобы D(q ) была малой, то возможность большой ошибки будет исключена. Как же выяснить, является несмещенная оценка эффективной или нет, то есть имеет ли она по сравнению с другими несмещенными оценками наименьшую дисперсию или нет? В некоторых случаях этот минимум х01орошо известен. Тогда, сравнив с ним дисперсию рассматриваемой оценки, можно ответить на поставленный вопрос. Так для случайной величины X, имеющей нормальный закон распределения с дисперсией , нижняя граница для дисперсий различных несмещенных оценок математического ожидания равна ; нижняя же граница для дисперсий различных несмещенных оценок дисперсии равна .