Математическая статистика

На практике основные характеристики случайных величин нужно находить из экспериментальных данных. Для изучения дискретной случайной величины Х проводится n независимых наблюдений в одинаковых условиях, в результате которых значения х1 появилось n1 раз, х2 появилось n2 раз, ... , хk появилось nк раз (n1+n2+...+nk=n).

Числа хi называются вариантами, ni — частотами, — относительными частотами.

Набор значений хi называется выборкой, а n - ее объемом. Результаты наблюдений сводят в таблицу, называемую выборочным рядом распределения или статистическим распределением.

Варианты х1 х2 ... хк
Частоты n1 n2 ... nк
Относительные частоты w1 w2 ... wк

Для непрерывной случайной величины Х диапазон ее изменений делят на К интервалов (обычно 5< К £20) и подсчитывают количество наблюдений, попавших в каждый интервал. Таблица, в которой приведены интервалы, частоты и относительные частоты, называется интервальным рядом.Чтобы получить представление о плотности вероятностей непрерывной случайной величины f(x) или наглядно представить статистическую информацию строят гистограмму. Гистограмма относительных частот - это ступенчатая фигура, состоящая из прямоугольников. Для ее построения на оси абсцисс отмечаются границы интервалов и на каждом из них как на основании строится прямоугольник высотой где di - длина i -ого интервала.

Площадь гистограммы равна При больших n и малых di гистограмма относительных частот мало отличается от графика плотности вероятности случайной величины.

 

Пример 18.Произведено n наблюдений над непрерывной случайной величиной. Диапазон ее изменений разбит на 6 интервалов и число наблюдений, попавших в каждый интервал указано в таблице.

 

Интервал 0-2 2-4 4-6 6-8 8-10 10-12
ni

Построить гистограмму относительных частот.

 

Решение.

Определим объем выборки Длина интервалов d=2.

Вычислим относительные частоты wi и высоты прямоугольников hi:

w1=n1/n= 0,080; h1=w1/d=0,040; w2=0,184; h2=0,092;

w3=0,320; h3=0,160; w4=0,232; h4=0,116;

w5=0,112; h5=0,056; w6=0,072; h6=0,036.

 

Строим гистограмму относительных частот

По данным выборки можно определить такие величины, как выборочное среднее

(29)

и выборочную дисперсию

(30)

- является средним арифметическим наблюдаемых значений xi и дает статистическую оценку математического ожидания М(х).

Выборочная дисперсия Dв характеризует рассеяние случайной величины относительно , однако она дает заниженную оценку дисперсии изучаемой случайной величины. Поэтому вводят так называемую "исправленную" выборочную дисперсию

(31)

При n>30, можно принять, что s2»Dв, так как расхождение между этими величинами невелико.

Расчеты можно упростить, если использовать метод произведений. Он применим в случае равноотстоящих вариант (х2132=...=хn- хn-1=D) и основан на замене первоначальных вариант xi на условные целочисленные варианты ui, определяемые по формуле , где с — "ложный нуль", в качестве которого выбирают варианту расположенную примерно в середине вариационного ряда и имеющую большую частоту. При таком выборе и т.д. Затем вычисляют условные моменты и , которые связаны с следующим образом:

При n>30 величину обычно заменяют на единицу.

 

Пример 19. Для приведенного ниже статистического распределения найти выборочное среднее значение и выборочную дисперсию.

 

xi
ni

Решение.

Результаты вычислений удобно заносить в таблицу. В первый и второй столбцы запишем значения хi и ni , соответственно. За ложный нуль С примем значение хi=20 с наибольшей частотой. Условные варианты ui=( хi-20)/5 запишем в третьем столбце. В четвертый и пятый столбцы помещаем произведения niui и niui2

xi ni ui niui niui2 ni(ui+1)2
-2 -12
-1 -16
  n=100   å=4 å=80 å=188

 

Шестой столбец служит для контроля правильности вычислений.

100+8+80=188, что подтверждает правильность вычислений.

 

Так как выборка состоит из случайных значений, величины и также являются случайным величинами. При больших n они будут близки к M(x) и D(x), соответственно. Однако при малых n возникает вопрос о точности этих оценок.

Пусть или число e>0 характеризует точность оценки, чем оно меньше, тем оценка точнее. Границы интервала - случайные величины, а М(х) - неслучайная величина. Поэтому неверно говорить, что математическое ожидание попадает в данный интервал. Следует говорить, что интервал содержит М(х) или покрывает его.

Надежностью (доверительной вероятностью)называется вероятность того, что указанный интервал содержит математическое ожидание, т.е.

Интервал покрывающий неизвестное математическое ожидание М(х) с заданной надежностью g, называется доверительным интервалом.

Для нормально распределенной случайной величины с заданным средним квадратическим отклонением s точность оценки e определяется по формуле

(32)

где t определяется по таблице значений функций Лапласа из условия

(33)

При больших значениях n (n>30) формулы (32) и (33) также применимы и в случаях, когда неизвестно среднее квадратическое отклонение нормально распределенной случайной величины. При этом вместо s используют значение s , вычисленное по формуле (31).

 

Пример 20.Найти доверительный интервал для оценки математического ожидания нормально распределенной случайной величины с надежностью g=0,95, если n =64, s =2.

Решение.

Так как n>30, то воспользуемся формулами (32) и (33), подставив вместо s значение s . Ф(t)=0,475. По таблице значений функции Лапласа Ф(t) находим t=1,96. Тогда

доверительный интервал

(8,37-0,49; 8,37+0,49)Þ(7,88; 8,86).