Математическая статистика
На практике основные характеристики случайных величин нужно находить из экспериментальных данных. Для изучения дискретной случайной величины Х проводится n независимых наблюдений в одинаковых условиях, в результате которых значения х1 появилось n1 раз, х2 появилось n2 раз, ... , хk появилось nк раз (n1+n2+...+nk=n).
Числа хi называются вариантами, ni — частотами, — относительными частотами.
Набор значений хi называется выборкой, а n - ее объемом. Результаты наблюдений сводят в таблицу, называемую выборочным рядом распределения или статистическим распределением.
Варианты | х1 | х2 | ... | хк |
Частоты | n1 | n2 | ... | nк |
Относительные частоты | w1 | w2 | ... | wк |
Для непрерывной случайной величины Х диапазон ее изменений делят на К интервалов (обычно 5< К £20) и подсчитывают количество наблюдений, попавших в каждый интервал. Таблица, в которой приведены интервалы, частоты и относительные частоты, называется интервальным рядом.Чтобы получить представление о плотности вероятностей непрерывной случайной величины f(x) или наглядно представить статистическую информацию строят гистограмму. Гистограмма относительных частот - это ступенчатая фигура, состоящая из прямоугольников. Для ее построения на оси абсцисс отмечаются границы интервалов и на каждом из них как на основании строится прямоугольник высотой где di - длина i -ого интервала.
Площадь гистограммы равна При больших n и малых di гистограмма относительных частот мало отличается от графика плотности вероятности случайной величины.
Пример 18.Произведено n наблюдений над непрерывной случайной величиной. Диапазон ее изменений разбит на 6 интервалов и число наблюдений, попавших в каждый интервал указано в таблице.
Интервал | 0-2 | 2-4 | 4-6 | 6-8 | 8-10 | 10-12 |
ni |
Построить гистограмму относительных частот.
Решение.
Определим объем выборки Длина интервалов d=2.
Вычислим относительные частоты wi и высоты прямоугольников hi:
w1=n1/n= 0,080; h1=w1/d=0,040; w2=0,184; h2=0,092;
w3=0,320; h3=0,160; w4=0,232; h4=0,116;
w5=0,112; h5=0,056; w6=0,072; h6=0,036.
Строим гистограмму относительных частот
По данным выборки можно определить такие величины, как выборочное среднее
(29)
и выборочную дисперсию
(30)
- является средним арифметическим наблюдаемых значений xi и дает статистическую оценку математического ожидания М(х).
Выборочная дисперсия Dв характеризует рассеяние случайной величины относительно , однако она дает заниженную оценку дисперсии изучаемой случайной величины. Поэтому вводят так называемую "исправленную" выборочную дисперсию
(31)
При n>30, можно принять, что s2»Dв, так как расхождение между этими величинами невелико.
Расчеты можно упростить, если использовать метод произведений. Он применим в случае равноотстоящих вариант (х2-х1=х3-х2=...=хn- хn-1=D) и основан на замене первоначальных вариант xi на условные целочисленные варианты ui, определяемые по формуле , где с — "ложный нуль", в качестве которого выбирают варианту расположенную примерно в середине вариационного ряда и имеющую большую частоту. При таком выборе и т.д. Затем вычисляют условные моменты и , которые связаны с следующим образом:
При n>30 величину обычно заменяют на единицу.
Пример 19. Для приведенного ниже статистического распределения найти выборочное среднее значение и выборочную дисперсию.
xi | |||||
ni |
Решение.
Результаты вычислений удобно заносить в таблицу. В первый и второй столбцы запишем значения хi и ni , соответственно. За ложный нуль С примем значение хi=20 с наибольшей частотой. Условные варианты ui=( хi-20)/5 запишем в третьем столбце. В четвертый и пятый столбцы помещаем произведения niui и niui2
xi | ni | ui | niui | niui2 | ni(ui+1)2 |
-2 | -12 | ||||
-1 | -16 | ||||
n=100 | å=4 | å=80 | å=188 |
Шестой столбец служит для контроля правильности вычислений.
100+8+80=188, что подтверждает правильность вычислений.
Так как выборка состоит из случайных значений, величины и также являются случайным величинами. При больших n они будут близки к M(x) и D(x), соответственно. Однако при малых n возникает вопрос о точности этих оценок.
Пусть или число e>0 характеризует точность оценки, чем оно меньше, тем оценка точнее. Границы интервала - случайные величины, а М(х) - неслучайная величина. Поэтому неверно говорить, что математическое ожидание попадает в данный интервал. Следует говорить, что интервал содержит М(х) или покрывает его.
Надежностью (доверительной вероятностью)называется вероятность того, что указанный интервал содержит математическое ожидание, т.е.
Интервал покрывающий неизвестное математическое ожидание М(х) с заданной надежностью g, называется доверительным интервалом.
Для нормально распределенной случайной величины с заданным средним квадратическим отклонением s точность оценки e определяется по формуле
(32)
где t определяется по таблице значений функций Лапласа из условия
(33)
При больших значениях n (n>30) формулы (32) и (33) также применимы и в случаях, когда неизвестно среднее квадратическое отклонение нормально распределенной случайной величины. При этом вместо s используют значение s , вычисленное по формуле (31).
Пример 20.Найти доверительный интервал для оценки математического ожидания нормально распределенной случайной величины с надежностью g=0,95, если n =64, s =2.
Решение.
Так как n>30, то воспользуемся формулами (32) и (33), подставив вместо s значение s . Ф(t)=0,475. По таблице значений функции Лапласа Ф(t) находим t=1,96. Тогда
доверительный интервал
(8,37-0,49; 8,37+0,49)Þ(7,88; 8,86).