Генеральная и выборочная совокупность

Математическая статистика

Первичная обработка данных

Главная цель расчёта – не цифры,

а понимание.

Генеральная и выборочная совокупность

ÆГенеральной совокупностью называется множество объектов произвольной природы, обладающих признаками, доступными для наблюдения и количественного измерения.

ÆОбъекты, входящие в генеральную совокупность, называются её элементами, а их общее число – её объёмом.

Предположим, из генеральной совокупности случайным образом извлекаем элементы, значения некоторого признака для них записываем как . Эти значения называются наблюдениями, их набор – выборкой. Количество наблюдений каждого из признаков обозначим и назовём частотами. Число наблюдений называем объёмом выборки: .

ÆОсновная задача математической статистики – сделать научно обоснованные выводы о распределении одной или более неизвестных случайных величин или их взаимосвязи между собой.

ÆВыборочным методом называется метод решения этой задачи посредством анализа выборки, полученной в результате многократных наблюдений.

Для того чтобы характеристики случайной величины, полученные выборочным методом, были объективны, необходимо, чтобы выборка была репрезентативной, т. е. достаточно хорошо представляла исследуемую величину. В силу закона больших чисел можно утверждать, что выборка будет репрезентативной, если её осуществлять случайно, т. е. все объекты генеральной совокупности имеют одинаковую вероятность попасть в выборку [1] .

ÆВыборка называется повторной, если отобранный объект перед выбором следующего возвращается в генеральную совокупность. Выборка называется бесповторной, если отобранный объект в генеральную совокупность не возвращается. На практике обычно имеют дело с бесповторными выборками.

ÆВсякая случайная величина имеет определённую функцию распределения и другие числовые характеристики, которые называются теоретическими, в отличие от выборочных, которые определяются по наблюдениям.

ÆРяд наблюдений, упорядоченных по возрастанию, называется вариационным рядом. Его члены обозначаются и называются вариантами.

Наименьшее и наибольшее значения вариант обозначаются и , их называются крайними членами вариационного ряда. Число называется размахом выборки.

В случае наблюдений дискретной случайной величины одно и то же значение можно встретить несколько раз. Такие значения случайной величины записывают с указанием - числа раз его появления в наблюдениях, это и есть частота данного значения.

Вариационный ряд в общем виде можно записать как

В случае непрерывной случайной величины на практике часто применяют группировку.

Отрезок наблюдаемых значений называют интервалом наблюдений.

Интервал наблюдений разбивают на частичных интервалов одинаковой длины .

ÆРекомендуемое число интервалов вычисляют по формуле Стерджеса [3] .

Длину частичных интервалов вычисляют как .

Затем подсчитывают числа попаданий наблюдений в эти интервалы, которые принимают за частоты . Малочисленные частоты, значения которых меньше 5 ( ), следует объединить, в этом случае надо объединить и соответствующие интервалы.

В качестве новых значений вариант берут середины интервалов .

Þ Примечание. Группировка связана с потерей части полезной информации, заключённой в выборке. Однако она имеет и свои преимущества. Оценим величину экономии, например, выполнено 1000 наблюдений некоторого признака. Рекомендуемое число интервалов: . Отсюда видно, что требуется обработать числа вместо 1000.

Группировку можно применять и в случае дискретной случайной величины, если шаг, с которым меняются её значения, слишком мал.

ÆЧисло называется относительной частотой.

ÆНабор вариант (или частичных интервалов) и их относительных частот называется статистическим рядом.

Статистический ряд для дискретной случайной величины:

Варианта
Частота
Относительная частота

Статистический ряд для непрерывной случайной величины:

Интервалы
Середина интервала
Частота
Относительная частота

 

Графически статистические ряды можно представить в виде полигона, гистограммы или графика накопленных частот.

ÆПолигон частот – это ломаная линия, отрезки которой соединяют точки , , …, .

ÆПолигон относительных частот – это ломаная линия, отрезки которой соединяют точки , , …, .

Þ Примечание. Полигоны обычно служат для изображения выборки в случае дискретных случайных величин.

ÆНакопленные частоты будем обозначать , где . Очевидно, что эти величины получены суммированием частот, т. е. , что эти величины не убывают.

ÆНакопленные относительные частоты обозначим , где . Очевидно, что эти величины также не убывают.

 

?Упражнение 1. Постройте полигоны частот и относительных частот, найдите накопленные относительные частоты, запишите эмпирическую функцию распределения по данному вариационному ряду:

Решение

Найдём объём выборки и дополним таблицу относительными и накопленными относительными частотами.

Варианты Частота Относительная частота Накопленная относительная частота
0,2 0,2
0,3 0,5
0,1 0,6
0,4
Объём выборки:    

 

 

 

 

Запишем эмпирическую функцию распределения, используя накопленные относительные частоты:

 

ÆГистограммой частот называется ступенчатая фигура, состоящая из прямоугольников, основанием которых служат частичные интервалы длиною , а высоты равны .

Величина называется плотностью частоты.

ÆГистограммой относительных частот называется ступенчатая фигура, состоящая из прямоугольников, основанием которых служат частичные интервалы длиною , а высоты равны .

Величина называется плотностью относительной частоты.

Þ Примечание. Гистограмма обычно служит для изображения выборки в случае непрерывных случайных величин. Очевидно, площадь гистограммы относительных частот равна единице. Поэтому гистограмму относительных частот можно рассматривать как график эмпирической (выборочной) плотности распределения, в этом и заключается практическая польза гистограммы относительных частот.

ÆГрафиком накопленных частотназывается ступенчатая фигура, состоящая из прямоугольников, основанием которых служат частичные интервалы длиною , а высоты равны накопленным относительным частотам. Заметим, что график накопленных относительных частот имеет вид ступенчатой «лестницы» (от 0 до 1).

Þ Примечание. График накопленных относительных частот и эмпирическая функция распределения на практике используются для приближения теоретической функции распределения [3].

?Упражнение 2. Постройте гистограммы частот и относительных частот, график накопленных относительных частот, запишите эмпирическую функцию распределения по данному распределению выборки:

Частичный интервал [2,7) [7,12) [12,17) [17,22) [22,27)
Число наблюдений, попавших в интервал,

Решение

Найдём объём выборки (50), длину интервала (5), построим таблицу, где вычислены относительные и накопленные относительные частоты, плотности частот и относительных частот, которые потребуются при построении соответствующих гистограмм.

 

Частичный интервал Частота Относительная частота Накопленная относительная частота Плотность частоты Плотность относительной частоты
[2; 7) 0,1 0,1 0,02
[7; 12) 0,2 0,3 0,04
[12; 17) 0,5 0,8 0,1
[17; 22) 0,12 0,92 1,2 0,024
[22; 27) 0,08 0,8 0,016
Объём выборки: 50 Площадь гистограммы частот: 50  
Длина интервала:        

 

 

 

 

 

 

Используя накопленные относительные частоты, запишем эмпирическую функцию распределения: