Графический способ изображения статистических данных.

Статистическая таблица (подлежащее статистической таблицы, сказуемое статистической таблицы, групповая таблица, комбинационная таблица, простая таблица, сложная таблица)

Определение величины интервала. Формула Стерджесса.

Статистическое распределение выборки.

Тема 2. Статистические ряды распределения

Разработка программного обеспечения

Широкое распространение получил аутсорсинг разработки программного кода. Традиционным лидером в области ИТ-производства является Китай, а ведущими разработчиками программного кода — Индия, страны Восточной Европы, Беларусь и Россия. В течение 2007-08 годов, сразу несколько ведущих ИТ-корпораций открыли в России собственные центры разработки.

Россия и Беларусь, вместе с рядом других развивающихся стран (в первую очередь Индией), входят во второй эшелон популярных направлений для аутсорсинга разработки программного обеспечения сразу после Индии и Китая. В России и Беларуси в число лидеров в области разработки программного обеспечения входят компании EPAM Systems, IBA Group, Luxoft, Accenture, Exigen Services, Reksoft, Auriga, DataArt, MERA Networks, ЛАНИТ[2][3][4]. Среди зарубежных компаний можно отметить, например,TopCoder.

1. Понятие статистического ряда распределения, вариационного ряда распределения (дискретного/интервального).

1. Результаты сводки и группировки материалов статистического на­блюдения оформляются в виде статистических рядов распределения.

Статистический ряд распределения представляет собой упорядо­ченное расположение единиц изучаемой совокупности по какому-либо признаку.

Ряды распределения, образованные по атрибутивному признаку, называют атрибутивными.

Вариационные ряды распределения - ряды распределения, образо­ванные по количественному признаку. Вариационный ряд предполагает расположение единиц совокупности в порядке возрастания (или убывания) значений признака.

Отдельное значение варьируемого признака, которое он принимает в вариационном ряду, называется вариантой. Численности отдельных вариант или групп вариационного ряда, показывающие, как часто встреча­ются те или иные варианты в ряду распределения, называют частотами.

Пусть требуется изучить генеральную совокупность относительно не­которого количественного признака (показателя) X. Извлечем из гене­ральной совокупности выборку. При этом оказалось, что значение случайной величиныX, равное x1, наблюдалось п1 раз, значение х2 - п2 раз, ..., хk - nk раз. Объем выборки -

Наблюдаемые значения xi есть варианты, а последовательность вариант, записанных в возрастающем порядке, есть вариационный ряд. Числанаблюдений ni, есть частоты, а их отношение к объему выборки - относительные частоты.

Вариационные ряды распределения подразделяются на дискретные и интервальные.

Дискретными называются вариационные ряды, в которых значения признаков, положенных в основу их образования, являются дискретными; и часто выражены целыми числами. Примерами дискретных вариационных рядов являются распределение рабочих по тарифному разряду; рас­пределение отделов по числу работников и т.п.

 

Дискретные ряды распределения строятся по дискретным признакам, которые варьируются в ограниченных пределах.

Дискретный ряд распределения обычно оформляется в виде статисти­ческого распределения выборки.

2. Статистическим распределением выборкиназывают перечень ва­риант и соответствующих им частот (или относительных частот).

Статистическое распределение выборки можно задать в виде таблицы, в первой графе которой располагаются варианты , а во второй - соот­ветствующие этим вариантам частоты ni, или относительные частоты Pi .

 

Статистическое распределение выборки

 

Варианты хi x1 x2 x3 xi xk
Число наблюдений (частота) ni n1 n2 n3 ni nk
Относительная частота Pi P1 P2 P3 Pi Pk

 

Интервальными называются вариационные ряды, в которых значе­ния признаков, положенных в основу их образования, выражены в определенных пределах (интервалах). Частоты в этом случае относятся, не к отдельным значениям признака, а ко всему интервалу.

Интервальные ряды распределения строятся по непрерывным количе­ственным признакам, а также по дискретным признакам, варьирующим в значительных пределах.

Интервальный ряд можно представить статистическим распределени­ем выборки с указанием интервалов и соответствующих им частот. При этом в качестве частоты интервала принимают сумму частот вариант, по­павших в этот интервал.

При группировке по количественным непрерывным признакам важ­ное значение имеет определение размера интервала.

3. Величина интервала- разность между наибольшим и наименьшим значениями признака в каждой группе, называемыми границами интерва­ла.

Интервалы групп могут быть равными и неравными. Интервалы уста­навливаются в зависимости от характера распределения единиц совокупности по данному признаку. Если вариация (изменение) признака прояв­ляется в сравнительно узких границах и распределение носит более или менее равномерный характер, то целесообразно устанавливать равные ин­тервалы. В этом случае величину интервала определяют по формуле:

 

 

где хтах , хт1п - соответственно максимальное и минимальное значения признака в ряду;

к -число интервалов (групп).

Часто строят ряды с равновеликими интервалами. При построении вариационного ряда с равными интервалами определяют число групп (к) и величину интервала (h).

Оптимальное число групп (интервалов) может быть определено по формуле Стерджесса:

K=1+3.322 lg n,

где n - число единиц совокупности.

Сами интервалы могут быть закрытыми(с указанием нижней и верхней границ) и открытыми(с указанием лишь одной из границ интервала).

При количественных группировках следует обращать внимание на правильное обозначение нижней и верхней границ интервала. При образовании интервалов по дискретным признакам это достигается посредством обозначения верхней и нижней границ смежных интервалов значениями признаков, отличных на единицу.

При построении интервальных вариационных рядов по непрерывным признакам необходимо указать, в какой интервал входит значение признака, являющегося границей смежных интервалов. То есть для устранения неопределенности необходимо решить вопрос о том, считать ли верхние границы каждой группы «включительно» или «исключительно».

После того как в результате сводки, материал статистического наблюдения сгруппирован, он, как правило, представляется в виде таблиц.

4. Статистическая таблица- форма наиболее рационального, нагляд­ного и систематического изложения числовых результатов сводки и группировки статистических, материалов в виде ряда строк и столбцов. Основными элементами статистической таблицы являются подлежащее и сказуемое.

Подлежащее статистической таблицы - объекты изучения или пере­чень групп совокупности, характеризуемые цифровыми данными.

Сказуемое статистической таблицы - это цифровые показатели, Ко­торые характеризуют изучаемый объект. Сказуемое таблицы отражает то, что в ней говорится о подлежащем с помощью цифровых данных.

В зависимости от характера построения подлежащего различают про­стые, групповые и комбинационные таблицы.

Простой называется таблица, в подлежащем которой содержится пе­речень объектов наблюдения, например перечень работников предпри­ятия.

Групповойназывается таблица, в подлежащем которой объекты на­блюдения разгруппированы по одному признаку, например по професси­ям работников предприятия. Комбинационнойназывается таблица, в подлежащем которой объекты наблюдения разгруппированы по двум и более признакам в комбина­ции, например, по категориям работников, в том числе и по полу.

По структуре сказуемого различают простые и сложные таблицы.

Простая таблицапредусматривает разработку показателей, характеризующих изучаемые объекты независимо друг от друга.

Сложная таблица предусматривает разработку показателей, характе­ризующих изучаемые объекты в комбинации.

Например, при характеристике объема перевозок в сказуемом табли­цы можно дать перечень признаков, характеризующих объем перевозок по типам тяги и по видам движения. Это будет таблица с простой разработкой сказуемого.

Можно построить таблицу, сказуемое которой будет содержать пере­чень признаков по типам тяги и в том числе по видам движения. Это будет таблица со сложной разработкой сказуемого.

Наряду с таблицами, для наглядного изображения данных наблюде­ния и сводки, в статистике используются графики.

5. Графическим способом изображения статистических данных называют их условное изображение при помощи точек, линий, плоскостей, геометрических фигур и условных знаков. Графики в статистике применяются для: сравнения одноименных показателей, относящихся к различным объектам; наглядного представления структуры совокупности и ее изме­нения; характеристики динамики и степени распространения явления; отображения взаимосвязи явлений.

В зависимости от назначения используют различные виды графиков: линейные, столбиковые, ленточные, секторные, фигурные.

Линейные диаграммыобычно применяют для характеристики ди­намики явлений, их взаимосвязи.

Столбиковые, ленточные диаграммыиспользуются для сравнения значений статистических показателей, характеризующих изучаемые объ­екты в разные моменты времени (за разные периоды времени).

Секторные диаграммыиспользуются для характеристики структуры совокупности.

Фигурные диаграммыиспользуют при сравнении различных явле­ний по степени их распространения.

Дискретные вариационные ряды изображают в виде полигона (много­угольника) распределения.

Полигон распределения строится в прямоугольной системе коорди­нат. На оси абсцисс откладываются варианты, а на оси ординат наносится шкала частот. На оси абсцисс отмечаются точки, соответствующие величинам вариант, и из них восстанавливаются перпендикуляры, длины которых соответствуют частотам конкретных вариант. В результате соедине­ния концов перпендикуляров отрезками прямой, получают полигон рас­пределения. При этом первую точку следует соединить с точкой на оси абсцисс, соответствующей предшествующей варианте, частота которой равна нулю. Последнюю точку следует также соединить с точкой на оси абсцисс, соответствующей варианте, следующей за последней (частота ее также равна нулю). Таким образом получается многоугольник, изображающий распределение признака (рис. 1.1).

 

 

Интервальный ряд графически изображается в виде гистограммы (клеточного графика) распределения.

Гистограмма распределения - ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длины h, а высоты равны отношению ni/h (плотность частоты). В этом слу­чае частота обезличивается и в каждом интервале ее можно отнести к лю­бому значению признака. Площадь i - го прямоугольника равна ni, а пло­щадь гистограммы равна объему выборки п.

Если частоты отнести к серединам интервалов и соединить ординаты прямыми, то получится полигон распределения.

Огива - графическое изображение рядов распределений по накоп­ленным частотам.

В этом случае по оси абсцисс откладывают накопленные частоты (или частости), по оси ординат - значение признака по возрастающей величи­не. Соединяя точки, получают огиву распределения.

Корреляционная таблица - таблица, в которой представлена груп­пировка по двум взаимосвязанным признакам: факторному и результатив­ному. Концентрация частот около диагонали (любой) таблицы свидетель­ствует о наличии связи между признаками.

Пример 1.1. По 30 различным предприятиям области собраны стати­стические данные за прошедший год о доле (проценте) прибыли, направ­ленной для выплаты дивидендов по своим акциям, и объеме средств (млн. руб.), выделенных на развитие производства (табл. 1.2).

Необходимо:

1) получить интервальный ряд, характеризующий распределение предприятий по сумме средств, направленных на развитие производства, образовав пять групп с равными интервалами;

2) построить корреляционную таблицу и аналитическую группировку для изучения связи между процентом прибыли для выплаты дивидендов по акциям и объемом средств, направленных на развитие производства.

Решение. Прибыль для выплаты дивидендов - это факторный при­знак X, а объем выделенных на развитие производства средств - результа­тивный признак Y.

Для изучения структуры предприятия по объему средств, направлен­ных на развитие производства, пользуясь данными табл. 1.2, построим ин­тервальный вариационный ряд, характеризующий распределение пред­приятий по объему затраченных средств.

Величина интервала равна h = (ymax – ymin)/m,

где ymax , ymin - минимальное и максимальное значения величины Y.

т - количество интервалов.

Получаем: h = (36 – 6) / 5 = 6.0 млн.руб.

Путем прибавления величины интервала к минимальному уровню признака в группе получим группы предприятий по объему затраченных средств на развитие производства (табл. 1.3).

Данные группировки показывают, что 56.7 % предприятий затрачи­вают на развитие производства свыше 18 млн. руб.

Определим, существует ли зависимость между прибылью для выпла­ты дивидендов (факторный признак X) и размером затраченных средств (результативный признак Y).

Для этого построим корреляционную таблицу, образовав четыре группы по факторному и пять групп по результативному признакам (табл.1.4).


Таблица 1.2.

Показатели некоторых статей расхода средств предприятий области

 

№ предприятия Прибыль для выплаты дивидендов по акциям, % Объем средств, направленных на развитие производства, млн.руб.
11,9 17,6
16,3 11,4
9,1 33,4
11,4 29,6
13,4 15,5
21,7 10,0
18,3 19,3
15,5 6,0
16,8 28,3
12,0 21,5
19,3 11,7
13,6 23,5
15,0 17,7
14,0 27,0
17,1 14,9
8,7 25,5
16,6 17,4
15,3 24,6
16,2 20,4
18,6 9,5
15,7 28,1
14,4 24,0
16,0 27,4
18,2 12,0
17,2 29,6
10,8 36,0
18,0 13,1
11,5 31,8
9,7 35,5
20,4 10,7

 

Таблица 1.3.

Распределение предприятий по объему средств на развитие производства

 

Номер группы Объем средств на развитие производства, млн.руб. Число предприятий
в абсолютном выражении в относительных единицах
I 6 – 12 23,3
II 12 – 18 20,0
III 18 – 24 16,7
IV 24 – 30 26,7
V 30 - 36 13,3
Итого: 100,0

 


Таблица 1.4.

Распределение предприятий по прибыли для выплаты дивидендов

и по объему средств на развитие предприятия

 

Прибыль для выплаты дивидендов по акциям, % Объем средств на развитие производства, млн.руб
6 - 12 12 - 18 18 - 24 24 - 30 30 - 36
8,7 – 11,95    
11,95 – 15,2    
15,2 – 18,45  
18,45 – 21,7        

 

Для построения корреляционной таблицы необходимо разбить прибыль для выплаты дивидендов по акциям на 4 интервала с шагом h = (21,7 – 8,7) / 4 = 3,25 %

Из данных корреляционной таблицы 1.4. видно, что распределение числа предприятий (частот) имеет место вдоль диагонали, проведенной из левого нижнего угла в правый верхний угол таблицы.

Уменьшение признака «прибыль для выплаты дивидендов, по акциям» сопровождалось увеличением признака «объем затраченных средств на развитие производства». Характер концентрации частот по указанной диа­гонали корреляционной таблицы, свидетельствует о, наличии обратной связи между изучаемыми признаками.

Установим наличие и характер связи между прибылью для выплаты дивидендов по акциям и объемом затраченных средств на развитие, пред­приятия методом аналитической группировки (табл. 1.5)

Для того чтобы рассчитать среднюю прибыль для выплат в группе необходимо сложить все значения прибыли по каждому предприятию группы и, поделить на количество предприятий в группе. По тому же принципу определяется средняя прибыль данной выборки в целом и средний объем затраченных средств на одно предприятие.Например, для первой,группы:

- средняя прибыль: (11,9+9,1+11,4+8,7+10,8+11,5+9,7)/7 = 10,4;

- объем средств: 17,6+33,4 + 29,6 + 25,5 + 36 + 31,8 + 35,5=209,4;

- в среднем на одно предприятие: 209,4 / 7 = 29,9.

Данные табл. 1.5 показывают, что с ростом прибыли для выплаты ди­видендов по акциям, объем средств затрачиваемых на развитие производ­ства, уменьшается. Следовательно, между исследуемыми признаками су­ществует обратная зависимость.

 

Таблица 1.5

 

Зависимость объема затраченных средств на развитие производства от прибыли для выплаты дивидендов по акциям

 

№ п/п Прибыль для выплаты дивидендов по акциям, % Число предприятий в группе Средняя прибыль для выплат в группе Объем затраченных средств, млн.руб.
всего на одно предприятие
I 8,7 – 11,95 10,4 209,4 29,9
II 11,95 – 15,2 13,7 129,2 21,5
III 15,2 – 18,45 16,7 252,5 19,4
IV 18,45 – 21,7 20,0 41,9 10,5
Итого: 15,1 633,0 21,1