Статистическая сводка и группировка
Тема 3. Обобщение и систематизация статистических данных.
3.1. Сущность второго этапа статистического исследования
Первичный материал статистического наблюдения, собранный в виде отчетности, статистических анкет и других документов, представляет собой сведения об отдельных единицах исследуемого объекта. Однако на основе этой разрозненной, необобщенной информации нельзя выявить качественные и количественные закономерности, присущие всему исследуемому объекту, то есть нельзя достигнуть цели статистического наблюдения. Именно поэтому на следующем этапе статистического исследования первичные данные должны быть систематизированы и обобщены. Этот сложный, но чрезвычайно важный процесс происходит на этапе сводки и группировки результатов статистического наблюдения, которая является вторым
этапом статистического исследования.
Сводка представляет собой научно организованную обработку материалов наблюдения, в ходе которой проводится контроль собранных данных, их систематизация и группировка, а также построение таблиц и графиков, расчет итогов и производных показателей в виде средних и относительных величин. Целью сводки является получение обобщающих статистических показателей, отражающих сущность и статистические закономерности анализируемого социально-экономического явления.
Программа статистической сводки разрабатывается до начала сбора статистических данных. Ее разработка осуществляется в рамках составления плана и программы статистического наблюдения. Программа сводки включает:
- определение групп и подгрупп, по которым классифицируется статистическая совокупность;
- разработку системы показателей, характеризующих группы и статистическую совокупность в целом;
- разработку макетов статистических таблиц для представления результатов сводки.
По глубине обработки материала различают простую и сложную сводку.
Простая сводка предполагает подсчет общих итогов по совокупности в целом.
При сложной сводке проводится целый комплекс операций, включающий в себя:
- группировку единиц наблюдения;
- подведение групповых и общих итогов;
- оформление результатов в виде статистических таблиц.
По форме обработки материала сводка бывает централизованной и децентрализованной.
При централизованнойсводке весь процесс обработки информации от первичного материала до получения итоговых показателей происходит в одной организации (комитет, фонд, комиссия). Централизованная сводка характерна для единовременных статистических обследований.
При децентрализованной сводке обработка материала поэтапно проводится несколькими организациями (структурными подразделениями). Так, при обработке статистической отчетности отчеты предприятий и организаций сводятся территориальными статистическими органами по каждому субъекту РФ, а итоги по региону передаются в Росстат, который определяет экономические показатели по России в целом.
По технике выполнения различают ручнуюи автоматизированную (механизированную) сводку.
Ручная сводка предполагает, что подсчет групповых и общих итогов производится вручную. Применяется только для небольших массивов данных и в последнее время проводится крайне редко.
Автоматизированная (механизированная) сводка в полном объеме осуществляется с помощью компьютерной техники. Ярким примером такой сводки служит сводка и группировка материала во время переписи, когда информация из переписных формуляров считывается при помощи сканеров, поступает в электронную базу данных и затем автоматически группируется по заданным критериям.
3.2. Определение основных задач, решаемых в ходе проведения статистической сводки
3.2.1. Метод группировок. Виды группировок
Статистическая сводка осуществляется методом группировки. Под группировкойв статистике понимают расчленение множества единиц статистической совокупности на группы, однородные в каком-либо существенном отношении. Группировка позволяет систематизировать данные наблюдения. Результатом группировки является превращение исходных данных в упорядоченную статистическую информацию, необходимую для проведения статистического анализа.
В ходе проведения группировки необходимо выбрать группировочный признак, определить интервалы группировки и рассчитать число групп.
Группировочным называется признак, по которому происходит объединение отдельных единиц совокупности в группы, однородные по этому признаку. При этом признаки, по которым проводится группировка, могут быть как атрибутивными, то есть качественными (пол, образование, национальность), так и количественными (возраст, величина дохода, размер прибыли).
В зависимости от задач исследования и признаков, положенных в основу группировки, различают типологические, структурные и аналитические группировки.
Типологическая (1) группировка предполагает разделение единиц наблюдения качественно разнородной совокупности на классы, социально-экономические типы и однородные группы. Например, распределение совокупности предприятий по отраслям экономики, формам собственности и ряду других признаков. В основу типологической группировки положен качественный признак.
При структурной группировке (2) проводится разделение единиц однородной совокупности на группы с целью выявления структуры по одному из признаков. Посредством структурной группировки анализируется, например, состав населения по полу, возрасту, месту проживания, величине доходов и т.д. В основу структурной группировки, как правило, положен количественный признак.
Структура - процентное (долевое) соотношение групп в составе совокупности.
Социально-экономические явления и отражающие их признаки взаимосвязаны между собой. Для выявления взаимосвязей между отдельными признаками исследуемого социально-экономического явления используется аналитическая группировка (3). Посредством аналитической группировки можно выявить взаимосвязи между затратами на производство продукции и прибылью, доходами семьи и ее сбережениями, числом посетителей супермаркета и величиной выручки и т.д. При этом признаки, взаимодействующие между собой, подразделяют на факторные (независимые) и результативные (зависимые). Результативные признаки изменяются под воздействием факторных признаков. Например, затраты на производство - факторный (независимый) признак, под воздействием которого изменяется выручка, как результативный (зависимый) признак. По результатам аналитической группировки можно определить направление связи между признаками. Так, если с увеличением (уменьшением) факторного признака растут (снижаются) значения результативного признака, т. е. движение признаков однонаправлено, то связь называют прямой. Если же движение признаков разнонаправлено, т. е. с увеличением (уменьшением) факторного признака снижаются (растут) значения результативного признака, то связь называют обратной.
Особенностью аналитической группировки является то, что в качестве группировочного признака всегда выбирается факторный признак, а каждая выделенная группа характеризуется средними значениями результативного признака.
Необходимо отметить, что вследствие многообразия реальных связей между объектами социально-экономического явления его полная характеристика возможна только в том случае, если применяется система признаков (система показателей). Подобный комплексный подход позволяет выявить реальные взаимосвязи, взаимоотношения отдельных сторон процесса и отобразить процесс развития анализируемого явления.
По числу группировочных признаков различают простые и сложные группировки. Если группировка произведена по одному признаку, то она называется простой. Если же разделение совокупности на группы производится по двум и более признакам, то группировку называют сложной. Сложная группировка может быть выполнена в виде многомерной или комбинационной группировки. Многомернаягруппировка (имеют свыше 4 группировочных признаков) основана на измерении сходства или различий между единицами совокупности. Таким образом, многомерная группировка осуществляется не последовательно по отдельным признакам, а одновременно по комплексу признаков. Единицы, отнесенные к одной группе, имеют между собой меньше различий, чем единицы, отнесенные к другой группе. Нахождение этих групп осуществляется методами кластерного анализа при помощи таких специализированных пакетов программ, как Statistica, SPSS, SAS и ряда других. Частным случаем многомерной группировки является комбинационная группировка (имеют от 2 до 4 (включительно) группировочных признаков), при которой группы, выделенные по одному признаку, подразделяются на группы по другому признаку и т.д., то есть в основании группировки лежат несколько признаков,взятых в комбинации.
В ходе проведения экономического анализа часто приходится проводить перегруппировку данных по новым границам. Как правило, массив первичных данных при этом является недоступным. В этом случае приходится осуществлять вторичную группировку, в виде образования новых групп на основе ранее сгруппированных данных, без использования массива первичных данных. Вторичная группировка может быть осуществлена двумя методами: методом объединения первоначальных интервалов или методом долевой перегруппировки. Метод объединения первоначальных интервалов используется в том случае, когда границы старых и новых групп совпадают. Метод долевой перегруппировки основывается на предпосылке равномерности распределения единиц наблюдения внутри границ интервальных групп.
Метод долевой перегруппировки применяется также в тех случаях, когда приходится сравнивать несколько групп данных, имеющих разные границы группировки. В этом случае одна из группировок выбирается в качестве базовой, а все остальные перегруппировываются в соответствии с ее границами.
В статистической практике широко применяются классификации, которые следует отличать от группировок. Классификация - устойчивое (стандартное) разграничение объектов определенных совокупностей на группы по качественным признакам, разработанное органами государственной и международной статистики. Наиболее известными являются классификации отраслей экономики, основных фондов, видов экономической деятельности и т.д. Несмотря на то что классификации, как правило, действуют в течение длительного времени, при появлении новых классов или групп признаков в классификацию могут быть внесены изменения.
3.2.2. Ряды распределения: виды, правила построения и графическое изображение
Дальнейшим развитием статистической группировки является статистический ряд распределения. Результаты группировки можно представить в виде статистических рядов распределения. Ряд распределения - это упорядоченное распределение единиц совокупности на группы по изучаемому признаку. Ряды распределения могут быть образованы по атрибутивному и количественному признакам.
Атрибутивными рядами распределения называют ряды, построенные по качественным признакам. Примером атрибутивных рядов являются распределения населения по полу, национальности, статусу занятости, образованию и т.д.
Вариационными рядами распределения называют ряды, построенные по количественным признакам. Например, распределение населения по возрасту, сотрудников по стажу работы и уровню заработной платы, домохозяйств - по уровню доходов и расходов и т.д.
Вариационный ряд состоит из двух элементов: вариантов и частот. Под вариантами понимают конкретные значения признака, которые он принимает в вариационном ряду. Частоты - это численности отдельных вариантов или каждой группы вариационного ряда, то есть это числа, показывающие, как часто встречаются те или иные варианты в ряду распределения. Накопленные частоты показывают число единиц совокупности, у которых значение варианта не больше данного. Сумма всех частот называется объемом совокупности . Помимо частот в вариационном ряду распределения могут рассчитываться частости , представляющие собой частоты, выраженные либо в долях единицы, либо в процентах относительно объема совокупности . Накопленные частости рассчитываются как отношение накопленной частоты к числу единиц совокупности и характеризуют долю единиц совокупности со значением не больше данного варианта.
Вариационные ряды по способу построения делятся на следующие подвиды - дискретные и интервальные. Дискретный вариационный ряд характеризует распределение единиц совокупности по дискретному признаку, т. е. признаку, принимающему только дискретные значения, число которых составляет счетное множество. Например, дискретный вариационный ряд может быть построен в случае группировки домохозяйств по числу детей, работающих членов семьи, иждивенцев.
В случае непрерывной вариации, когда величина варьирующего признака может принимать в определенных пределах любые значения, отличающиеся друг от друга на сколь угодно малую величину, целесообразно строить интервальные вариационные ряды. Значения вариант в интервальных вариационных рядах могут быть как дробными, так и целыми. Значения варьирующего признака в этом случае задаются в виде интервалов. Каждый интервал имеет нижнюю границу (наименьшее значение признака в интервале) и верхнюю границу (наибольшее значение признака в интервале). Величина интервала представляет собой разность между его верхней и нижней границами. Если интервал имеет обе границы, его называют закрытым (с двумя крайними значениями). Первый и последний интервалы могут быть открытыми (с одним крайним значением признака - до такого-то числа или свыше такого-то числа). В этом случае, первый интервал не имеет нижней границы, а последний верхней. Такие интервалы могут быть условно закрыты. Для этого предполагается, что величина первого интервала равна величине второго, а величина последнего равна величине предпоследнего интервала. Далее от верхней границы первого интервала отнимают величину второго интервала и получают нижнюю границу первого интервала, а к нижней границе последнего интервала прибавляют величину предпоследнего и получают верхнюю границу последнего интервала.
Интервальные вариационные ряды могут также строиться на основе дискретных рядов в случае, когда значительное число вариантов дискретного ряда имеют небольшую частоту появления относительно всего объема совокупности.
При построении интервального вариационного ряда важно определить величину интервала. Для этого используют формулу Стерджесса:
где - минимальное значение признака в совокупности,
- максимальное значение признака в совокупности,
N - объем совокупности.
Для уточнения представления об интервальных вариационных рядах рассчитывают абсолютные и относительные плотности. Абсолютная плотность распределения - это частота, приходящаяся на единицу длины интервала. Абсолютная плотность интервала рассчитывается по формуле
Относительная плотность распределения - частость, приходящаяся на единицу длины интервала. Относительная плотность интервала может быть рассчитана как
Вариационный ряд можно изобразить графически. Дискретный вариационный ряд можно изобразить в виде полигона распределения. Полигон распределения строится в прямоугольной системе координат, при этом, на оси абсцисс откладывают значения вариант, а на оси ординат частоты или частости. Полученные точки соединяют отрезками, в результате чего получается ломаная линия, которая и будет полигоном распределения.
Интервальный вариационный ряд можно изобразить в виде гистограммы распределения. Для интервального ряда с равными интервалами на оси абсцисс откладывают отрезки, равные длине интервала. На основании этих отрезков строят прямоугольники, высота которых пропорциональна частотам или частостям соответствующих интервалов. Для интервального ряда с неравными интервалами на оси ординат откладывают плотности распределения.
Дискретные и интервальные вариационные ряды можно представить в виде кумуляты и огивы. При построении кумуляты дискретного вариационного ряда на оси абсцисс откладывают значения признака (варианты), а по оси ординат - соответствующих им накопленные частоты (частости). Кумулята дискретного вариационного ряда представляет собой ступенчатую разрывную линию, имеющую конечные разрывы в точках, соответствующих значениям варианта. Для интервального вариационного ряда кумулята представляет собой ломаную, начинающуюся с точки, абсцисса которой равна началу первого интервала, а ордината - накопленной частости), равной нулю. Другие точки этой ломаной соответствуют концам интервалов. Огива строится аналогично кумуляте лишь с той разницей, что на оси абсцисс откладываются значения, соответствующие накопленным частотам (частостям), а на оси ординат - значения признака (варианты).
3.3. Статистические таблицы
Результаты сводки и группировки обобщаются в виде статистических таблиц. В отличие от других табличных форм представления информации, статистическая таблица является итогом сводки и группировки и содержит результаты подсчета эмпирических данных.
Каждая статистическая таблица имеет заглавие, в котором в сжатой форме отражается содержание всей таблицы. В заглавии указывают, к какому периоду времени и месту она относится.
Статистическая таблица состоит из строк и граф, которые образуют макет таблицы в незаполненном цифровыми данными виде.
Основными элементами статистической таблицы являются подлежащее и сказуемое. Подлежащее характеризует объект исследования. В подлежащем, которое обычно располагается в левой части таблицы по строкам, дается перечень групп или подгрупп по существенным признакам, характерным для исследуемого объекта. Сказуемое характеризует объект исследования системой показателей и, как правило, располагается в правой части таблицы по графам. Расположение подлежащего и сказуемого может меняться и зависит от целей исследования.
В зависимости от построения подлежащего различают простые, групповые или комбинационные статистические таблицы.
В простой таблице объект исследования не подразделяется на группы, а сама таблица содержит данные о каждой единице совокупности (таблица 3.1).
Таблица 3.1
Крупнейшие города России (на 01.01.2010 г.)
Город | Численность населения, тыс.чел. | Расстояние до Москвы, км |
Москва Санкт-Петербург Новосибирск Екатеринбург Нижний Новгород Самара Казань Омск Челябинск Ростов-на-Дону Уфа | - |
В групповой таблице подлежащее (объект исследования) подразделяется на группы по одному количественному или атрибутивному признаку (см. табл. 3.2).
Таблица 3.2
Выезд российских граждан за границу в 2010 году (тыс. поездок)
Всего, Из них по целям поездок служебная туризм частная обслуживающий персонал |
В подлежащем комбинационной таблицы объект исследования
разделен на группы по двум и более признакам. Так, в таблице 3.3 подлежащим являются группы акционерных обществ по величине уставного фонда и величине чистой прибыли.
Таблица 3.3
Распределение ОАО по величине уставного фонда и чистой прибыли на 01.01.20ХХ г. (условные данные)
Группы ОАО по величине уставного фонда, тыс.руб. | Подгруппы ОАО по величине чистой прибыли, млн.руб. | Число ОАО | |
До 100 | 1-20 20-100 100-300 | ||
Итого по группе | |||
100-1500 | 1-20 20-100 100-300 | ||
Итого по группе | |||
1500 и более | 1-20 20-100 100-300 | ||
Итого по группе | |||
Итого по подгруппам | 1-20 20-100 100-300 | ||
Всего | |||
Заметим, построение подлежащего в статистической таблице взаимосвязано с видом примененной группировки данных, отражаемых в таблице. Так, если применяют простую группировку, то в результате будет получена простая или групповая таблица, а при использовании данных сложной группировки результатом станет комбинационная таблица.
При построении статистических таблиц следует отличать простую и сложную разработку сказуемого. При простой разработке сказуемого показатели, характеризующие его, не связаны между собой в подгруппы. Примером простой разработки сказуемого может служить следующий фрагмент статистической таблицы.