Глава 3 СВОДКА И ГРУППИРОВКА СТАТИСТИЧЕСКИХ ДАННЫХ
Для этого необходимо обобщить и систематизировать сведения, полученные в ходе статистического наблюдения.
Обобщение и систематизация первичных статистических данных — это самостоятельный этап статистического исследования, основная задача которого получить полную и всестороннюю характеристику как совокупности в целом, так и отдельных ее частей и представить полученную информацию об изучаемой совокупности в наиболее удобной для пользователей форме.
В статистической практике этот этап статистического исследования именуют этапом сводки и группировки статистических данных.
Сводка данных, полученных в результате статистического наблюдения, состоит в систематизации, обработке и получении общих и групповых итогов, а также расчете производных показателей (средних и относительных величин).
По способу организации различают централизованную и децентрализованную сводку.
При централизованной сводке все данные наблюдения сосредоточиваются в одном центре, где они обрабатываются. Примером применения централизованной сводки является обработка результатов федерального статистического наблюдения за составом затрат на рабочую силу, статистического наблюдения за внешней трудовой миграцией. При децентрализованной сводке первичные статистические материалы разрабатываются на уровне административных районов, итоги сводятся на уровне субъектов Российской Федерации, а затем на уровне государства в целом. Такой вид сводки используется при обработке данных, получаемых от предприятий и организаций по установленным формам статистической отчетности. На практике имеет место сочетание децентрализованной и централизованной сводки. При разработке материалов переписи населения часть итогов получают в порядке децентрализованной сводки (о численности населения городов и других населенных пунктов, численности мужчин и женщин), но полные итоги по всем признакам получают в результате централизованной обработки данных.Единицы статистической совокупности отличаются друг от друга как качественными, так и количественными признаками. В связи с этим отдельные единицы совокупности, сходные по своему виду, размеру, отношению к другим частям совокупности и т.д., необходимо объединить в обособленные группы. Разбиение совокупности на однородные виды, классы выполняют в ходе группировки.
Группировкой называется расчленение единиц статистической совокупности на группы, однородные по какому-либо одному или нескольким признакам. Группировка позволяет систематизировать данные статистического наблюдения. В результате группировки они превращаются в упорядоченную статистическую информацию, пригодную для дальнейшего статистического анализа. 3.1.
Виды группировок
Каждая единица исследуемой совокупности обладает рядом свойств, или признаков. Отдельные значения, которые может принимать тот или иной варьирующий признак, называются его вариантами.
По характеру вариантов признаки делятся на атрибутивные и количественные. Признак называется атрибутивным в том случае, если его варианты не выражаются числами, и количественным, если его варианты выражаются в виде чисел.
Признаки, на основе которых получена группировка, называются группировочными.
Например, население может быть сгруппировано на основе таких признаков, как пол, национальность, статус в занятости. Эти признаки являются атрибутивными. Группировки, полученные по этим признакам, называются атрибутивными или качественными.
Если группировка получена по количественному признаку, она называется количественной. Примерами таких группировок служат распределение населения по возрасту, по размеру дохода, группировка предприятий по численности работников и др.
Выбор группировочных признаков имеет огромное значение.
В основу группировки должны быть положены наиболее важные, существенные признаки. Их выбор определяется как качественной особенностью изучаемых процессов и явлений, так и целями исследования. Выделение наиболее типичных черт, которые присущи некоторым единицам совокупности, позволяет получить качественно однородные группы. В таких группах легче обнаружить закономерности изменения и развития явления, более наглядна реакция на те факторы, которые влияют на изменение его состояния.Анализируя экономическую и социальную жизнь общества, выделяют и изучают отдельные типы явлений. Такого рода группировки называются типологическими. Довольно часто между типологическими и качественными группировками ставят знак равенства. Это не совсем верно, поскольку некоторые типы явлений могут быть выделены и по количественному признаку. Например, группировка предприятий на малые, средние и крупные проводится по таким количественным признакам, как численность персонала, объем продукции, стоимость основных фондов, причем для разных видов деятельности значение этих признаков различно.
Примером типологических группировок служит деление населения на такие группы, как молодежь, лица среднего возраста и др. Следует отметить, что пороговые значения количественных признаков, отделяющие одну группу от другой, изменяются во времени и пространстве.
При анализе явлений часто используют пространственные группировки, созданные по географическому признаку, при этом в основу группировок могут быть положены существующее административно-территориальное деление, природно-климатические зоны, части света и т.д. Данные, сгруппированные по территориальному признаку, представляют важный информационный массив как для анализа явлений в пределах отдельных территорий, так и для сопоставления одних и тех же явлений (например, уровни цен и доходов, показатели рождаемости и смертности и др.) на различных территориях.
Данные любой группировки соответствуют определенному моменту времени или периоду.
С течением времени изменяется как численность совокупности, так и численность и соотношение отдельных ее групп.
В табл. 3.1 приведены данные о том, как изменилась численность населения России за столетие, а также как изменилась численность и соотношение между двумя группами населения — городским и сельским.Изменение численности населения России (в современных границах)
в 1897-2002 гг. Год Численность населения, млн чел. Доля населения в общей численности, % Всего городского сельского городского сельского 1897 67,5 9,9 57,6 15 85 1926 92,7 16,4 76,3 18 82 1939 108,4 36,3 72,1 33 67 1959 107,5 61,6 55,9 52 48 1970 130,0 81,0 49,0 62 38 1979 137,6 95,4 42,2 69 38 1989 147,4 108,4 39,0 74 26 2002 145,2 106,4 38,8 73 27 Примечание. По данным переписей населения на даты их проведения.
Для исследования зависимости между явлениями используют аналитические группировки. При их построении можно установить взаимосвязь между двумя признаками и более. При этом один признак будет результативным, а другой (другие) — факторным. Факторными называются признаки, под воздействием которых изменяются результативные признаки.
Для того чтобы установить взаимосвязь между признаками, данные следует сгруппировать по признаку-фактору и затем вычислить среднее значение результативного признака в каждой группе. Сопоставляя изменения значений факторного и результативного признаков, определяют характер связи между ними. Если с увеличением значения факторного признака возрастает и значение результативного признака, то между ними существует прямая связь. Изменение их значений в противоположных направлениях свидетельствует об обратной связи между признаками.
В качестве примера взаимосвязи между признаками рассмотрим табл. 3.2.
Данные, приведенные в табл. 3.2, показывают, что чем меньше предприятие (по численности работников), тем продолжительнее рабочая неделя. Иной характер связи прослеживается при сопоставлении размера торгового предприятия и среднемесячной заработной платы работников. Однако заработная плата зависит не только от размера предприятия, но и от продолжительности рабочей недели.
Если сопоставить отработанное время по различ- Группировка магазинов по численности работников(данные условные) Численность
работников,
чел. Количество
магазинов Фактическая продолжительность рабочей недели, ч Среднемесячная заработная плата работников, руб. До 5 83 42,0 4750 5-10 49 39,5 4940 11-19 52 38,1 5670 20-49 29 37,4 5420 50-99 12 37,6 5560 100 и более 11 37,2 5490 ным группам предприятий со среднемесячной заработной платой, можно говорить о наличии прямой связи между этими двумя признаками. Отметим, что в связке «численность работников — продолжительность рабочей недели» последняя является результативным признаком, а в паре «продолжительность рабочей недели — среднемесячная заработная плата» этот же признак становится факторным.
На размер заработной платы влияют оба фактора (размер предприятия и продолжительность работы). В случае если изучается влияние на результат нескольких факторов, используют многофакторную аналитическую группировку.
От выбора группировочного признака часто зависит и число образуемых групп. Так, при группировке населения по полу возможны только две группы, а при группировке по национальности может быть образовано столько групп, сколько разнообразных национальностей и народностей зафиксировано на данной территории на момент обследования.
Следует иметь в виду, что многие экономические и социальные явления и процессы хорошо изучены, поэтому для качественных группировок предусмотрено устойчивое разбиение совокупности на группы достаточно однородных явлений. Такое устойчивое разбиение на группы проводится на основе свойств и различий элементов совокупности и называется классификацией.
Классификации играют большую роль при систематизации статистических данных. Значение классификаций все время возрастает. Они служат статистическим нормативом, в соответствии с которым группируется статистическая информация. Классификации не остаются неизменными — появляются новые типы, изменяются условия и принципы, на которых базируются те или иные классификаторы.
Например, классификация форм собственности, разработанная для централизованно планируемой экономики, не соответствовала условиям рыночной экономики, поэтому действовавший в России классификатор форм собственности пришлось пересмотреть. Однако глобальные, коренные изменения происходят в экономической и социальной жизни не так уж часто. Кроме того, далеко не все изменения требуют пересмотра классификации в целом. Накопленный опыт позволяет в рамки действующих классификаций встроить новые блоки, если сформировались новые группы либо значение тех или иных типов явлений возросло настолько, что их нужно выделить в самостоятельную группу.В отличие от классификации группировка проводится обычно для целей конкретного обследования. Такие группировки можно использовать и в последующих обследованиях. Это даже желательно, поскольку обеспечивается сопоставимость их данных. При необходимости можно применять другие группировки.
Число групп при использовании количественного признака зависит от числа единиц изучаемого явления, степени колеблемости группировочного признака, а также от того, является ли признак дискретной величиной (т.е. характеризуется только целыми значениями) или непрерывной (т.е. в пределах вариации может принимать любые значения, отличающиеся друг от друга на сколь угодно малую величину).
В совокупности, где варьирующий признак носит дискретный характер и может принимать ограниченное число значений, количество групп, как правило, равно количеству возможных значений. Примером такой группировки служит распределение семей одного из городов по числу детей, приведенное в табл. 3.3.
Таблица 3.3
Распределение семей города N по числу детей на 1 января 2004 г. (данные условные) №
п/п Количество детей в семье Количество
семей 1 0 1830 2 1 3953 3 2 2780 4 3 801 5 4 24 6 5 11 7 6 и более 4 Всего 9403 Следует обратить внимание на последнюю группу «6 и более», в ней нарушен принцип, по которому образованы группы для данной совокупности, — указывалось точное число детей в семье. Обычно это делается из практических соображений — чтобы не увеличивать число групп, вводя значения признака, которые редко встречаются в совокупности.
Группировки, образованные на основе точных значений варьирующего группировочного признака, применяют тогда, когда количество возможных дискретных значений невелико (например, если речь идет о группировке семей по численности членов семьи, о распределении жилых помещений, занимаемых одной семьей, по числу комнат и др.).
Если варьирующий признак является непрерывной величиной или дискретной величиной, которая может принимать очень большое число значений (например, численность работников на предприятии может изменяться от одного до нескольких тысяч), то в этом случае число групп зависит от степени колеблемости данного признака, а также от объема изучаемой совокупности.
При группировке данных возникает вопрос о том, на сколько групп будет разбита изучаемая совокупность. На этот вопрос нет стандартного, однозначного ответа.
Если распределение признака в границах его вариации достаточно равномерно или близко к нормальному, диапазон колебаний признака разбивают на равные интервалы, длину которых определяют по формуле
X — X ^ rnax min
к
где хтах — максимальное значение признака в совокупности; xmin — минимальное значение признака в совокупности; к — число групп.
Число групп может быть задано (на основе опыта предыдущих обследований). В том случае, если вопрос о числе групп приходится решать самостоятельно, можно использовать формулу Стер- джесса для определения оптимального числа групп: к = 1 + 3,322 lg N, где N — число единиц в совокупности.
Например, необходимо осуществить группировку работников предприятия по размеру месячной заработной платы, при условии, что ее минимальный размер составил 1359 руб., а максимальный — 6449 руб. при среднесписочной численности работников предприятия 645 человек. Находим длину интервала, используя формулу Стерджесса для определения оптимального числа групп:
6449 - 1359 _ , „
Н = с/к: = 492’6 руб- 1
+ 3,322 ^ 645
Полученное значение следует округлить для облегчения расчетов до 500 руб. Процедуру округления при расчете интервала проводят всегда. Трехзначное, четырехзначное или большее число округляют до ближайшего числа, кратного 50 или 100. Если число имеет два знака до запятой и несколько знаков после запятой, его округляют до целого, если один знак до запятой и несколько знаков после запятой — до десятых и т.д.
В нашем примере диапазон колебаний заработной платы будет разбит на следующие интервалы: 1) 1000-1500 руб.; 2) 1500— 2000 руб.; 3) 2000—2500 руб. и т.д. Последним интервалом будет 6000 руб. и более.
Часто значения варьирующего признака распределены таким образом, что при использовании равного интервала для образования групп излишне увеличивается их количество, при этом многие группы будут малочисленными. В этих условиях совокупность разбивают на группы с неравными интервалами. Примером такой группировки может служить распределение населения по размеру среднедушевого дохода, приведенное в табл. 3.4.
Таблица 3.4
Распределение населения России по размеру среднедушевых месячных доходов в 2000 и 2002 гг. (в %) 2000 г. 2002 г. Все население 100 100 В том числе со среднедушевыми денежными доходами в месяц, руб.: до 500 3,4 0,8 500,1-750 7,3 2,3 750,1-1000 9,6 3,9 1000,1-1500 19,8 10,7 1500,1-2000 16,3 11,9 2000,1-3000 20,6 21,0 3000,1-4000 10,5 15,2 свыше 4000 12,5 34,2 Источник: Российский статистический ежегодник. 2003. — М.: Госкомстат России, 2003. — С. 185.
Различия в длине интервала могут быть обусловлены не только характером изменения варьирующего признака, но и особенностями изучаемых экономических и социальных явлений. При этом не наблюдается какой-либо определенной тенденции увеличения или уменьшения интервала при образовании групп. Рассмотрим это на примере группировки экономически активного и занятого населения по возрастным группам, приведенной в табл. 3.5.
Таблица 3.5
Распределение численности экономически активного населения и населения, занятого в экономике, по возрастным группам в 2003 г. (на конец августа, в %) Всего В том числе в возрасте, лет 15-19 20-24 25-29 30-49 50-54 55-59 60-72 Экономически активное население: всего мужчины женщины 100
100
100 3,0
3,3
2,7 10,2
10,8
9,6 12,4
13,1
11,7 54,5
53,3
55,7 11,2
10,4
12,0 3,9
4,3
3,5 4.8 4.8
4,8 Занятое население: всего мужчины женщины 100
100
100 2,4
2,8
1,9 9,4
10,1
8,7 12,4
13,0
11,7 55,1
53,9
56,5 11,5
10,7
12,3 4,1
4,5
3,7 5.0 5.0
5,0 Источник: Обследование населения по проблемам занятости, август 2003 г. — М.: Госкомстат России, 2003. — С. 39, 49.
В табл. 3.5 не наблюдается прогрессивного увеличения или уменьшения интервала. Специфика анализируемых явлений — экономически активного и занятого населения — требует более детальной информации о молодежи (до 30 лет) и лицах предпенсионного возраста (50—54 года у женщин и 55—59 лет у мужчин).
В приведенных выше примерах используются два вида интервалов: закрытые и открытые. Закрытыми называются интервалы, у которых указаны обе границы, открытыми — интервалы с одной границей (верхней у первого интервала и нижней у последнего интервала).
Для расчета показателей статистической совокупности необходимо «закрыть» открытые интервалы. Для этой цели используют интервал, соседний с открытым.
Если обратиться к данным табл. 3.4, то в результате операции закрытия интервалов первый интервал будет «250,1—500», последний — «4000,1—5000».
Однако следует помнить, что существуют логические и установленные границы совокупностей. Например, в группировке населения по возрасту: до 3 лет; 3-7 лет и т.д. — для первой группы логической нижней границей интервала будет 0, т.е. целесообразно рассматривать интервал от 0 до 3 лет.
Если речь идет о группировке населения в трудоспособном возрасте, то для открытых интервалов следует использовать установленные законодательством, т.е. юридические, границы совокупности: от 16 до 55 лет у женщин и от 16 до 60 лет у мужчин.
В целях статистического исследования часто приходится пользоваться данными, относящимися к различным периодам, сопоставлять информацию по отдельным отраслям, регионам, странам, опираясь на уже сгруппированные данные, причем сгруппированными, как правило, на разной основе. В этих условиях требуется перегруппировка уже сгруппированных данных.
Операция перегруппировки, т.е. образование новых групп на базе ранее созданных группировок, называется вторичной группировкой.
При анализе явления необходимо из большого количества первоначально созданных групп образовать более крупные группы. Например, при переписи населения базисными являются погодо- вые группы населения, на основе которых можно образовать любые группы. Вторичная группировка в данном случае не вызывает проблем.
Другой пример. Имеются группировки предприятий различных отраслей экономики по численности работников. В силу специфики отраслей группировки по этому признаку довольно значительно отличаются. Причина таких различий в том, что максимальная численность персонала малого предприятия в промышленности в несколько раз превышает аналогичный показатель в торговле, науке и других непроизводственных отраслях. В этом случае за базисную может быть выбрана группировка, используемая в промышленности, либо другая стандартная группировка, которая учитывает специфику не одной отрасли, а широкого круга отраслей. При этом в ходе укрупнения интервалов некоторые из них целиком войдут во вновь образованные интервалы. Другие интервалы придется разбивать на части согласно новым границам. При этом в новом интервале число единиц признака будет пропорционально части старого интервала, которая попадает в соответствующий новый интервал.
Вторичные группировки проводятся для совокупностей, сгруппированных не только по количественным, но и по качественным
признакам. Наиболее часто это приходится делать при сопоставлении данных, полученных в разных странах. В этом случае показатели, рассчитанные на базе отличающихся друг от друга национальных классификаций, перегруппировывают. За основу, как правило, принимают действующую международную классификацию, которая служит международной статистической нормой. Эту работу осуществляют в два этапа: сначала разрабатывают ключи перехода от национальной классификации к международной, затем на этой основе проводят перегруппировку данных национальной статистики.
Метод группировок — один из важнейших методов статистики, без которого немыслимо изучение массовых явлений. Данная глава содержит самые общие сведения о группировках как обязательном этапе статистического исследования, элементе сводки, приеме систематизации и обобщения массовых данных.
На практике при обработке массовых данных задача расчленения множества единиц изучаемой совокупности на группы по определенным признакам решается порой более сложными приемами, разработанными в последние годы и требующими использования компьютеров. Особенно это относится к группировкам по нескольким признакам, т.е. на основе множества признаков. Для этой цели разработаны так называемые методы многомерной классификации: классификация на основе многомерной средней, кластерный анализ, метод главных компонент6.
Еще по теме Глава 3 СВОДКА И ГРУППИРОВКА СТАТИСТИЧЕСКИХ ДАННЫХ:
- 1.5. Стадии и методы статистического исследования Последовательность статистического исследования
- 3.1. Понятие статистической сводки
- 3.2. Сущность, виды и правила статистических группировок Содержание группировки
- 3.3. Ряды распределения Сущность и виды рядов распределения
- 3.4. Классификаторы Сущность классификаторов и классификаций
- 3.6. Статистические таблицы Сущность таблиц
- 1.2. Краткий обзор развития статистики как науки
- Глава 3 СВОДКА И ГРУППИРОВКА СТАТИСТИЧЕСКИХ ДАННЫХ
- Глава 7 ДЕТЕРМИНАНТЫ ТЕРМИНОЛОГИИ РОДСТВА
- ВВЕДЕНИЕ Денежное обращение до Октябрьской революции
- АНАЛИЗ НАЛОГОВ И НАЛОГООБЛОЖЕНИЯ
- Глава 2 Методика анализа документальных источников в исследовании В. И. Лениным силы политических течений в рабочем движении (на материалах статей 1912—1914 гг.)