5.1. Построение и графическое изображение вариационных рядов
Построение вариационных рядов
По своей конструкции вариационный ряд состоит из двух столбцов (граф): один столбец — значения варьирующего признака (л: — варианты), другой — частоты (т — абсолютное число случаев данного варианта) или частости (и> — относительная доля каждой частоты в общей сумме частот)9.
Вариационные ряды по способу построения бывают двух видов: дискретные и интервальные.
Дискретный ряд распределения можно рассматривать как такое преобразование ранжированного (упорядоченного) ряда, при котором перечисляются отдельные значения признака и указывается их частота.
Примером дискретного ряда может служить распределение домашних хозяйств по числу их членов, представленное в табл. 5.1.Таблица 5.1
Распределение домашних хозяйств России по числу совместно проживающих их членов в 2002 г. (на 1000 домашних хозяйств) Число членов домашних хозяйств, чел.
*/ Число домашних хозяйств т, 1 223 2 276 3 238 4 170 5 58 6 и более 35 Итого 1000 Общая схема ряда распределения такова: в совокупности, состоящей из N единиц, некоторая переменная величина х (т.е. какой- либо варьирующий признак) принимает различные значения, а каждое из этих значений имеет частоту тг Исходя из этого, дискретный ряд распределения можно представить следующим образом: Вариант Частота X, т1 X, т\ т2 тп Итого (или ЛО
/ Однако приведенная схема вариационного ряда применима лишь для тех случаев, когда варьирующий признак может принимать небольшое количество значений, т.е. когда число вариантов невелико. Если же вариантов много, невозможно образовать группы для каждого из них. Число групп не должно превышать 12—15 (при достаточно большом числе наблюдений, например свыше 500), в противном случае вариационный ряд становится слишком громоздким.
Если число вариантов велико или признак имеет непрерывную вариацию, то объединение отдельных наблюдений в группы возможно лишь на базе интервала, т.е.
такой группы, которая имеет определенные пределы значений варьирующего признака. Эти пределы обозначаются двумя числами, они указывают верхнюю и нижнюю границы, т.е. значение, с которого начинается данная группа, и значение, на котором она заканчивается. При использовании интервалов образуются интервальные ряды распределения. Строя интервальный вариационный ряд, определяют прежде всего число групп, на которые следует разбить всю совокупность. Чем больше групп, тем уже будет интервал и тем точнее описание распределения. Однако слишком большое число групп затрудняет понимание характера вариации. Вопрос о числе групп следует решать в каждом случае особо в зависимости от изучаемого объекта, объема совокупности. Чаще всего строят вариационные ряды из 7—10 групп.Как уже отмечалось, интервалы могут быть закрытые и открытые. Закрытые интервалы ограничены с обеих сторон, т.е. имеют границу как нижнюю («от»), так и верхнюю («до»). Открытые интервалы имеют какую-либо одну границу: либо верхнюю, либо нижнюю. Наличие открытых интервалов хотя и нежелательно, но тем не менее почти неизбежно, так как ради компактности ряда все крайние случаи необходимо сводить в одну группу. Однако, признавая неизбежность образования открытых интервалов, следует подчеркнуть, что они не должны включать в себя значительную часть общего числа наблюдений, иначе описание всего распределения будет недостаточно точным.
Как обозначают границы интервалов? Строго говоря, требуется, чтобы верхняя граница данного интервала несколько отличалась от нижней границы следующего за ним интервала, как, например, в табл. 4.2. Однако это правило часто не соблюдается, более того, иногда его даже и не следует соблюдать, чтобы не создавать трудности в понимании границ интервалов. В таких случаях, особенно при исследовании непрерывно варьирующего признака, можно использовать интервалы, в которых как нижние, так и верхние границы выражены круглыми числами. Правда, если верхняя граница одного интервала совпадает с нижней границей следующего интервала, остается неясным, в какой интервал попали пограничные случаи.
Поэтому всегда необходимо уточнять, как понимаются границы интервалов: включительно или исключительно. Сравним два варианта записи интервалов: Вариант 1 Вариант 2 От 20 до 30 От 30 до 40 40 и выше От 20 до 30 От 30 до 40 Свыше 40 Здесь верхняя граница первого интервала совпадает с нижней границей второго интервала и т.д. К какому интервалу отнести пограничные значения? Вопрос может быть решен двояко: во-первых, по принципу «включительно», когда единицы совокупности, имеющие значение 30, относятся к первому (предыдущему) интервалу; во-вторых, по принципу «исключительно», когда единицы относятся ко второму (последующему) интервалу. Судя по последнему интервалу, в варианте 1 принят принцип «исключительно», так как единицы совокупности, имеющие значение 40, попали в последнюю группу, а не в предшествующую, а в варианте 2 принят принцип «включительно», так как в последней группе представлены единицы совокупности со значениями, превышающими 40. Принцип «включительно» встречается чаще.Построим вариационный ряд и рассчитаем основные его характеристики на основе данных об активах (в млрд руб.) 50 круп нейших коммерческих банков России по состоянию на 1 июля 2003
г.
Для построения интервального вариационного ряда ранжируем значения признака в порядке убывания (первые 10 банков (после Сбербанка России) приведены с названиями, остальные только пронумерованы): 1. Сбербанк России* Внешторгбанк 1322.7
228.7 11 54,3 21 23,0 31 17,2 41 13,3 2. Альфа-банк 187,3 12 51,8 22 22,2 32 17,1 42 13,3 3. Газпромбанк 180,7 13 45,5 23 21,8 33 17,0 43 13,0 4. Международный
промбанк 140,1 14 38,6 24 21,6 34 15,8 44 12,3 5. Банк Москвы 110,9 15 32,4 25 21,5 35 15,7 45 11,6 6. МДМ-банк 108,0 16 32,1 26 20,9 36 15,1 46 11,5 7. Росбанк 81,3 17 30,3 27 18,8 37 15,0 47 11,4 8. Международный Московский банк 73,0 18 30,1 28 18,8 38 14,7 48 п,з 9. Уралсиб 62,1 19 27,2 29 17,5 39 14,1 49 11,2 10. Промышленно- строительный банк 61,0 20 26,9 30 17,4 40 14,0 50 10,9 * В связи с тем, что размер активов Сбербанка сильно отличается от остальных значений и может существенно исказить рассчитываемые средние величины, данную единицу совокупности мы не будем использовать при построении вариационного ряда.
Найдем максимальное и минимальное значения признака в ряду.
В рассматриваемой совокупности хт1п = 10,9, хтах = 1322,7. Численность совокупности невелика: =51 единица. Для определения числа групп, на которые будем делить совокупность, воспользуемся формулой Стерджесса:к = 1 + 3,322 1ё N = 1 + 3,322 ^ 51 =7.
По формуле Стерджесса можно определить и длину интервала к, если отбросить «аномальное» значение активов у Сбербанка России (хтах = 1322,7) и построить ряд с равными интервалами. Тогда
, = *тах ~ *тт = 228,7 - 10,9 = к 7 ~
Примечание. При формировании первого интервала от минимального значения следует отступить на половину длины интервала, а не рассчитывать данный интервал как х . + И.
В соответствии с формулой Стерджесса получим распределение 50 банков по величине активов, приведенное в табл. 5.2.
Таблица 5.2 Распределение 50 банков по величине активов Величина активов, млрд руб. Число банков т, До 30 32 30,1-60 8 60,1-90 4 90,1-120 2 120,1-150 1 150,1-180 0 Свыше 180 3 Итого 50 Применение формулы Стерджесса не всегда дает хорошие результаты, что видно из приведенного в табл. 5.2 распределения, где почти половина единиц совокупности оказалась в первом интервале. При значительном разбросе значений можно получить приемлемое распределение, если брать не равные интервалы, а последовательно возрастающие. При этом сохраняется информация о единицах совокупности с «аномальными» значениями. В соответствии с вышесказанным образуем новые интервалы и подсчитаем численность объектов в каждом интервале абсолютно (т) и относительно (н'). Полученный интервальный вариационный ряд запишем в виде таблицы (графы А и 1, 2 табл. 5.3).
Для анализа структуры совокупности и расчета обобщающих характеристик дополним табл. 5.3 несколькими колонками (графами), в которых покажем такие элементы вариационного ряда, как середина интервала, накопленная частота и накопленная частость, плотность распределения.
Середину (центр) каждого интервала находят как полусумму нижнего и верхнего значений интервала (см.
графу 3 табл. 5.3). В на-10 + 12 „
шем примере центральные варианты будут такими: = 11;
12 + 15 _ . 15 + 20 _ .
— 13,5; — 17,5 и т.д. (Одна десятая в начале каждого интервала не учитывается, она указывает лишь на то, что интервал читается следующим образом: свыше нижнего значения интервала до верхнего включительно.) Группировка 50 крупнейших коммерческих банков России по величине активов на 1 июля 2003 г. Величина активов, млрд руб. Коли
чество
банков Се
ре
дина
ин
тер
вала
*/ х,т, Накоп
ленные Плот
ность
рас
преде
ления
XV.
у. — —~
1 А/ Доля активов групп банков в общей сумме активов ( \ х,т, 5>,я,
V ' 2 еди
ниц
т, % к итогу */ час
то
ты час
тос
ти
Р, х,т.
IV”,
/ нарас
таю
щим
итогом
ч, А 1 2 3 4 5 6 7 8 9 10 10,1-12 6 12 11 66 6 12 6 0,029 0,029 0,001 12,1-15 8 16 13,5 108 14 28 5,3 0,047 0,076 0,002 15,1-20 10 20 17,5 175 24 48 4 0,076 0,152 0,006 20,1-30 8 16 25 200 32 64 1,6 0,087 0,239 0,008 30,1-50 6 12 40 240 38 76 0,6 0,105 0,344 0,011 50,1-100 6 12 75 450 44 88 0,24 0,197 0,541 0,039 100,1-250 6 12 175 1050 50 100 0,08 0,459 1,000 0,210 Итого 50 100 2289 1,000 0,277 Что касается открытых интервалов, то длина первого интервала приравнивается условно к длине второго, а центральным вариантом последнего интервала обычно служит сумма его нижнего значения и половины предпоследнего интервала.
Любое распределение можно охарактеризовать с помощью накопленных частот. Накопленная частота показывает число единиц совокупности, у которых значение варианта не больше данного. Накопленная частота для данного варианта или для верхней границы данного интервала получается суммированием (накапливанием) частот всех предшествующих интервалов, включая данный (см. графу 5 табл. 5.3).
Если вместо абсолютных частот использовать частости, то аналогично получим накопленные частости (см. графу 6 табл. 5.3).
Ряд частостей обычно применяют, когда совокупность очень велика. Кроме того, они позволяют сравнивать распределения по одному и тому же признаку в разных по численности совокупностях. В графе 7 табл. 5.3 найдена относительная плотность распределения, которую используют для приведения частостей, относящихся к интервалам разной длины, к сопоставимому виду. Можно рассчитать как абсолютную, так и относительную плотность распределения. Абсолютная плотность распределения — этот.
частота, приходящаяся на единицу длины интервала, т.е. —, а относительная плотность распределения — частость, приходяща-
IV.
яся на единицу длины интервала, т.е. где й(. — длина /-го интервала. '
Плотность распределения используется в рядах с неравными интервалами для расчета такой характеристики, как мода (см. параграф 5.2), или для графического изображения вариационного ряда в виде гистограммы.
Графическое изображение вариационных рядов
Графически вариационный ряд можно изобразить, как и любой ряд значений аргумента и функции, используя прямоугольную систему координат и строя точки с координатами (дс,, т,), (х2, т2), (х , тп). Если затем последовательно соединить полученные точки отрезками прямой, а из первой и последней точки опустить перпендикуляры на ось х, получим замкнутую фигуру в виде многоугольника, которая называется полигоном и графически представляет распределение совокупности по признаку х. Полигон чаще используется для дискретных вариационных рядов. На рис. 5.1 представлен полигон распределения домашних хозяйств по числу их членов (см. табл. 5.1).
т,
Рис. 5.1. Полигон распределения
Интервальный вариационный ряд изображают в виде гистограммы. Для интервального ряда с равными интервалами на оси х откладывают отрезки, равные длине интервала. На этих отрезках, как на основаниях, строят прямоугольники, высота которых пропорциональна частоте или частости. Для интервального ряда с неравными интервалами на оси ординат отклады вают плотности распределения, так как в этом случае именно плотность дает представление о заполненности каждого интервала. На рис. 5.2 изображена гистограмма распределения банков по величине активов (см. табл. 5.3), построенная по относительной плотности распределения.
Рис. 5.2. Гистограмма
Площадь всей гистограммы численно равна сумме частот, или численности единиц в совокупности (если на оси ординат отложить частоты).
Любой вариационный ряд можно представить графически в виде кривой накопленных частот (или частостей). При этом на оси х откладывают варианты или верхние границы интервалов, а на оси у — соответствующие накопленные частоты (или частости). Полученные точки соединяют для непрерывного признака плавной кривой, которая называется кумулятивной кривой, или кумулятой. Если значения х (варианты) откладывать на оси у, а накопленные частоты (или частости) на оси х, то построенная на них кумулятивная кривая называется огивой.
На рис. 5.3 представлена кумулята распределения банков по величине активов (см. табл. 5.3). Кумулята имеет начальную точку на оси х с координатами (х0, 0), где х0 — нижняя граница первого интервала. Это означает, что в нашей совокупности нет ни одного банка с активами 10 млрд руб. и менее.
Рис. 5.3. Кумулятивная кривая
Ряд накопленных частот по сравнению с первоначальным рядом распределения обладает некоторыми преимуществами. Например, длина интервала для такого ряда имеет уже второстепенное значение.
Иногда при исследовании вариационных рядов нас интересует параллельное изменение нарастающих долей единиц совокупности и нарастающих долей значений признака в общем объеме. Такая задача возникает при изучении концентрации какого-либо признака в тех или иных группах совокупности. В этих случаях для анализа концентрации строят так называемую кривую Лоренца (рис. 5.4).
Рис. 5.4. График Лоренца
По оси абсцисс откладывают накопленные частости, характеризующие распределение единиц совокупности (р), по оси ординат — кумулятивные доли значений признака в общем объеме (д!). Так, на рис. 5.4 представлена кривая Лоренца распределения активов по крупнейшим банкам России (см. графы 6 и 9 табл. 5.3).
Еще по теме 5.1. Построение и графическое изображение вариационных рядов:
- 9.2. Неформальные коллективы (группы)
- Словарь терминов
- 3.3. Ряды распределения Сущность и виды рядов распределения
- 7.4. Графическое изображение рядов динамики Диаграммы
- План практических занятий по теме
- 6.2. ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ РЯДОВ РАСПРЕДЕЛЕНИЯ
- 6.3. ОСНОВНЫЕ ХАРАКТЕРИСТИКИ ВАРИАЦИОННОГО РЯДА
- 10.1. ВИДЫ РЯДОВ ДИНАМИКИ, ИХ ПОСТРОЕНИЕ, ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ
- 10.4. ВЫЯВЛЕНИЕ ОСНОВНОЙ ТЕНДЕНЦИИ РАЗВИТИЯ ОБЩЕСТВЕННЫХ ЯВЛЕНИИ (СГЛАЖИВАНИЕ И ВЫРАВНИВАНИЕ РЯДОВ ДИНАМИКИ)
- Глава 5 АНАЛИЗ ВАРИАЦИОННЫХ РЯДОВ
- 5.1. Построение и графическое изображение вариационных рядов
- 5.2. Основные показатели среднего уровня вариационного ряда
- 5.7. Теоретические кривые распределения
- Понятие о рядах динамики. Их виды