7.2.2. Метод группировок
При большом числе наблюдений для выявления корреляционной связи между двумя количественными показателями хи у удобнее пользоваться методом группировок.
Чтобы выявить наличие корреляционной связи между двумя признаками, проводится группировка единиц совокупности по факторному признаку х и для каждой выделенной группы рассчитывается среднее значение результативного признака у •.
Если результативный признак у зависит от факторного х, то в изменении среднего значения результативного признака у . будет прослеживаться определенная закономерность.Примером такой группировки могут служить данные об издержках обращения предприятий оптовой торговли с различным товарооборотом (табл. 7.2). Распределение уровня издержек обращения по группам предприятий оптовой торговли в апреле 1995 г. Оптовый товарооборот, млн руб. Количество
предприятий Издержки обращения,
% к оптовому товарообороту Менее 25 9362 46,0 26-50 3633 26,5 51-100 3618 24,4 101-200 3261 23,0 201-500 3034 17,6 Более 500 3100 16,9 Источник: Российский статистический ежегодник. 1996.
В последней графе табл. 7.2 приведены средние величины, рассчитанные на основе индивидуальных данных об издержках отдельных предприятий каждой группы.
Данные таблицы свидетельствуют о снижении среднего показателя издержек обращения от группы к группе, т.е. чем крупнее предприятия оптовой торговли (по объему товарооборота), тем меньше издержки обращения.
Таким образом, с помощью простой аналитической группировки можно выявить наличие зависимости между рассматриваемыми показателями: объемом товарооборота как показателем размера предприятий и средним уровнем издержек обращения.
Результаты группировки единиц совокупности могут быть оформлены и по-иному, в виде таблицы, в которой приведено комбинационное распределение единиц совокупности по двум признакам.
Такие таблицы называют таблицами взаимной сопряженности.Если в таблице оба признака, по которым дано распределение единиц совокупности, количественные, то такая таблица взаимной сопряженности называется корреляционной.
Корреляционная таблица строится по типу «шахматной», т.е. в подлежащем таблицы выделяются группы по факторному признаку х, в сказуемом — по результативному у или наоборот, а в клетках таблицы на пересечении х и у показано число случаев совпадения каждого значения х с соответствующим значением у. Общий вид такой таблицы показан на условном распределении 40 единиц по признакам х и у (табл. 7.3). (В качестве х может рассматриваться, например, стаж работы (число лет), а в качестве у — производительность труда (число изделий, вырабатываемых в час одним рабочим), п = 40 — число рабочих.) Значение
признака Значение
3 признака Итого
(число
единиц)
/ =/ •'Х Jj Среднее значение по группам
У.) */ 5 10 15 20 1 1 3 — — 4 8,75 3 2 3 7 - 12 12,08 5 — 3 9 4 16 15,31 7 — — 5 3 8 16,87 Итого (число единиц)
/ =/•
•}у •)1 3 9 21 7 М
1!
о 14,00 В первой строке значению факторного признака х = 1 один раз соответствует значение у = 5 и три раза у = 10. Аналогично во второй строке, где х = 3, два раза этому значению соответствует у = 5, три раза у = 10 и семь раз у = 15 и т.д.
В итоговой строке показано распределение всех 40 единиц по признаку у, поэтому и частоты обозначены как / (иногда их обозначают ту). В итоговой графе (столбце) показано распределение тех же 40 единиц, но по признаку х — отсюда и обозначение частот/^ (или тх). Каждая частота внутри таблицы — это/ (или т ). Если х считать факторным признаком, то для каждого У-го значения х по строке можно рассчитать среднее значение результативного признака, т.е. у у.
Так, по первой строке ух = (5 • 1 + 10-3)/4 = 8,75; по второй строке у2 = (5-2 + 10-3 + 15 ? 7)/12 = 12,08; по третьей строке У3 = (10-3 + 15-9 + 20 ? 4)/16 = 15,31 и т.д. Это групповые средние результативного признака.
Они приведены в последней графе табл. 7.3. О б щ у ю же среднюю для результативного показателя получим по распределению итоговой строки: -= Е-У'Л = 5-3 + 10-9 + 15-21 + 20-7 560 ^ 1ГУ 40 40
Как видно из таблицы, по мере увеличения значений х групповые средние значений у, т.е. у у, тоже увеличиваются от группы к группе, что позволяет сделать вывод о том, что между X и у существует корреляционная связь.
О наличии и направлении связи можно судить и по «внешнему виду» таблицы, т.е. по расположению в ней частот.
Так, если числа (частоты) расположены (разбросаны) в клетках таблицы беспорядочно, то это чаще всего свидетельствует либо об отсутствии связи между группировочными признаками, либо о их незначительной зависимости.
Если же частоты сконцентрированы ближе к одной из диагоналей и центру таблицы, образуя своего рода эллипс, то это почти всегда свидетельствует о наличии зависимости между х и у, близкой к линейной. Расположение по диагонали из верхнего левого угла в нижний правый свидетельствует о прямой линейной зависимости между показателями х и у, а из нижнего левого угла в верхний правый — об обратной.
Анализируя характер распределения частот в табл. 7.3, можно сделать вывод, что между показателями х и у существует прямая линейная зависимость.
Примером обратной зависимости может служить распределение, характеризующее зависимость между себестоимостью зерна и урожайностью зерновых по условным данным 80 хозяйств (табл. 7.4).
Таблица 7.4
Распределение 80 хозяйств по урожайности зерновых х и себестоимости 1 ц зерна у Урожайность
зерновых,
ц/га
XJ Себестоимость 1 ц зерна, руб.
У, Итого
(число
хозяйств)
/ =/?
Jx. Jj Средняя себестоимость 1 ц зерна по группам (строчкам), руб.
Ь /-ч ^
о II О
т
J>11 2 ^ О un
'S) г*
J> «
- -Ъ о _
'Л
V § "
?Л Tf А 1 2 3 4 5 6 До 15 — — — 2 2 155,0 15-17 — 1 2 3 6 148,3 17-19 — — 7 1 8 146,2 19-21 — 8 8 — 16 140,0 21-23 2 20 12 — 34 137,9 23-25 1 8 1 — 10 135,0 Свыше 25 3 1 — — 4 127,5 Итого
(число
хозяйств)
/ = /?
Jy J, 6 38 30 6 М
v-,
II
С©
О У = 139,5 В данной таблице каждому значению (интервалу значений) признака х соответствует ряд значений у и частоты расположены в форме эллипса, поэтому можно предположить, что распределение в таблице не случайно, что между х и у существует стохастическая связь.
Однако наличие стохастической связи еще не означает наличие корреляционной связи. Последняя, напомним, проявляется только в изменении среднего значения результативного признака при изменении значений факторного признака.В нашем примере средние значения себестоимости 1 ц зерна (см. графу 6 в табл. 7.4) снижаются от группы к группе, т.е. чем выше урожайность зерновых, тем ниже себестоимость.
Следовательно, между х и у существует обратная корреляционная зависимость.
Таким образом, наличие корреляционной связи одновременно означает наличие стохастической связи. Вместе с тем при наличии стохастической связи корреляционная связь может и отсутствовать, если групповые средние результативного признака в силу определенных причин окажутся одинаковыми.
При построении эмпирической линии регрессии по данным корреляционной таблицы в качестве х принимаются значения середины интервалов факторного признака, а в качестве у — групповые средние результативного показателя, т.е. у ?. Воспользовавшись данными табл. 7.4, получим эмпирическую линию регрессии, приведенную на рис. 7.2. График наглядно иллюстрирует снижение себестоимости зерна по мере увеличения урожайности.
У 160
% 150
° о- 140
й « ю *
Ь & 130
ее "
К Я
120
и о,
О
13 15 17 19 21 23 25 27 Урожайность, ц/га
Рис. 7.2. Эмпирическая линия регрессии у по х
Когда взаимосвязанные показатели х и у представлены, как в нашем примере, в корреляционной таблице, предпочтительнее на графике по исходным данным строить «корреляционное поле», а затем на его фоне по средним значениям у — эмпирическую линию регрессии.
Корреляционное поле представляет, по существу, ту же корреляционную таблицу, в клетках которой вместо чисел (частот) проставлено соответствующее число точек (рис. 7.3).
Рис. 7.3. Корреляционное поле и линия средних значений у.
Корреляционное поле отражает не только общую зависимость между х и у, но и концентрацию индивидуальных точек вокруг линии регрессии показателя у -г
На основе аналитических группировок и корреляционных таблиц можно не только выявить наличие зависимости между двумя коррелируемыми показателями, но и измерить тесноту этой связи, в частности, с помощью эмпирического корреляционного отношения (см.
параграф 5.4)- М- <7-2> V
У
Здесь 52 и а2 соответственно межгрупповая и общая дисперсии результативного признака, рассчитываемые как
2_^{УІ-У)2ГІ 2 _ Ъ(у> -у)2/‘
5 “ х/у и а"' х/ ’
где /я — число групп по факторному признаку х;
& — число групп по результативному признаку у; у ? — средние значения результативного признака по группам;
у — общее среднее значение результативного признака; уі — индивидуальные значения результативного признака; / = / — частота в у'-й группе х;
/. = / — частота в й группе у.
Напомним, что квадрат эмпирического корреляционного от- 2
З2
ношения, т.е. Г|эмп = ~у> именуется эмпирическим коэффициен-
том детерминации.
В нашем примере (см. табл. 7.4)
Хл/, 125-6 + 135-38 + 145-30 + 155-6
У = Ж ' 80 = ШД
Отсюда межгрупповая дисперсия
^ ~ у)2/у _ і
(155 - 139,5)2 • 2 + (148,3 - 139,5)2 • 6 +
Х/у 80
+ (146,2 - 139,5)2 • 8 + (140 - 139,5)2 • 16 + (137,9 - 139,5)2 • 34
= 27,78.
+ (135 - 139,5)2 • 10 + (127,5 - 139,5)2 • 4
Общую дисперсию результативного признака рассчитаем по формуле
\2
_ х(у,- - У] /,
^.2 _2
X /?
(125-139,5)2 -6+(135-139,5)2-38+(145 —139,5)2-30+(155 —139,5)2 -6 _
80
= 54,75. (У2у = У2 - (У)2 = 19515 - 139,52 = 54,75,
предварительно рассчитав значения у2:
~ ИУ]/> 1252 • 6 + 1352 -38 + 1452 -30 + 1552 -6
' = -Ц- “ §0 ’ |95‘5'
5^_ = 27,78 а2 54,75
Отсюда эмпирический коэффициент детерминации по данным группировки, приведенной в табл. 7.4,
Лзмп = Т7 = 7Г^7 = °-5074-
у
Извлекая квадратный корень из значения коэффициента детерминации, получаем значение эмпирического корреляционного отношения:
Пэмп = -/0^074 = -0,71
(учитывая, что связь между х и у обратная, значение т] взято со знаком «—»).
Полученное значение т| = —0,71 характеризует тесноту связи выше средней, поэтому можно сделать вывод о наличии существенной обратной связи между урожайностью и себестоимостью зерна.
Еще по теме 7.2.2. Метод группировок:
- 1.1. Экономика предприятия в ИГиТ- предмет изучения
- 2.2. МЕТОДЫ АНАЛИЗА СТЕПЕНИ РИСКА
- 5.2.3 Разработка стратегии позиционирования
- Английская научная школа политических арифметиков
- Становление русской статистической научной школы
- 1.5. Стадии и методы статистического исследования Последовательность статистического исследования
- 1.4. Основы методологии статистики рынка
- 3.6. Методы расчета и анализа колеблемости и соотношений цен
- 5.5. Методы анализа состояния и изменения товарных запасов
- 1.3. МЕТОД СТАТИСТИКИ
- ГЛАВА 3. МЕТОД ГРУППИРОВОК
- 3.1. ГРУППИРОВКА —ОСНОВА НАУЧНОЙ ОБРАБОТКИ СТАТИСТИЧЕСКИХ ДАННЫХ
- 3.2. ОСНОВНЫЕ ЗАДАЧИ НАУЧНОГО ИССЛЕДОВАНИЯ, РЕШАЕМЫЕ С ПОМОЩЬЮ ГРУППИРОВОК
- 3.4. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ТИПОВ ЯВЛЕНИЙ И ВЫБОР ПРИЗНАКОВ
- Глава 3 СВОДКА И ГРУППИРОВКА СТАТИСТИЧЕСКИХ ДАННЫХ
- 7.2.2. Метод группировок
- 7.3. Показатели тесноты связи между двумя качественными признаками
- 5.2.3 Разработка стратегии позиционирования
- §4. Метод общей теории права