<<
>>

7.2.2. Метод группировок

При большом числе наблюдений для выявления корреляционной связи между двумя количественными показателями хи у удобнее пользоваться методом группировок.

Чтобы выявить наличие корреляционной связи между двумя признаками, проводится группировка единиц совокупности по факторному признаку х и для каждой выделенной группы рассчитывается среднее значение результативного признака у •.

Если результативный признак у зависит от факторного х, то в изменении среднего значения результативного признака у . будет прослеживаться определенная закономерность.

Примером такой группировки могут служить данные об издержках обращения предприятий оптовой торговли с различным товарооборотом (табл. 7.2). Распределение уровня издержек обращения по группам предприятий оптовой торговли в апреле 1995 г. Оптовый товарооборот, млн руб. Количество

предприятий Издержки обращения,

% к оптовому товарообороту Менее 25 9362 46,0 26-50 3633 26,5 51-100 3618 24,4 101-200 3261 23,0 201-500 3034 17,6 Более 500 3100 16,9 Источник: Российский статистический ежегодник. 1996.

В последней графе табл. 7.2 приведены средние величины, рассчитанные на основе индивидуальных данных об издержках отдельных предприятий каждой группы.

Данные таблицы свидетельствуют о снижении среднего показателя издержек обращения от группы к группе, т.е. чем крупнее предприятия оптовой торговли (по объему товарооборота), тем меньше издержки обращения.

Таким образом, с помощью простой аналитической группировки можно выявить наличие зависимости между рассматриваемыми показателями: объемом товарооборота как показателем размера предприятий и средним уровнем издержек обращения.

Результаты группировки единиц совокупности могут быть оформлены и по-иному, в виде таблицы, в которой приведено комбинационное распределение единиц совокупности по двум признакам.

Такие таблицы называют таблицами взаимной сопряженности.

Если в таблице оба признака, по которым дано распределение единиц совокупности, количественные, то такая таблица взаимной сопряженности называется корреляционной.

Корреляционная таблица строится по типу «шахматной», т.е. в подлежащем таблицы выделяются группы по факторному признаку х, в сказуемом — по результативному у или наоборот, а в клетках таблицы на пересечении х и у показано число случаев совпадения каждого значения х с соответствующим значением у. Общий вид такой таблицы показан на условном распределении 40 единиц по признакам х и у (табл. 7.3). (В качестве х может рассматриваться, например, стаж работы (число лет), а в качестве у — производительность труда (число изделий, вырабатываемых в час одним рабочим), п = 40 — число рабочих.) Значение

признака Значение

3 признака Итого

(число

единиц)

/ =/ •'Х Jj Среднее значение по группам

У.) */ 5 10 15 20 1 1 3 — — 4 8,75 3 2 3 7 - 12 12,08 5 — 3 9 4 16 15,31 7 — — 5 3 8 16,87 Итого (число единиц)

/ =/•

•}у •)1 3 9 21 7 М

1!

о 14,00 В первой строке значению факторного признака х = 1 один раз соответствует значение у = 5 и три раза у = 10. Аналогично во второй строке, где х = 3, два раза этому значению соответствует у = 5, три раза у = 10 и семь раз у = 15 и т.д.

В итоговой строке показано распределение всех 40 единиц по признаку у, поэтому и частоты обозначены как / (иногда их обозначают ту). В итоговой графе (столбце) показано распределение тех же 40 единиц, но по признаку х — отсюда и обозначение частот/^ (или тх). Каждая частота внутри таблицы — это/ (или т ). Если х считать факторным признаком, то для каждого У-го значения х по строке можно рассчитать среднее значение результативного признака, т.е. у у.

Так, по первой строке ух = (5 • 1 + 10-3)/4 = 8,75; по второй строке у2 = (5-2 + 10-3 + 15 ? 7)/12 = 12,08; по третьей строке У3 = (10-3 + 15-9 + 20 ? 4)/16 = 15,31 и т.д. Это групповые средние результативного признака.

Они приведены в последней графе табл. 7.3. О б щ у ю же среднюю для результативного показателя получим по распределению итоговой строки: -

= Е-У'Л = 5-3 + 10-9 + 15-21 + 20-7 560 ^ 1ГУ 40 40

Как видно из таблицы, по мере увеличения значений х групповые средние значений у, т.е. у у, тоже увеличиваются от группы к группе, что позволяет сделать вывод о том, что между X и у существует корреляционная связь.

О наличии и направлении связи можно судить и по «внешнему виду» таблицы, т.е. по расположению в ней частот.

Так, если числа (частоты) расположены (разбросаны) в клетках таблицы беспорядочно, то это чаще всего свидетельствует либо об отсутствии связи между группировочными признаками, либо о их незначительной зависимости.

Если же частоты сконцентрированы ближе к одной из диагоналей и центру таблицы, образуя своего рода эллипс, то это почти всегда свидетельствует о наличии зависимости между х и у, близкой к линейной. Расположение по диагонали из верхнего левого угла в нижний правый свидетельствует о прямой линейной зависимости между показателями х и у, а из нижнего левого угла в верхний правый — об обратной.

Анализируя характер распределения частот в табл. 7.3, можно сделать вывод, что между показателями х и у существует прямая линейная зависимость.

Примером обратной зависимости может служить распределение, характеризующее зависимость между себестоимостью зерна и урожайностью зерновых по условным данным 80 хозяйств (табл. 7.4).

Таблица 7.4

Распределение 80 хозяйств по урожайности зерновых х и себестоимости 1 ц зерна у Урожайность

зерновых,

ц/га

XJ Себестоимость 1 ц зерна, руб.

У, Итого

(число

хозяйств)

/ =/?

Jx. Jj Средняя себестоимость 1 ц зерна по группам (строчкам), руб.

Ь /-ч ^

о II О

т

J>11 2 ^ О un

'S) г*

J> «

- -Ъ о _

V § "

?Л Tf А 1 2 3 4 5 6 До 15 — — — 2 2 155,0 15-17 — 1 2 3 6 148,3 17-19 — — 7 1 8 146,2 19-21 — 8 8 — 16 140,0 21-23 2 20 12 — 34 137,9 23-25 1 8 1 — 10 135,0 Свыше 25 3 1 — — 4 127,5 Итого

(число

хозяйств)

/ = /?

Jy J, 6 38 30 6 М

v-,

II

С©

О У = 139,5 В данной таблице каждому значению (интервалу значений) признака х соответствует ряд значений у и частоты расположены в форме эллипса, поэтому можно предположить, что распределение в таблице не случайно, что между х и у существует стохастическая связь.

Однако наличие стохастической связи еще не означает наличие корреляционной связи. Последняя, напомним, проявляется только в изменении среднего значения результативного признака при изменении значений факторного признака.

В нашем примере средние значения себестоимости 1 ц зерна (см. графу 6 в табл. 7.4) снижаются от группы к группе, т.е. чем выше урожайность зерновых, тем ниже себестоимость.

Следовательно, между х и у существует обратная корреляционная зависимость.

Таким образом, наличие корреляционной связи одновременно означает наличие стохастической связи. Вместе с тем при наличии стохастической связи корреляционная связь может и отсутствовать, если групповые средние результативного признака в силу определенных причин окажутся одинаковыми.

При построении эмпирической линии регрессии по данным корреляционной таблицы в качестве х принимаются значения середины интервалов факторного признака, а в качестве у — групповые средние результативного показателя, т.е. у ?. Воспользовавшись данными табл. 7.4, получим эмпирическую линию регрессии, приведенную на рис. 7.2. График наглядно иллюстрирует снижение себестоимости зерна по мере увеличения урожайности.

У 160

% 150

° о- 140

й « ю *

Ь & 130

ее "

К Я

120

и о,

О

13 15 17 19 21 23 25 27 Урожайность, ц/га

Рис. 7.2. Эмпирическая линия регрессии у по х

Когда взаимосвязанные показатели х и у представлены, как в нашем примере, в корреляционной таблице, предпочтительнее на графике по исходным данным строить «корреляционное поле», а затем на его фоне по средним значениям у — эмпирическую линию регрессии.

Корреляционное поле представляет, по существу, ту же корреляционную таблицу, в клетках которой вместо чисел (частот) проставлено соответствующее число точек (рис. 7.3).

Рис. 7.3. Корреляционное поле и линия средних значений у.

Корреляционное поле отражает не только общую зависимость между х и у, но и концентрацию индивидуальных точек вокруг линии регрессии показателя у -г

На основе аналитических группировок и корреляционных таблиц можно не только выявить наличие зависимости между двумя коррелируемыми показателями, но и измерить тесноту этой связи, в частности, с помощью эмпирического корреляционного отношения (см.

параграф 5.4)

- М- <7-2> V

У

Здесь 52 и а2 соответственно межгрупповая и общая дисперсии результативного признака, рассчитываемые как

2_^{УІ-У)2ГІ 2 _ Ъ(у> -у)2/‘

5 “ х/у и а"' х/ ’

где /я — число групп по факторному признаку х;

& — число групп по результативному признаку у; у ? — средние значения результативного признака по группам;

у — общее среднее значение результативного признака; уі — индивидуальные значения результативного признака; / = / — частота в у'-й группе х;

/. = / — частота в й группе у.

Напомним, что квадрат эмпирического корреляционного от- 2

З2

ношения, т.е. Г|эмп = ~у> именуется эмпирическим коэффициен-

том детерминации.

В нашем примере (см. табл. 7.4)

Хл/, 125-6 + 135-38 + 145-30 + 155-6

У = Ж ' 80 = ШД

Отсюда межгрупповая дисперсия

^ ~ у)2/у _ і

(155 - 139,5)2 • 2 + (148,3 - 139,5)2 • 6 +

Х/у 80

+ (146,2 - 139,5)2 • 8 + (140 - 139,5)2 • 16 + (137,9 - 139,5)2 • 34

= 27,78.

+ (135 - 139,5)2 • 10 + (127,5 - 139,5)2 • 4

Общую дисперсию результативного признака рассчитаем по формуле

\2

_ х(у,- - У] /,

^.2 _2

X /?

(125-139,5)2 -6+(135-139,5)2-38+(145 —139,5)2-30+(155 —139,5)2 -6 _

80

= 54,75. (У2у = У2 - (У)2 = 19515 - 139,52 = 54,75,

предварительно рассчитав значения у2:

~ ИУ]/> 1252 • 6 + 1352 -38 + 1452 -30 + 1552 -6

' = -Ц- “ §0 ’ |95‘5'

5^_ = 27,78 а2 54,75

Отсюда эмпирический коэффициент детерминации по данным группировки, приведенной в табл. 7.4,

Лзмп = Т7 = 7Г^7 = °-5074-

у

Извлекая квадратный корень из значения коэффициента детерминации, получаем значение эмпирического корреляционного отношения:

Пэмп = -/0^074 = -0,71

(учитывая, что связь между х и у обратная, значение т] взято со знаком «—»).

Полученное значение т| = —0,71 характеризует тесноту связи выше средней, поэтому можно сделать вывод о наличии существенной обратной связи между урожайностью и себестоимостью зерна.

<< | >>
Источник: Г.Л. Громыко. Теория статистики: Учебник. — Т11 2-е изд., перераб. и доп. - М.: ИНФРА-М,. - 476 с. — (Классический университетский учебник)., . 2005

Еще по теме 7.2.2. Метод группировок:

  1. 1.1. Экономика предприятия в ИГиТ- предмет изучения
  2. 2.2. МЕТОДЫ АНАЛИЗА СТЕПЕНИ РИСКА
  3. 5.2.3 Разработка стратегии позиционирования
  4. Английская научная школа политических арифметиков
  5. Становление русской статистической научной школы
  6. 1.5. Стадии и методы статистического исследования Последовательность статистического исследования
  7. 1.4. Основы методологии статистики рынка
  8. 3.6. Методы расчета и анализа колеблемости и соотношений цен
  9. 5.5. Методы анализа состояния и изменения товарных запасов
  10. 1.3. МЕТОД СТАТИСТИКИ
  11. ГЛАВА 3. МЕТОД ГРУППИРОВОК
  12. 3.1. ГРУППИРОВКА —ОСНОВА НАУЧНОЙ ОБРАБОТКИ СТАТИСТИЧЕСКИХ ДАННЫХ
  13. 3.2. ОСНОВНЫЕ ЗАДАЧИ НАУЧНОГО ИССЛЕДОВАНИЯ, РЕШАЕМЫЕ С ПОМОЩЬЮ ГРУППИРОВОК
  14. 3.4. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ТИПОВ ЯВЛЕНИЙ И ВЫБОР ПРИЗНАКОВ
  15. Глава 3 СВОДКА И ГРУППИРОВКА СТАТИСТИЧЕСКИХ ДАННЫХ
  16. 7.2.2. Метод группировок
  17. 7.3. Показатели тесноты связи между двумя качественными признаками
  18. 5.2.3 Разработка стратегии позиционирования
  19. §4. Метод общей теории права