7.2.3. Изучение связи между качественными признаками на основе таблиц сопряженности
Построение таблиц, в которых дается комбинационное распределение единиц совокупности по двум признакам, применимо не только к количественным, но и к неколичественным, т.е.
качественным, или атрибутивным, признакам (пол, образование, семейное положение, профессия, форма собственности, вид заболеваний, вид преступлений и т.п.).Качественные признаки, взаимосвязи между ними, их влияние на другие показатели (в том числе и количественные) особенно часто приходится изучать при проведении различных социологических исследований путем опроса или анкетирования.
В таких случаях о зависимости между теми или иными показателями (признаками) судят по комбинационному распределению единиц совокупности (респондентов) по двум изучаемым признакам. Это комбинационное распределение обычно оформляется в виде таблиц сопряженности. Последние могут иметь разную размерность.
Простейшая форма таблицы взаимной сопряженности — таблица «четырех полей» (четырехклеточная). В ней по каждому признаку выделяется только две группы, чаще всего по альтернативному принципу («да» — «нет», «хорошо» — «плохо» и т.д.). Примером такой таблицы служит табл. 7.5, в которой приведены условные данные о распределении 500 опрошенных человек по двум показателям: наличие (отсутствие) у них прививки против гриппа и факт заболевания (незаболевания) гриппом во время его эпидемии.
Таблица 7.5
Таблица «четырех полей» Число лиц Группа лиц заболевших
гриппом не заболевших гриппом Итого Сделавших прививку 30 (а) 270 (Ь) 300 Не сделавших прививку 120 (с) 80 (сГ) 200 Итого 150 350 500 Нетрудно заметить, что среди сделавших прививку подавляющее большинство (270 из 300, или 90%) не заболели гриппом, а среди не сделавших большая часть заболела (120 из 200, или 60%). Таким образом, можно предположить, что прививка положительно влияет на предупреждение заболевания; другими словами, можно предположить, что распределение в таблице (а, Ь, с, (I) не случайно и существует стохастическая зависимость между груп- пировочными признаками.
Однако выводы о зависимости, сделанные на глаз, часто могут быть ненадежными, ошибочными.
Суждение о зависимости должно подкрепляться определенными статистическими критериями, например критерием Пирсона %2. Он позволяет судить о случайности (или неслучайности) распределения в таблицах взаимной сопряженности, а следовательно, и об отсутствии или наличии зависимости между признаками группировки в таблице. Чтобы воспользоваться критерием Пирсона %2, в таблице взаимной сопряженности наряду с эмпирическими частотами (или частостями) записывают теоретические (гипотетические) частоты, рассчитываемые исходя из так называемой нулевой гипотезы, т.е. предположения о том, что распределение внутри таблицы случайно и, следовательно, зависимость между признаками группировки отсутствует.Следует иметь в виду, что при случайном распределении распределение частот в каждой строке (или графе) таблицы соответствует (пропорционально) распределению частот в итоговой строке (или графе). Поэтому теоретические частоты (частости) по строкам (или графам) рассчитывают пропорционально распределению единиц в итоговой строке (или графе).
Так, например, в табл. 7.5 в итоговой строке число заболевших гриппом составило 150 из 500, т.е. их доля — 0,3, а доля не заболевших — соответственно 0,7. Следовательно, теоретические частоты в первой строке для заболевших составят 0,3 от 300 (итог первой строки), т.е. 0,3 ? 300 = 90, а для не заболевших 0,7 от 300, т.е. 0,7 • 300 = 210. Соответственно, по второй строке: для заболевших 0,3 • 200 = 60, а для не заболевших 0,7 • 200 = 140.
Перепишем табл. 7.5 еще раз в упрощенном виде с эмпирическими и теоретическими (в скобках) частотами: Группа I
(да) II
(нет) ? I (да) 30 (90) 270 (210) 300 II (нет) 120 (60) 80 (140) 200 150 350 500 На сопоставлении эмпирических и теоретических частот и основан критерий Пирсона %2, рассчитываемый по одной из формул:
х2 = 11{/° или Х2=и4--^ (7-3)
j і
п ji fij
где f.j и ffj — соответственно эмпирические и теоретические частоты по группам (иногда эти частоты обозначают как т,у и /я'., но разная символика не меняет сути);
N = 'Ysfjj — общее число единиц совокупности.
Вторая формула (7.3) непосредственно выведена из первой.
Рассчитаем у} для данных табл.
7.5 (см. таблицу выше).Рассчитаем у} для данны?
По первой формуле (7.3)
(/?-• - f’?
%2 =
(30 - 90) + (270 - 210) + (120 - 60) + (80 - 140)" =
90 210 60 140 ’ ' х2=11тг-^ =
- 500 = 142,85.
f2 (ол2 т-7а2 і ->п2 ог\2 ^
'и
Ж 270 120 80 90 210 60 140 Рассчитанное (фактическое) значение %2 сопоставим с табличным (критическим, пороговым), определяемым по таблице Приложения 4 для заданного уровня значимости а (обычно а принимают равным 0,05 или 0,01) и числа степеней свободы V = (к] — 1 )(к2 — 1), где к{ и к2 — число групп по одному и второму признакам группировки или, что то же самое, число строк и число граф в таблице.
В рассматриваемом примере V = (2 — 1)(2 — 1) = 1. Приняв уровень значимости а = 0,05, по таблице Приложения 4 находим у2 = 3 84
Лтабл
Поскольку рассчитанное нами Хфакт > %табл> то выдвинутая нулевая гипотеза о случайном распределении отвергается, т.е. распределение не случайно, значит, существует стохастическая зависимость между такими показателями, как наличие (отсутствие) прививки и заболевание гриппом.
При независимости признаков частоты теоретического и эмпирического распределений совпадают, т.е. их разность (/^. — //.) и %2 равны нулю. Чем больше различия между теоретическими и эмпирическими частотами, тем больше значение %2 и вероятность того, что оно превысит критическое табличное значение, допустимое для случайных расхождений при принятии нулевой гипотезы.
Аналогично рассчитываются теоретические частоты и %2 в таблицах большей размерности, как, например, в табл. 7.6, где приведено распределение 200 опрошенных по двум признакам: сфере их деятельности и степени удовлетворенности оплатой своего труда. По каждому признаку выделено по три группы, т.е. это таблица размерности 3x3. Теоретические частоты в каждой строке рассчитаны пропорционально итоговой строке, т.е. в соотношении 0,35, 0,33 и 0,32.
Такую таблицу трудно проанализировать на глаз, хотя видно, что в бюджетных НИИ и на государственных предприятиях большинство работающих не удовлетворено оплатой своего труда, а в коммерческих структурах, наоборот, большинство довольно, т.е.
распределение свидетельствует о наличии стохастической связи. Чтобы подтвердить или опровергнуть этот факт, воспользуемся критерием %2. Сфера Численность работников, давших ответ на вопрос об удовлетворенности оплатой своего труда деятельности Совсем не удовлетворен Не совсем удовлетворен Полностьюудовле
творен Итого
(работ
ников) Бюджетные НИИ 22 (17,5) 20 (16,5) 8 (16) 50 Государственные
предприятия 36 (28) 30 (26,4) 14 (25,6) 80 Коммерческие
структуры 12 (24,5) 16 (23,1) 42 (22,4) 70 Итого
(работников) 70 66 64 200 Доля работников 0,35 0,33 0,32 1,00 Для табл. 7.6 расчет %2 (с целью установить, существует ли связь между ответами 200 опрошенных человек на вопрос об удовлетворенности оплатой труда и сферой их деятельности) проводится аналогично: 2
(22 - 17,5)2 , (20 - 16,5)2 , (8 - 16)2 , (36 - 28)2 , V
= + + + +
Л 17,5 16,5 16 28
+ (30 - 26,4)2 + (14 - 25,6)2 + (12 - 24,5)2 + (16 - 23,1)2 ^
26,4 25,6 24,5 23,1
Число степеней свободы для табл. 7.6, где три строки и три графы, V = (3 — 1)(3 — 1) = 4. Приняв уровень значимости ос = 0,05, по таблице Приложения 4 для V = 4 определим %2абл = 9,49. Так
как Хфакт > %табл’ ТО’ КаК И В Предыдущем Примере, ЭТО ПОДТВерЖ- дает наличие зависимости между рассмотренными показателями.
Порой для расчета %2 удобно пользоваться не абсолютными частотами или соответствующими им частостями, сумма которых по таблице в целом равна 1, а частостями, вычисленными для каждой строки отдельно, т.е. дающими в сумме единицу по каждой строке в отдельности. Частости, рассчитанные по каждой строке в отдельности, называют условными, а рассчитанные по итоговой строке - безусловными. Эти частости сопоставляют и выносят суждение о наличии или отсутствии связи между признаками группировки.
При случайном распределении (т.е. отсутствии связи) условные частости (по каждой строке) совпадают по значению с безусловными частостями (по итоговой строке). И чем больше расхождения условных частостей от безусловных, тем больше связь (зависимость) между признаками группировки.
Если обозначить частость у'-й графы условного распределения по /-й строке через и^., а частость этой графы в итоговой строке (безусловного распределения) через V/., то для условного распределения по каждой строке %) рассчитывается по формуле
г) = ~*у) , (7.4)
;
а для совокупности в целом %2 рассчитывается как сумма %/ п0 всем строкам, т.е.
х2 =1х?-
/
Рассмотрим этот способ расчета %2 на примере табл.
7.6, для чего воспроизведем ее еще раз (в виде табл. 7.7), записав в ней рассчитанные по каждой строке частости условных распределений и в итоговой строке — частости безусловного распределения.Таблица 7.7 Сфера
деятельности Численность работников, давших ответ на вопрос об удовлетворенности оплатой своего труда (в долях к итогу по строке) Совсем не удовлетворен Не совсем удовлетворен Полностью
удовле
творен Итого Бюджетные НИИ 0,440 0,400 0,160 1,000 Государственные
предприятия 0,450 0,375 0,175 1,000 Коммерческие
структуры 0,170 0,230 0,600 1,000 Итого 0,350 0,330 0,320 1,000 Как видно из табл. 7.7, частости условных распределений (по строкам) не совпадают с частостями безусловного распределения (по итоговой строке), т.е. это распределение вряд ли можно считать случайным. Проверим это по значению %2. Для первой строки X,
2 -/,1
(0,44 - 0,35)2 , (0,4 - 0,33)2 (0,16 - 0,32)2 4
= 50
= 5,9.
+
+
0,35
Для второй строки
0,33
0,32
(0,45 - 0,35) (0,375 - 0,33)2
(0,175 - 0,32) 0,32
= 80
0,35
ч
И для третьей строки
0,33
^(0,17 - 0,35)2_ (0,23 - 0,33)2
(0,6 - 0,32) 0,32
Хз = 70
= 25,7.
+
0,35 0,33
х /
В целом же для всей совокупности
х2 = Ех2 = 5,9 + 8 + 25,7 = 39,6,
/
т.е. то же значение %2, что и ранее (по абсолютным частотам). Соответственно, выводы о характере распределения остаются теми же. Находим %2абл:
Х?абл = 9’49 (ПРИ V = 4 и а = 0,05).
Так как фактическое х2 (39,6) больше табличного (Хфакт > Х2абЛ)’ то гипотеза о случайном распределении в табл. 7.6 отвергается. Следовательно, с вероятностью 0,95 (1 — а) можно утверждать, что зависимость между рассматриваемыми признаками группировки существует.
В корреляционном анализе недостаточно лишь выявить теми или иными методами наличие связи между исследуемыми показателями. Теснота такой связи может быть различной, поэтому весьма важно ее измерить, т.е. определить меру связи в каждом конкретном случае.
В статистике для этой цели разработан ряд показателей (коэффициентов), используемых как для количественных, так и для качественных (атрибутивных) признаков.
Еще по теме 7.2.3. Изучение связи между качественными признаками на основе таблиц сопряженности:
- Таким образом, то, что они конструируют, представляет из себя лишь связь между событиями и
- Связь между наборами инструментов управления проектами и размером проекта
- Связь между наборами инструментов управления проектами и типом проекта
- Гипотезы о связи между компетенцией потребителя и качеством отношений.
- 1. Статистика
- 9.2. СТАТИСТИЧЕСКИЕ МЕТОДЫ ВЫЯВЛЕНИЯ НАЛИЧИЯ КОРРЕЛЯЦИОННОЙ СВЯЗИ МЕЖДУ ДВУМЯ ПРИЗНАКАМИ
- 9.4. ИЗМЕРЕНИЕ ТЕСНОТЫ КОРРЕЛЯЦИОННОЙ СВЯЗИ МЕЖДУ ДВУМЯ ПРИЗНАКАМИ
- 7.2.3. Изучение связи между качественными признаками на основе таблиц сопряженности
- 7.3. Показатели тесноты связи между двумя качественными признаками
- 7.4. Показатели тесноты связи между двумя количественными признаками
- 7.5. Нахождение уравнений регрессии между двумя признаками
- И. Сне г ар о в К ИСТОРИИ КУЛЬТУРНЫХ СВЯЗЕЙ МЕЖДУ БОЛГАРИЕЙ И РОССИЕЙ в конце XIV — начале XV в.
- 1. Статистика
- Связь между наборами инструментов управления проектами и типом проекта
- § 3. Качественные признаки преступности
- § 4. Квалификация преступлений с учетом характера причинной связи между действием (бездействием)и общественно опасными последствиями
- § 2. Измерение связей между качественными признаками