5.4. Виды дисперсий в совокупности, разделенной на части. Правило сложения дисперсий
Межгрупповая и внутригрупповая дисперсии
Если статистическая совокупность разбита на группы по како- му-либо признаку и для этих групп известны (или могут быть найдены) средний уровень и дисперсия, то нередко при объединении частных групп в совокупность требуется оценить вариации показателей объединенной совокупности на основе показателей отдельных частных групп.
При этом необходимо учитывать, что вариация признака в целом по совокупности зависит как от вариации признака внутри каждой группы, так и от вариации групповых средних, т.е. от межгрупповой вариации признака. Другими словами, общую дисперсию о2бщ, характеризующую вариацию признака под влиянием всех факторов, можно получить на основе ее составляющих — межгрупповой и внутригрупповой дисперсий.Рассмотрим простейший случай, когда исходная совокупность делится на т однородных групп по одному признаку-фактору.
Допустим, имеется распределение исходной совокупности, представленное в табл. 5.10.
Таблица 5.10 Распределение исходной совокупности по группам Значение признака х. Число единиц в у-й группе Итого 1 2 т х\ /, ч /, + ??, + 4 = И] х2 /2 .?2 ь /2 + ^2 + ... + ^2 — ^2 хк Л Ч ь /* + ** + = пк Итого м7 N
т N Сначала вычисляем т частных средних, т.е. среднее значение признака в каждой группе:
к к к
IV IV/ I -V/
/=! _ /=! _ / = 1
х, = , х, = , ..., х = .
1 /V ’ 2 ДГ ' т дг
П\ 2 т На основе частных средних х,,х2, ???,хт определяем общую среднюю по формуле 'общ
т
N
(5.18) к
т
7=1 / = 1
Общая дисперсия совокупности (5.19)
!(*/ - Хобщ)2«/ /=1
N
Общая дисперсия отражает вариацию признака за счет всех условий (факторов), действующих в данной совокупности.
N
Вариацию между группами за счет признака-фактора, положенного в основу группировки, отражает межгрупповая дисперсия, которая исчисляется по отклонениям групповых средних от общей средней:
(5.20)
Вариацию внутри каждой группы изучаемой совокупности отражает частная групповая дисперсия, которая исчисляется как средний квадрат отклонений значений признака х от частной сред-
В общем виде частную дисперсию запишем так:
к
I
а?= ПУ;- - (^)2’
где NlJ — частоты от / = \~^к в каждой 7-й группе.
Так как изучаемая совокупность разбита на несколько групп, то для всей совокупности внутригрупповую вариацию будет выражать внутригрупповая дисперсия, которая рассчитывается как средняя арифметическая из групповых дисперсий:
т
-
О2 = ^-л—. (5.21)
Между представленными видами дисперсий существует определенное соотношение: общая дисперсия равна сумме дисперсий внутригрупповой (средней из групповых дисперсий) и межгруп- повой (дисперсии частных средних), т.е.
<4ц = °2 + 52. (5.22)
Это равенство известно как правило сложения дисперсий, его автором является Вильгельм Лексис (1837—1914), немецкий статистик и экономист.
Докажем равенство (5.22), для чего формулу частной дисперсии
а2 = ^ (*,.)2
' N.
у
перепишем в виде
откуда
+ {хі)гИі.
1=1
Составив для каждой группы аналогичные уравнения и просуммировав их, получим т к
к
] = \! = \ 1=1
т.е.
мы получили не что иное, как сумму взвешенных квадратов значений х1 по совокупности в целом.Разделим равенство (5.23) на общую численность совокупности А^:
N
N
N
затем вычтем квадрат общей средней из обеих частей уравнения:
В левой части (5.24) представлена общая дисперсия, а в правой — сумма внутригрупповой и межгрупповой дисперсий:
о я
общ
= о2 + 52.
Таким образом, общая дисперсия складывается из двух слагаемых: первое измеряет вариацию внутри частей совокупности, а второе — вариацию между средними этих частей.
Эмпирический коэффициент детерминации и эмпирическое корреляционное отношение
Правило сложения дисперсий позволяет выявить зависимость результатов от определяющих факторов с помощью соотношения межгрупповой и общей дисперсий. Это соотношение называется эмпирическим коэффициентом детерминации Лэмп и показывает, какая доля в общей дисперсии приходится на дисперсию, обусловленную вариацией признака, положенного в основу группировки: 'эмп
,2
л:
(5.25)
Используется правило сложения дисперсий и для определения степени связи между изучаемыми признаками. Для этого необходимо найти эмпирическое корреляционное отношение г\эмп, которое показывает, насколько тесно связаны исследуемое явление и груп- пировочный признак:
Эмпирическое корреляционное отношение изменяется от О до 1. Если связь отсутствует, то г) п = 0. В этом случае дисперсия групповых средних равна нулю (82 = 0), т.е. все групповые средние равны между собой и межгрупповой вариации нет. Это означает, что группировочный признак не влияет на вариацию исследуемого признака х.
Если связь функциональная, то г|эмп = 1. В этом случае дисперсия групповых средних равна общей дисперсии (52 = о2бш), т.е. не будет внутригрупповой вариации. Это означает, что группировочный признак полностью определяет вариацию изучаемого признака.
Чем больше значение корреляционного отношения приближается к единице, тем полнее (сильнее) корреляционная связь между признаками (табл.
5.11).Таблица 5.11 Качественная оценка связи между признаками ^эмп Связь Лэмп Связь 0
0-0,2 0,2-0,3 0,3-0,5 Отсутствует Очень слабая Слабая Умеренная 0,5-0,7 0,7-0,9 0,9-0,99 1 Заметная Тесная Весьма тесная Функциональная Пример. Рассчитать дисперсию, эмпирический коэффициент детерминации и эмпирическое корреляционное отношение по данным, приведенным в табл. 5.12.
Таблица 5.12
Среднемесячная номинальная заработная плата работников предприятий и организаций России по федеральным округам в 2002 г. Федеральный
округ Средний размер
заработной
платы, тыс. руб.
х.
./ Численность занятых, млн чел.
N. Дисперсия заработной платы Центральный 4,433 17,508 0,58 Северо-Западный 5,068 7,091 3,769 Южный 2,974 8,505 0,115 Приволжский 3,142 14,624 0,128 Уральский 6,589 5,795 6,743 Сибирский 4,310 9,147 3,299 Дальневосточный 5,979 3,401 3,458 Итого 66,071 Источник: Труд и занятость в России: Стат. сб. — М.: Госкомстат России, 2003. — С. 109-126.
Сначала найдем средний размер заработной платы по стране:
*Лд - -
1
= [4,433 • 17,508 + 5,068 • 7,091 + 2,974 • 8,505 4- 3,142 ? 14,624 + + 6,589 • 5,795 + 4,310 • 9,147 + 5,979 • 3,401]/66,071 =
= 4,339 тыс. руб.
Вариация средней заработной платы по федеральным округам, обусловленная различием в местах проживания занятого населения, характеризуется межгрупповой дисперсией:
- *общ)Ч
*2 I _ . _
]
= [(4,433 - 4,339)2 ? 17,508 + (5,068 - 4,339)2 ? 7,091 +
+ (2,974 - 4,339)2 • 8,505 + (3,142 - 4,339)2 • 14,624 +
+ (6,589 - 4,339)2 ? 5,795 + (4,310 - 4,339)2 ? 9,147 +
+ (5,979 - 4,339)2 • 3,401]/66,071 = 1,072.
Средняя из групповых дисперсий дает обобщающую характеристику случайной вариации, обусловленную всеми отдельными факторами, кроме места проживания работающего населения (например, характером занятости, стажем работы и т.п.): 2
/
—
а2 = —
= [0,58 • 17,508 + 3,769 • 7,091 + 0,115 ? 8,505 + 0,128 • 14,624 + + 6,743-5,795 + 3,299-9,147 + 3,458 • 3,401]/66,071 =
= 1,827.
Вариация средней заработной платы в регионах России, обусловленная влиянием всех факторов, вместе взятых, определяется общей дисперсией:
°общ = 52 + с2 = 1,072 + 1,827 = 2,899.
Сопоставляя межгрупповую дисперсию с общей, рассчитаем эмпирический коэффициент детерминации: 1ЭМП
,2
Полученный эмпирический коэффициент детерминации показывает, что дисперсия заработной платы зависит от места проживания работающего населения на 36,9%.
Остальные 63,1% определяются множеством других неучтенных факторов. Извлекая квадратный корень из эмпирического коэффициента детерминации, определяем эмпирическое корреляционное отношение:;ЭМП
Полученное значение эмпирического корреляционного отношения позволяет утверждать, что существует заметная связь между местом проживания работающего населения и размером заработной платы (см. табл. 5.11).
Для проверки существенности связи между группировочным признаком и вариацией исследуемого показателя часто используется дисперсионное отношение (критерий Фишера):
где V, и у2 — число степеней свободы для сравниваемых дисперсий. При этом
V, = т — 1, у2 = N — т,
где т — число групп;
N — число наблюдений.
Расчетное значение критерия Фишера (?/грасч) сравнивается с критическим (^кр), определяемым по таблице Приложения 8 в зависимости от числа степеней свободы и уровня значимости а. Если /грасч > ^кр, наличие связи доказано, так как проверяется нулевая гипотеза об отсутствии взаимосвязи признаков, т.е. об отсутствии влияния группировочного признака на исследуемый признак.
Правило сложения дисперсий для доли признака
Рассмотренное правило сложения дисперсий распространяется и на дисперсии доли признака, т.е. доли единиц с определенным признаком в совокупности, разбитой на части (группы). При этом изучение вариации происходит непосредственно при вычислении и анализе следующих видов дисперсий доли признака.
Групповая дисперсия доли признака
а2Л, =Л-а -Л-)’ (5-28)
где р1 — доля изучаемого признака в отдельных группах.
Внутригрупповая дисперсия, т.е. средняя из групповых дисперсий,
Ел-С1 — Р-,) п1
°2Л. = = “ Р‘}’ (5'29)
/
где — численность единиц в отдельных группах. Межгрупповая дисперсия
1(р, - г)Ч 5* = <5-30)
/
При этом р — доля изучаемого признака во всей совокупности — определяется по формуле средней арифметической взвешенной:
!/>,?»/
Р =
2«, '
Общая дисперсия
о2-=р{\-р). (5.31)
Кроме того, общую дисперсию можно определить как сумму средней из групповых дисперсий и межгрупповой дисперсии, т.е.
по правилу сложения дисперсий доли признака:о2- = а2 + 52 . (5.32)
Р л Л
Зная любые два вида дисперсий из трех, входящих в формулу (5.32), можно определить дисперсию третьего вида или проверить правильность ее расчета.
Пример. Определить дисперсию доли безработных с высшим образованием по данным, представленным в табл. 5.13. Доля безработных с высшим образованием по федеральным округам России в 2002 г. Федеральный
округ Доля безработных с высшим образованием Численность безработных, млн чел. п: % Л Центральный 12,2 0,122 0,995 Северо-Западный 11,5 0,115 0,478 Южный 10,4 0,104 1,162 Приволжский 8,3 0,083 1,217 Уральский 7,6 0,076 0,515 Сибирский 9,2 0,092 1,024 Дальневосточный 10,6 0,106 0,321 X 5,712 Источник. Труд и занятость в России: Стат. сб. - М.: Госкомстат России, 2003. — С. 109-111, 134-136.
Вначале определяем среднюю долю безработных с высшим образованием по России:
Р = [0,122 • 0,995 + 0,115 • 0,478 + 0,104 ? 1,162 + 0,083 ? 1,217 + + 0,076 ? 0,515 + 0,092 • 1,024 + 0,106 • 0,321]/5,712 » -
0,099 (или 9,9%).
Затем находим общую дисперсию этой доли по формуле (5.31):
а2- = Р{ 1 -Р) = 0,099(1 - 0,099) = 0,0892.
Для расчета общей дисперсии по формуле (5.32) определяем групповые дисперсии по федеральным округам, используя формулу (5.28): о2 =
Центр 0,122(1 - 0,122) = 0,107, 2 _ Сев-Зап 0,115(1 - 0,115) = 0,102, _
Юж 0,104(1 - 0,104) = 0,093, °п = Прив 0,083(1 - 0,083) = 0,076, < - 0,076(1 - 0,076) = 0,070, * 0,092(1 - 0,092) О
о
оо
4^ - 0,106(1 - 0,106) - 0,095. Определив групповые дисперсии, можно перейти к расчету средней дисперсии из групповых по формуле (5.29):
о2 = [0,107 • 0,995 + 0,102 • 0,478 + 0,093 • 1,162 + 0,076 ? 1,217 + + 0,070-0,515 + 0,084- 1,024 + 0,095 • 0,321]/5,712 =
= 0,088995 « 0,0890.
Далее, зная долю безработных с высшим образованием в каждом округе и по стране в целом, а также численность безработного населения в каждом округе, по формуле (5.30) рассчитаем меж- групповую дисперсию:
82( = [(0,122 - 0,099)2 • 0,995 + (0,115 - 0,099)2 ? 0,478 +
+ (0,104 - 0,099)2 ? 1,162 + (0,083 - 0,099)2 • 1,217 +
+ (0,076 - 0,099)2 • 0,515 + (0,092 - 0,099)2 • 1,024 +
+ (0,106 - 0,099)2 • 0,321] /5,712 = 0,0002.
По правилу сложения дисперсий общая дисперсия равна
ст2- = 0,089 + 0,0002 = 0,0892.
Оба метода дали аналогичный результат, что подтверждает правильность расчета.
Еще по теме 5.4. Виды дисперсий в совокупности, разделенной на части. Правило сложения дисперсий:
- Лекция 5. Основания возникновения, изменения и прекращения гражданских правоотношений 5.1. Виды и значение юридических фактов в гражданском праве. 5.2. Понятие и виды сделок. 5.3. Недействительные сделки и их правовые последствия.
- 5.1. Виды и значение юридических фактов в гражданском праве
- 2. Понятие и виды государственных органов
- 5.1. Понятие и виды юридической ответственности за нарушение норм конкурсного права
- § 1. Понятие и виды подведомственности гражданских дел
- 3.2. Сущность, виды и правила статистических группировок Содержание группировки
- 7.4. РАЗЛИЧНЫЕ ВИДЫ ВЫБОРОЧНОГО НАБЛЮДЕНИЯ
- 5.4. Виды дисперсий в совокупности, разделенной на части. Правило сложения дисперсий
- 22. Отдельные виды ограничений: конкурс, спор о принадлежности вещного права, срок, условие, ленное владение, фидеикоммис.
- § 5. Разделение вещей и прав по иностранным законодательствам
- § 48. Последствия принятия наследства. - Ответственность наследника за долги. - Возможность разделения долгов
- § 4. Виды обязательств. - Обоюдные и односторонние. - Безмездные и возмездные. - Договоры, на риске основанные. - Ясные и неясные требования
- § 9. НАЗНАЧЕНИЕ НАКАЗАНИЯ ПО СОВОКУПНОСТИ ПРЕСТУПЛЕНИЙ
- § 1. Понятие и виды прецедентов
- § I. Судебная власть в системе разделения властей
- § 1. Значение и проблемы выделения видов преступности