Одномерная стратифицированная выборка
Выше был изложен общий принцип построения районированной выборки. На основе этого принципа разработаны различные процедуры, отличающиеся друг от друга прежде всего использованием при выделении страт одного или нескольких признаков, отбором из каждой страты числа единиц пропорционально или непропорционально объему страты, формированием страты на основе примерных соображений или с использованием формальных методов.
Простейшая процедура стратификации предполагает использование для выделения страт одного признака, формирование страт на основе эвристических соображений и применение пропорционального отбора. Эта процедура называется одномерной пропорциональной районированной выборкой. В качестве исходных моментов при использовании данной процедуры выступает обычно ранжированный ряд, характеризующий вариацию в исходной совокупности признака, используемого для стратификации. Нередко этот ряд предварительно преобразуется в интервальный с тем, чтобы из каждой выделенной группы отбирать число единиц пропорционально ее объему.
Одномерная районированная пропорциональная выборка до сих пор чаще всего применялась в отечественной социологии при стратифицированной выборке. Заметим при этом, что стратифи
кация применяется на разных ступенях отбора, так что ее объектом оказываются и непосредственные (или конечные) единицы наблюдения, и так называемые промежуточные единицы (области, города, предприятия, вузы и т.д.). Наиболее часто стратификация применяется именно по отношению к последним. Для стратификации областей и городов обычно используют — интенсивность того или иного показателя, характеризующего уровень экономики или культуры; для стратификации предприятий — отрасли народного хозяйства, ведомственную принадлежность, численность рабочих и служащих, размер средней заработной платы, процент выполнения плана, удельный вес групп рабочих с различным содержанием труда и т.д.; для стратификации вузов — отрасль народного хозяйства или науки, число студентов и т.д.
Усовершенствование одномерной выборки может быть осуществлено несколькими способами: за счет отказа при определенных условиях от принципа пропорциональности при размещении выборки в стратах и за счет применения более строгих приемов формирования страт. Во всех случаях прогресс в технике отбора опирается на использование априорной информации о дисперсии признака, служащего основой для стратификации, и о характере его связи с изучаемым признаком. Если страта состоит из единиц, очень похожих друг на друга, и имеет, следовательно, небольшую дисперсию, то при прочих равных условиях она может быть представлена в выборке меньшим числом представителей, чем разнородная страта. Процедура стратифицированного отбора, построенная на этих идеях и разработанная независимо друг от друга А.А. Чупровым (1923 г.) и Е. Нейманом (1934 г.), получила название оптимального размещения. Эта процедура обеспечивает максимально экономное использование ресурсов, выделяемых на обследование. При простейшем варианте этого метода (он иногда называется методом минимальной дисперсии) исходят из предположения, что денежные и прочие затраты на изучение единицы во всех стратах одинаковы и размер используемых ресурсов измеряется объемом выборки.
Если объемы страт одинаковы или приблизительно равны, то тогда объем выборки (при фиксированном общем объеме выборки) из каждой страты характеризуется выражением nh = kah. Если же объемы страты сильно отличаются друг от друга, то тогда
Важно подчеркнуть, что оптимальное размещение, предусматривая непропорциональный объем выборки из каждой страты, предполагает в то же время как само собой разумеющееся применение весов страты при исчислении всех характеристик совокупности (средней, ошибки средней и т.д.)[342].
Заметим также, что в условиях пропорционального отбора можно воспользоваться в качестве весов в итоговых расчетах объемами выборки из каждой страты.
«Самовзвешивающийся» характер пропорциональной выборки гарантирует, что структура выборки будет соответствовать структуре генеральной совокупности.В условиях применения оптимального размещения или других способов непропорционального отбора (например, при размещении в каждой страте выборки равного объема) объем выборки из страты уже не может играть роль «веса», и нужны прямые данные об объеме страты. Это обстоятельство в известной мере увеличивает затраты на обработку материалов обследования. Метод оптимального размещения можно рационально использовать только тогда, когда имеется необходимая информация о дисперсии стратифицирующего признака и если дисперсии этого признака в отдельных стратах сильно отличаются друг от друга[343].
Особое значение имеют сведения о тесноте связи между стратифицирующим и изучаемым признаками. Оптимальное размещение оказывается самым лучшим при коэффициенте корреляции между указанными признаками, близком к единице. Если же этот коэффициент мал, то легко себе представить ситуацию, при которой оптимальное размещение даст худший результат по сравнению с пропорциональной выборкой[344].
Необходимо подчеркнуть еще одно принципиальное обстоятельство. Исследователь всегда работает в режиме неполной информации. Поэтому в лучшем случае социолог может рассчитывать на получение с помощью метода оптимального размещения высокорепрезентативных данных только в отношении признаков, о которых он обладает какой-то априорной информацией. Что же касается других изучаемых признаков, то его отказ от механизма «самовзвешивания», присущий пропорциональному отбору, означает готовность идти на известный риск ухудшения репрезентативности указанных признаков[345].
Все описанные выше обстоятельства объясняют, почему на практике оптимальное размещение используется сравнительно редко. Вместе с тем разработка этого метода серьезно углубила понимание многих проблем применения выборки[346]. Если первый
путь улучшения стратификации основывается на манипулировании структурой выборки при заданном расчленении совокупности на страты, то второй путь ориентирован на поиск лучших вариантов разделения генеральной совокупности на страты.
В известном смысле в обоих случаях исследователь хочет приблизиться к равенству nh ~ Whah. Однако в первом случае он меняет nh, а во втором случае — Wh и вместе с этим и ah. Если первый путь получил название оптимального размещения, то второй — оптимальной страти-фикации[347].
Методы формирования страт заметно различаются в зависимости от того, как предполагается разместить выборку между стратами. Если идет речь о пропорциональном отборе, то тогда разделение исходной совокупности должно обеспечить достижение минимума функционала I:
i=- twh ° h.
nt=x
Иными словами, надо подобрать такое число страт L и так разбить совокупность на страты, чтобы получить минимум функционала. Если же исследователь планирует применение наряду с оптимальной стратификацией оптимального размещения, то тогда он должен минимизировать выражение:
i=Ywh°h .
h=1
В качестве средств отыскания необходимых границ между стратами рекомендуются разные приближенные приемы. Один из них требует, чтобы для каждой страты было обеспечено постоянство величины Whoh. Другой прием предполагает достаточным такое разделение страт, при котором в каждой страте была постоянной величина Wt (xi+i-xi), где (xi+i-xi) — разность между значениями признака, образующими границы страты. Наконец, третий прием требует вычисления для каждого интервала ранжированного ряда выражения Д(xt), где f(xt) — частота. Затем сумма полученных величин делится на выбранное исследователем число страт. Результат и укажет на желательные границы между стратами[348].
Современные вычислительные средства позволяют эффективно формировать страты (если их число невелико) с помощью прямого перебора.
Ориентация проектировщика выборки одновременно на оптимальную стратификацию и оптимальное размещение теоретически обещает получение при заданном объеме выборки наилучших оценок. Такая стратегия предполагает тесную связь между изучаемым и стратифицирующим признаками. Если эта связь является слабой, тогда в силу вступает так называемая схема Далениуса[349], которая, решая вопрос о формировании страт и размещении между ними выборки, учитывает тесноту связи между соответствующими признаками и допускает отклонение от пропорционального отбора только в той мере, в какой позволяет идти на этот риск конкретный коэффициент корреляции[350].
Практика применения оптимальной стратификации очень бедна. Один из немногих примеров — работа, проделанная Ю.П. Вороновым при проектировании выборки в исследовании аудитории «Литературной газеты»[351]. В качестве признака стратификации использовался показатель плотности подписки на газету в расчете на 10 тыс. жителей. На первой ступени отбора 150 территориальных единиц были объединены в страты так, чтобы был обеспечен минимум дисперсии по указанному признаку.
Эффективность стратификации находится в определенной зависимости от числа страт. Увеличение числа страт выше определенного уровня приносит очень небольшой выигрыш. С учетом этих соображений можно полагать, что число страт при использовании одного стратифицирующего признака может быть в интервале от 3 до 10[352].
Еще по теме Одномерная стратифицированная выборка:
- А. В. КОРОТАЕВ ДЖОРДЖ ПИТЕР МЕРДОК И ШКОЛА КОЛИЧЕСТВЕННЫХ КРОСС-КУЛЬТУРНЫХ (ХОЛОКУЛЬТУРАЛЬНЫХ) ИССЛЕДОВАНИЙ
- Методы сбора и обработки информации
- Раздел I. ФЕНОМЕН ГОСУДАРСТВА
- Одномерная стратифицированная выборка
- Многомерная стратификация
- ХАРАКТЕРИСТИКА ОБЩЕСТВЕННОГО МНЕНИЯ
- СТРАТИФИЦИРОВАННАЯ (РАЙОНИРОВАННАЯ, ГНЕЗДОВАЯ) СЛУЧАЙНАЯ ВЫБОРКА