§ 2. Определение ошибки выборки
Разность между данными генеральной и выборочной совокупностей называют ошибкой репрезентативности, или ошибкой выборки. Например, генеральная совокупность правонарушителей составляет 500 человек. Удельный вес лиц, воспитанных в неполной семье, среди них равен 30%. При выборочном наблюдении было изучено 50 человек, среди которых удельный вес таких лиц оказался 25%. Ошибка выборки равна: 30% - 25% = 5% (0,5). Аналогичным образом выводится ошибка репрезентативности и для количественного признака. Предположим, что средняя арифметическая величина возраста преступников в генеральной совокупности была равна 28,3 года. В выборочной совокупности она составила 26,5 года. Ошибка равна: 28,3 - 26,5 = 1,8 года.
Ошибки бывают тенденциозными, или систематическими, и случайными. Первые — результат неправильного или преднамеренного отбора исследователем тех или иных показателей, вторые — результат случайностей неполного отбора.
Тенденциозные ошибки возникают тогда, когда исследователь неправильно сформировал выборку, не знал научных правил отбора единиц совокупности, сознательно отобрал наиболее показательные единицы. Например, исследуя правосознание граждан, анкетер в целях экономии времени воспользовался аудиторией студентов-юристов и опросил их. Полученные данные, естественно, отражали правовые взгляды лишь этих респондентов, и не соответствовали взглядам всех граждан. Выводы, сделанные на основе тенденциозных выборок, будут ошибочными. Они могут причинить вред делу.
Истории известны многие курьезы, связанные с пренебрежением правилами выборочного наблюдения. Один из них произошел в США в 1936 г. при прогнозировании исхода президентских выборов. Журнал «Литерари Дайджест», используя телефонные книги, опросил свыше 2 млн человек. По итогам опроса президентом должен быть избран Ландон. Социологи Гелл ап и другие опросили только 4 тыс. жителей и пришли к однозначному выводу: победит Рузвельт; Их прогноз оправдался. В чем причина таких расхождений? Первая выборка отражала мнение лишь состоятельных консервативных слоев населения, кото-
рые имели телефоны, вторая — всех слоев населения. Она оказалась более представительной, хотя была в 500 раз меньше первой. Роковую роль сыграли тенденциозные ошибки.
Научно-практическая задача выборочного наблюдения сводится не только к тому, чтобы при малых затратах сил и средств максимально приблизить данные выборки к данным всей генеральной совокупности, но и к тому, чтобы точно измерить, в каких пределах результаты выборки отличаются от данных генеральной совокупности. Здесь и встает вопрос о характере ошибок.
Тенденциозные (систематические) ошибки нельзя измерить. Они могут быть самыми разными по величине и содержанию. Тенденциозные ошибки тем меньше, чем выше квалификация исследователя, чем лучше он знаком с объектом изучения и возможными источниками систематических ошибок.
Измерить можно лишь случайные ошибки, т.е. ошибки, обусловленные неполнотой изучения реально существующей совокупности. Случайные ошибки — непреднамеренные неточности статистического наблюдения, которые могут быть направлены как в сторону преувеличения показателей признака, так и в сторону их преуменьшения. При относительно большом изучении случайные ошибки взаимопогашаются (вспомним третий этап эксперимента по извлечению пронумерованных карточек, когда было сделано 30 выборок по 40 извлечений каждая), в результате чего данные выборочной совокупности становятся близкими к данным генеральной. Оставшиеся различия можно относительно точно измерить на основе теории вероятностей, закона больших чисел и закономерностей распределения случайных величин.
Для того чтобы избежать тенденциозных ошибок, необходимо строго соблюдать правила случайного отбора единиц выборочной совокупности. Случайные ошибки в выборочном наблюдении объективны. Их нельзя избежать, но можно уменьшить путем увеличения объема выборки и точно вычислить.
Необходимость в точном расчете ошибки выборки возникает тогда, когда произведенное выборочное наблюдение надо оценить с точки зрения его репрезентативности и достоверности. Формула для вычисления ошибки выборки в общем виде выглядит так:
где W — ошибка выборки; о2 — средний квадрат отклонения (дисперсия); а — среднее квадратическое отклонение; п — число единиц выборки.
Исходя из этой формулы, ошибка репрезентативности прямо пропорциональна дисперсии или среднему квадратическому отклонению и обратно пропорциональна числу единиц выборки. Ошибка выборки будет тем меньше, чем меньше дисперсия (колеблемость признака) и чем больше численность выборки. Объем выборочной совокупности, как правило, всегда известен, если исследование уже произведено. Остается вычислить дисперсию, порядок расчета которой мы излагали в предыдущем параграфе. Подставляя значение дисперсии в формулу ошибки выборки для качественного и количественного признака, получаем:
Эти формулы позволяют рассчитывать ошибку выборки на основе исходных показателей. Рассчитаем ее по данным предыдущих примеров. Дисперсия качественного признака — состояния опьянения, удельный вес которого в структуре изучаемых преступлений составлял 35%, оказалась равной 0,23. Численность выборки определим в 100 единиц (уголовных дел, статкарт, приговоров). В этом случае
Это означает, что при правильной случайной выборке в 100 единиц удельный вес лиц, совершивших преступления в состоянии опьянения, будет колебаться относительно удельного веса данного признака в генеральной совокупности в пределах ± 4,8%, т.е.
35% ± 4,8%, или от 30,2 до 39,8%. Если мы увеличим выборку вчетверо, т.е. до 400 единиц, то ошибка выборки уменьшится вдвое и будет составлять ±2,4%. При максимальной дисперсии качественного признака (0,25) и 100 единицах выборки ошибка выборки будет равняться 0,05, или ±5%, а при 400 единицах выборки — 0,025, или ±2,5%.Обратимся к примеру с количественными признаками — к 100 осужденным к разным срокам лишения свободы. Дисперсия количественного признака равнялась 2,29 года. Рассчитаем ошибку выборки:
При увеличении выборки вчетверо, т.е. до 400 единиц, ошибка выборки уменьшится вдвое и составит ±0,075 года.
Приведенные примеры наглядно показывают, что при правильном отборе выборочной совокупности даже при небольшом объеме в 100 единиц ошибка репрезентативности может быть признана вполне
допустимой, а при выборке в 400 единиц — тем более. При максимальной дисперсии качественного признака и выборке в 100 единиц ошибка выборки, например, не превышала±5%. Эти величины постоянные, что и используется в заранее рассчитанных таблицах.
Дисперсия и ошибка выборки количественных признаков выражаются не в относительных числах (процентах, долях), как у качественных показателей, а в именованных числах, т.е. в годах, рублях, классах, часах и т.д. Они могут иметь самые разные содержательные и численные значения. Их нельзя рассчитать заранее безотносительно к конкретному признаку, и поэтому готовых таблиц ошибок выборки для количественных признаков нет.
Все предшествующие формулы и расчеты ошибки репрезентативности имеют значение для повторной выборки. При ней каждая отобранная из генеральной совокупности единица (например, статкарта на преступление) вновь возвращается в массив. Поэтому не исключена возможность ее повторного отбора. Наряду с таким отбором есть отбор бесповторный. При нем каждая отобранная единица исключается из числа единиц генеральной совокупности, а поэтому может попасть в выборку лишь один раз.
В связи с этим ошибка выборки для качественных и количественных признаков вычисляется соответственно по разным формулам:
где п — число выборочной совокупности; N— число генеральной совокупности.
Проанализируем эти формулы на конкретном примере. Предположим, что в одном из городов бесповторным способом был произведен опрос 300 граждан о знании ими УК РФ. Удельный вес лиц, которые не знали ничего о Кодексе, составил 20%. Общая численность взрослого населения города составила 15 тыс. человек. Необходимо установить репрезентативность произведенного изучения. В данном случае
Однократная ошибка выборки составила ± 0,022, или ± 2,2%, а двукратная — ±4,4%. Если опрос граждан производился при строгом соблюдении процедуры, то удельный вес тех из них, которые не знают ничего об УК, в структуре всех граждан может колебаться в пределах 20 ± 4,4%, или от 15,6 до 24,4%. Возможные отклонения существенны, но для практических целей результаты могут быть признаны вполне удо вл етворите л ьн ы м и.
Анализ формул ошибки бесповторной выборки показывает, что дополнительный множитель (1 - n/N) не может быть больше единицы, следовательно, он лишь уменьшает величину ошибки выборки. В данном случае этот множитель составил 0,98 и уменьшил все подкоренное выражение на 0,00001, а ошибку выборки — на 0,1 %. В других случаях это уменьшение может быть большим. Таким образом, наличие данного множителя позволяет более точно вычислить ошибку бесповторной выборки, причем в сторону ее минимизации. Поэтому, если исследователю неизвестна численность генеральной совокупности, а он произвел бесповторную выборку, то можно рассчитать ошибку репрезентативности по формуле повторной выборки. Незначительной неточностью, связанной с завышением расчетной ошибки, можно пренебречь, поскольку социально-правовые исследования не требуют особой точности.
При рассмотрении закономерностей нормального распределения (рис. 6) говорилось о правиле трех сигм. Вспомним, что если площадь выборки заключена в пределах За, то она составит 99,7% (0,997) всей площади, ограниченной кривой распределения, если в пределах 2а — 95,4% (0,954), если в пределах 1а — 68,3% (0,683). Эта закономерность используется для расчета коэффициента доверия (/).
Не вникая в математическую сторону этого вопроса, скажем, что вероятность отклонения изучаемого признака, как качественного, так и количественного, в пределах однократной ошибки репрезентативности, т.е. при t = 1, равна 0,683. Это означает, что из 1000 изучаемых единиц 683 будут находиться в пределах однократной ошибки выборки, а остальные 317 единиц — за ее пределами. При коэффициенте доверия, равном 2 (t = 2), вероятность отклонения изучаемого признака будет находиться в пределах двукратной ошибки репрезентативности и равняться 0,954, т.е. из 1000 изучаемых единиц 954 будут находиться в пределах двукратной ошибки. При коэффициенте доверия, равном 3 (/ = 3), из 1000 изучаемых единиц 997 будут находиться в пределах трехкратной ошибки.
Символ t именуют коэффициентом кратности ошибки репрезентативности, или коэффициентом доверия. Его увеличение повышает репрезентативность выборки, но не само по себе, а через увеличение выборочной совокупности. Если, например, при проведении криминологического или социально-правового изучения есть необходимость в том, чтобы ошибка репрезентативности не превышала 4,8%, как было в нашем примере, а коэффициент доверия был равен не 1, а 3, т.е. t= 3, то численность выборочной совокупности придется увеличить в 6 раз, или до 600 единиц. При t = 2 численность выборки должна быть увеличена в 4 раза, т.е. до 400 единиц.
Выше говорилось, что если уменьшить ошибку выборки в два раза, то выборочную совокупность следует увеличить в четыре раза. Поставим задачу по-иному. Если нас удовлетворяет величина ошибки выборки, но необходимо повысить коэффициент доверия до t = 2, чтобы в 954 случаях из 1000 величина единиц изучения не отклонялась от заданной ошибки, также надо увеличить объем выборочной совокупности в четыре раза. Ошибка сохраняется та же, а коэффициент доверия повышается. При криминологических, социально-правовых исследованиях и при изучении в практических оперативных целях может быть допустима точность с коэффициентом доверия t = 1. При решении важных научных или практических вопросов желательно, чтобы ошибка репрезентативности принималась с коэффициентом доверия t = 2. Изучение с коэффициентом доверия t = 3 в юридической статистике практически нигде не требуется.
Предельная ошибка выборки обозначается греческой буквой А (дельта). Она равна произведению однократной ошибки выборки на соответствующий коэффициент доверия А = Wt. Заменив Wсоответствующими формулами для повторной выборки, получим:
Для бесповторной выборки эти формулы будут иметь следующий вид:
Избежать сложных математических расчетов при определении пределов ошибки репрезентативности качественных характеристик при заданном числе наблюдений помогают специальные таблицы, рассчитанные математиками1 (табл. 5).
Таблица 5
Предел ошибки при заданном числе наблюдений и 1-2,%
Удельный вес наблюдений, % | Число наблюдений | ||||||||||
100 | 200 | 300 | 400 | 500 | 600 | 700 | 800 | 900 | 1000 | ||
5 | (95) | 4,4 | 3,1 | 2,8 | 2,5 | 1,9 | 1,8 | 1,6 | 1,5 | 1,4 | 1,4 |
10 | (90) | 6,0 | 4,3 | 3,5 | 3,0 | 2,7 | 2,5 | 2,3 | 2,1 | 2,0 | 1,9 |
15 | (85) | 7,2 | 5,1 | 4,1 | 3,6 | 3,2 | 2,9 | 2,7 | 2,5 | 2,4 | 2,3 |
20 | (80) | 8,0 | 5,7 | 4,6 | 4,0 | 3,6 | 3,3 | 3,0 | 2,8 | 2,7 | 2,5 |
/>25 | (75) | 8,7 | 6,2 | 5,0 | 4,3 | 3,9 | 3,5 | 3,3 | 3,1 | 2,9 | 2,7 |
1 Боярский Л.Я. Таблицы для определения достоверности статистических показателей и числа наблюдений в статистическом исследовании М., 1947.
Продолжение табл. 5
Удельный вес наблюдений, % | Число наблюдений | ||||||||||
100 | 200 | 300 | 400 | 500 | 600 | 700 | 800 | 900 | 1000 | ||
30 | (70) | 9,2 | 6,5 | 5,3 | 4,6 | 4,1 | 3,7 | 3,5 | 3,2 | 3,1 | 2,9 |
35 | (65) | 9,6 | 6,8 | 5,5 | 4,8 | 4,3 | 3,9 | 3,6 | 3,4 | 3,2 | 3,0 |
40 | (60) | 9,9 | 7,0 | 5,6 | 4,9 | 4,4 | 4,0 | 3,7 | 3,5 | 3,3 | 3,1 |
45 | (55) | 10,0 | 7,1 | 5,7 | 5,0 | 4,5 | 4,1 | 3,8 | 3,5 | 3,3 | 3,1 |
|
| 10,0 | 7,1 | 5,8 | 5,0 | 4,5 | 4,1 | 3,8 | 3,5 | 3,3 | 3,2 |
Используя эту далеко не полную таблицу, определим предельную ошибку репрезентативности по уже известным данным о лицах, совершивших преступления в состоянии опьянения. Вспомним эти данные: удельный вес указанных лиц составлял 35%, объем выборочной совокупности 100 и 400 единиц. Ошибка репрезентативности, рассчитанная по формулам, оказалась равной соответственно ±4,8 и ±2,4%. Если наши расчеты были верными, то они совпадут с данными табл. 5.
Находим в графе 1 таблицы значение показателя, равное 35% (оно подчеркнуто). На этой же строке в графе 2, соответствующей 100 наблюдениям, находим ошибку репрезентативности ±9,6%, а в графе 5, соответствующей 400 наблюдениям, — ошибку репрезентативности ±4,8%. Сопоставим расчетные ошибки с табличными. Последние оказались вдвое больше тех, которые были получены путем расчета. Однако никакой ошибки здесь нет. Пределы ошибок, указанные в табл. 5, рассчитаны при коэффициенте доверия, равном 2 (/ = 2), а мы рассчитывали без учета коэффициента доверия (т.е. при t = 1). Если использовать формулы расчета предельных ошибок с t = 2, то получим те же самые данные, которые указаны в табл. 5.
Коэффициент доверия, равный 2, означающий, что в 954 случаях из 1000 единицы изучения не будут выходить за пределы заданной ошибки репрезентативности, практически надежен. Поэтому таблицы предельных ошибок рассчитаны применительно к нему.
Еще по теме § 2. Определение ошибки выборки:
- 5.2. Ошибки выборочного наблюдения Средняя ошибка
- 7.2. ПРОСТАЯ СЛУЧАЙНАЯ ВЫБОРКА
- 7.3. ОПРЕДЕЛЕНИЕ НЕОБХОДИМОЙ ЧИСЛЕННОСТИ ВЫБОРКИ
- 7.5. МАЛЫЕ ВЫБОРКИ
- 6.4. Определение необходимой численности выборки
- 6.5. Малая выборка
- ПРАВИЛО (СТАНДАРТ) N 16. АУДИТОРСКАЯ ВЫБОРКА (введено Постановлением Правительства РФ от 07.10.2004 N 532)
- § 4. Выборочный метод в криминологии
- Определение фактической ошибки репрезентативности
- Косвенные методы определения уровня репрезентативности
- Случайная выборка
- Объем выборки при случайном отборе
- Стратифицированная выборка
- Одномерная стратифицированная выборка