7.2. ПРОСТАЯ СЛУЧАЙНАЯ ВЫБОРКА
Развитие современной теории выборочного наблюдения началось с рассмотрения простой случайной выборки. Лежащие в основе простой случайной выборки понятия и категории являются исходными при разработке других применяемых форм выборочного наблюдения.
При простой случайной выборке отбор производится из всей массы единиц генеральной совокупности без предварительного расчленения ее на какие-либо группы, и единица отбора совпадает с единицей наблюдения.
В зависимости от способа отбора единиц различают: 1) отбор по схеме возвращенного шара, обычно называемый повторной выборкой.
При повторном отборе вероятность попадания каждой отдельной единицы в выборку остается постоянной, так как после .122 того как какая*-либо единица отобрана, ее возвращают в совокупность и она снова может быть выбранной; 2) отбор по схеме не-возвращаемого шара, называемый бесповторной выборкой. В этом случае каждая отобранная единица не возвращается обратно, и вероятность попадания отдельных единиц в выборку все время изменяется (для оставшихся единиц она возрастает).Наиболее просто случайный отбор единиц можно организовать для совокупностей, учитываемых по состоянию на данный, момент и включающих в себя счетное множество единиц. В таких случаях есть возможность-заранее составить пронумерованный список единиц генеральной совокупности. Отбор из списка единиц может быть произведен путем жеребьевки. Для этого на каждую единицу совокупности заготавливают одинаковую карточку (шар) и проставляют на ней соответствующий номер. В соответствии с определенным объемом выборки из тщательно перемешанных карточек (шаров) последовательно отбирают п карточек, записывая каждый раз номер вынутой карточки (шара). Единицы, номера 'которых были вынуты, подлежат выборочному наблюдению.
Для совокупностей большого объема гораздо удобнее использовать для отбора единиц таблицы случайных чисел (эти таблицы публикуются в приложениях к руководству по математической статистике).
Допустим, что в выборку должно войти 75 единиц из списка, содержащего 780 единиц. Открыв таблицу случайных чисел1, находим там, например в первой строке, такую последовательность чисел: 5489; 5583; 3156; 0835; 1988; 3912; 0938; 7460;. 0869 и т. д. В выборку могут' войти только единицы с порядковыми номерами трехзначных чисел меньше 780. Поэтому, используя только три последние' цифры каждого _числа, например 489; 583; 156 и т. д., отбираем необходимые 75 номеров единиц, которые и будут включены в выборку. Можно было бы использовать и три первые цифры каждого числа, тогда в выборку вошли бы единицы с порядковыми номерами 548; 558; 315; 83 и т. д.Покажем основные свойства простой случайной повторной выборки на следующем примере. Пусть генеральная совокупность состоит из четырех единиц (N = 4). У этих единиц зарегистрированы следующие значения изучаемого признака:
номер единицы 12 3 4 значения признака, х 3 4 4 5
Генеральная средняя х= —j^- и генеральная дисперсия о2=
= -——-соответственно равны х--=4,0 и а2=0,5. Из этой генеральной совокупности производим случайную повторную выборку объемом в две единицы (п=2). В нашем примере с одинаковой
12*
Таблица 7.1 «
? О
ю ?
=?? 1 = ?ений при-
1ННЫМ [ средняя ш о =
щ is а. [ дола |анта 1НИЦ, вхо-иную гений при-
1НИЫМ И
О)
ас ч
0J
о.
U ! ВЫбОрОЧ-
1 от гене-»дней н щ
о щ О. |5 ?=> со X X U т а. х ^ « Ж QJ'CX Я » К
?"1 СО О X « С *
™ и о. ЕГ О Р. О
о
2
га х S'X о а?
•Том О х о. аг о а, о о 3
m а х
5 3
X в fsl
к 3 »ё|
?§3 V
о о. о «о
2 CQ i&s
JT о « Оха. if
о а. о ю 3
m 1 2 3 4 5 6 I 2 3 4 5 6 1
2 3 4 5 6 7 '8 1.1
1,2 1,3 1,4 2,1
2,2 2,3 2,4 6
7 7 8 7 8 8 9 3,0
3,5 3,5 4,0 3,5 4,0 4,0 4,5 -1,0
—0,5
—0,5 0,0
—0,5 0,0 0,0
+ 0,5 0,0 0,5 0,5 0,0 0,5 1,0 1,0 0,5 9 10 11 12 13 14 15 16 3,1
3,2 3,3 3,4 4,1 4,2 4,3 4,4 7 8 8 9 8 9 9 10 3,5 4,0 4,0 4,5 4,0 4,5 4,5 5,0 —0,5 0,0 0,0 +0,5 0,0 +0,5 +0,5 + 1,0 0,5 1,0 1.0 0,5 0,0 0,5 0,5 0,0 степенью вероятности могла бы появиться любая из 16 возможных комбинаций единиц, т.
е. любая из 16 возможных выборок. Результаты таких выборок приведены в табл. 7.1.В рассматриваемом примере можно определить и долю единиц
с величиной признака х, например, равной 4. Доля таких единиц
2
в генеральной совокупности равна 0,50 (р= — = 0,50). В 16 воз-
4
можных выборках выборочная доля оказалась равной 0; 0,5; 1,0 (см. графу 6 табл. 7.1).
Возможные варианты значений выборочных средних и отклонения их от генеральной средней представлены в форме ряда распределения1 (табл. 7.2).
Таблица 7.2 Выборочные средние Число выборок с данной выбг] о той средней Отклонение выборочной средней от генеральной средней Вероятность появления данного значения выборочной средней (или величины отклонения выборочной сретней от генеральной) 3,0 1 -1,0 0,0625 3,5 4 —0,5 0,2500 4,0 6 0,0 0,3750 4,5 4 + 0,5 0,2500 5,0 1 + 1,0 0,0625 Итого 16 1,0000 Нетрудно заметить, что в распределении величин выборочных средних и отклонений наблюдаются определенные закономерности.
1. Из возможных результатов простой случайной повторной выборки наиболее вероятны такие, при которых величина выборочной средней будет близка к величине генеральной средней и, следовательно, разность между выборочной и генеральной средней
будет близка к нулю (например, значение л;=4,0, совпадающее с
х=4,0, имеет наибольшую вероятность 0,375, а значения х, равные 3,0 и 5,0, имеют наименьшую вероятность 0,0625). Таким образом, чем больше величина случайной ошибки выборки, тем менее вероятно появление такой ошибки. *
2. В отдельных выборках" (в 10 из 16) значения выборочных средних не будут точно совпадать с величиной генеральной средней, но если мы рассчитаем среднюю из всех возможных значений выборочной средней, то величина этой средней будет совпадать с величиной генеральной средней:
2Zfi — 3,0-1+3,5-4+4,0-6+4,5-4+5,0-1 -27;-=*=-ГТз-=4.°-
3. В нашем примере не встречаются ошибки, большие единицы по абсолютной величине, т. е. всегда существует предел расхождений между выборочной и генеральной средней.
В математической теории выборочного метода строго доказы-> вается, что с увеличением объема выборки вероятность появления больших ошибок и пределы максимально возможной ошибки уменьшаются (чем больше обследуется единиц, тем меньше будет величина расхождений выборочных и генеральных характеристик) .
Теоретической основой выборочного метода служат неравенство П.
Л. Чебышева и теорема А. Н. Ляпунова. Неравенство П. Л. Чебышева в приложении к выборочному методу может быть сформулировано так: при неограниченном увеличении числа независимых наблюдений (п->-<х) в генеральной совокупности с ограниченной дисперсией, с вероятностью, сколь угодно близкой к единице, можно ожидать, что отклонение выборочной средней от генеральной средней будет сколь угодно мало, т. е.Р(\х—х\^е)—И при п—УОО, где Р — вероятность неравенства, стоящего в скобках; е — любое сколь угодно малое положительное число; х — генеральная средняя.
Таким образом, неравенство П. Л. Чебышева доказывает принципиальную возможность определения генеральной средней по данным простой случайной повторной выборки. Однако, пользуясь им, мы не можем указать вероятность появления ошибок определенной величины. На этот вопрос отвечает центральная предельная теорема А. М. Ляпунова. Согласно этой теореме при достаточно большом числе независимых наблюдений в генеральной coBOf купиости с конечной средней и ограниченной дисперсией вероят-
125
ность того, что расхождение между выборочной и генеральной
средней ] — лг| не превзойдет по абсолютной величине некоторой величины (ц, равна интегралу Лапласа.
Можно записать сказанное таким образом:
P(\x-^x\^tlx)= +t г- t i'
Ф(0=—= [е~Т Л=-4= V.e~~ dt.
Величина р, есть средняя квадратическая или стандартная ошибка выборки.
Частным случаем неравенства П. Л. Чебышева является теорема Я. Бернулли:
/4(*-p)<^-?.]>i_JL.
где w и р — доля признака соответственно в выборочной и генеральной совокупности.
Вернемся к примеру, рассмотренному на с. 124. Там были представлены все возможные варианты выборочных средних и их отклонения-от генеральной средней. Используя данные табл. 7.2, рассчитаем величину стандартной ошибки выборки по формуле средней квадрэтической:
„ 1/ ХЙ-ТИ, 1/ (-1)М + (-0,5)*-4+0+0,5М+1М
v —Wi—;= v----i6--=од
Однако на практике исследователь оперирует данными какой-то одной конкретной выборки, и таким путем определить стандартную ошибку невозможно. В математической статистике доказывается, что величина.средней квадр'атической ошибки простой случайной повторной выборки может быть определена по формуле
V п V"
где а — среднее квадратическое отклонение в генеральной совокупности; п — объем выборки.
В нашем примере величина генеральной дисперсии равна 0,5, а объем выборки равен 2. Отсюда
/0,5 ,- —=У0,25 = 0,5.
Из формулы средней квадратической ошибки простой случайной повторной выборки видно, что величина \а~ зависит от колеблемости признака в генеральной совокупности (чем больше вариа-
ция признака, тем больше ошибка выборки) и от объема выборки (чем больше обследуется единиц, тем меньше будет величина расхождений выборочных и генеральных характеристик).
Величину tyx, называют предельной ошибкой выборки. Обозначив предельную ошибку выборки А, получим:
X X
Предельная ошибка выборки, следовательно, равна / — кратному числу средних ошибок выборки. Допустим, что t=2. Тогда1
Р (|x —*Х2|х) = Ф (f=2) =0,9545, т. е. с вероятностью, равной 0,9545, можно ожидать, что ошибка выборочной средней не превысит удвоенной средней квадратической ошибки выборки. Таким образом, величина предельной ошибки выборки может быть установлена с определенной вероятностью.
Приведем наиболее часто употребляемые уровни вероятности и соответствующие значения t для выборок достаточно большого объема (пГэгЗО):
t 1,00 1,96 2,00 2,58 3,00 Ф(0 0,683 0,950 0,954 0,990 0,997 Как видно из последней графы, вероятность появления ошибки, равной или большей утроенной средней ошибки выборки, т. е. Д>3ц, крайне мала и равна 0,003 (1—0,997). Такие маловероятные события считаются практически невозможными, а поэтому величину Д = 3ц можно принять за предел возможной ошибки выборки.
Распределение выборочной доли для 16 выборок представим в табл. 7.3.
Таблица 7.3
Выборочная
ДОЛЯ t4J;
Число выборок с данной выборочной долей 11
Отклонение выборочной дгли от генеральной Vlj—p
wifi
0,0
4
—0,5
0,0
-ч 1.0
0,5
8
0,0
4,0
0
1,0
4
+0,5
4,0
1,0
Итого
16
8,0
2,0
В среднем для всех выборок
_ 5>,Ь- 8,0 ^•=-^-Г=-Т6-=0,5=р.
Средняя квадратическая ошибка доли по выборке
—w— У нГ=0-354-
126
127
Ранее было показано, что дисперсия доли (о2Р) равна —
л
поэтому величину средней стандартной ошибки выборочной доли можно определить по следующей формуле:
Цр-
Предельная ошибка доли Ap = fp.p. /0,5 0,5 -^—=0,354.
В формулы средней ошибки выборки входит дисперсия признака в генеральной совокупности, величина которой, как правило, при проведении выборочного наблюдения неизвестна. Нам приходится использовать выборочную дисперсию в качестве оценки генеральной дисперсии. Можно доказать, что a2=s2——-1, следовательно, ~- п—1
генеральную дисперсию можно определить по формуле
' 2 (Xi—X)2 П T,(Xi— X)*
<Т2.— .--. - =-- .
п п— 1 п—1
При большом объеме выборки (я>30) разница между диспер-
сией, вычисленной по формуле о2= ——-— и по формуле а2=
п
JY х__х\г
=--—- , очень невелика, и поправка к выборочной дисперсии не-
п—1
30
обязательна (для п=30 получим——- =1,035, т, е. выборочная
30—1
дисперсия будет на 3,5% меньше генеральной).
Применение простой случайной повторной выборки в практике очень ограничено. Прежде всего практически нецелесообразно, а иногда невозможно повторное наблюдение одних и тех же единиц, а поэтому однажды обследованная единица повторному учету не подвергается. Применение бесповторного отбора взамен повторного диктуется также требованием повышения степени репрезентативности выборки (особенно при недостаточно больших п).
Средняя квадратическая ошибка случайной бесповторной выборки определяется по формулам1:
1 Эти формулы являются упрощением строгой формулы
так как при достаточно больших N
N—n ^ ^ и
N-1 *ЛГ
где N — объем генеральной совокупности. Сопоставление формул стандартной ошибки выборки для повторного и бесповториого отбора свидетельствует о том, что применение бесповторного отбора взамен повторного приводит к уменьшению стандартной ошибки выборки.
В тех случаях, когда численность генеральной совокупности ЛГ очень велика по сравнению с числом отобранных единиц п, величина (1--—) будет близка к 1, а поэтому ею можно пренебречь.
Тогда ошибку случайного бесповторного отбора определяют по формуле простой случайной повторной выборки, что повышает надежность оценок генеральных характеристик по выборочным данным. Выборочное наблюдение проводится в целях распространения выводов, полученных по данным выборки, на генеральную совокупность. Одной из основных задач является оценка по данным выборки интересующих нас характеристик (параметров) генеральной совокупности.
Рассмотрим определение величины средней арифметической генеральной совокупности на основе выборочных данных.
Выборочное наблюдение дает возможность определить среднюю
арифметическую выборочной совокупности х и величину предельной ошибки этой средней Ajf , которая показывает (с определенной вероятностью), насколько выборочная средняя может отличаться от генеральной средней в большую или меньшую сторону. Тогда величина генеральной средней будет представлена интервальной
сценкой, для которой нижняя граница будет равна х — AjTia верхняя граница — x-f-Aj. Пределы, в которых с данной степенью вероятности будет заключена неизвестная величина оцениваемого параметра, называют доверительными, а вероятность Р — доверительной вероятностью. Доверительный интервал для генеральной средней может быть записан так:
X—ta- < X < X + tn- .
X X
Чаще всего доверительную вероятность устанавливают равной 0,95 или 0,99 (величины коэффициентов t равны соответственно 1,96 и 2,58). Вероятность того, что величина генеральной средней выйдет за доверительные границы, будет равна 1 — Р, т. е. будет равна 0,05 или 0,01. Событие, обладающее столь малой вероятностью, считается практически невозможным. Аналогичным образом могут быть записаны доверительные пределы генеральной доли:
Величина доверительного интервала для генеральной средней или генеральной доли зависит от величины предельной ошибки
9. Заказ 4789
129
128
Рис. 7.1. Доверительный интервал генеральное доли:
1. при вероятности р—0,954; 2. прн вероятности р=0,997.
выборки Ах или Др. Чем больше величина Д, тем 'больше величина доверительного интервала и тем, следовательно, ниже точность оценки. Поскольку величина предельной ошибки выборки равна /ц, точность оценки параметров генеральной совокупности будет зависеть от принятого уровня доверительной вероятности и от величины стандартной ошибки выборки. Донустим, что доля брака по данным выборки составила 0,02 (или 2%) при п= = 1000 и Л/= 10000. Величина стандартной ошибки случайной бесповторной выборки равна 0,0042.
/w(l-w) Г гГ~ч /" 0,02-0,98 / 1000 \ _
п у 1_ "77 J V looo [ ~ юооо J
С вероятностью 0,954 можно утверждать, что предельная ошибка доли брака не превысит 0,0084 (Ар=2 цр). Если мы примем доверительную вероятность равной 0,9973, то величина предельной ошибки выборки будет равна 0,0126-(0,0042-3), и доля брака в генеральной совокупности будет находиться в интервале 0,02± ±0,0126, т. е. 0,743,26%. Таким образом, с вероятностью 99,73% можно ожидать, что количество бракованных деталей будет находиться в интервале от 74 до 326 шт., тогда как с вероятностью 95,4% доверительный интервал составит 116-^284 шт. (рис. 7.1).
Незначительно увеличивая достоверность выводов (с 95,4% ДО 99,7%), мы существенно снижаем точность оценки. В этой связи в экономических расчетах чаще рекомендуется использовать доверительную вероятность Р=0,95 или Р=0,954 = 1,96 или г = 2,00).
lip
= 0,0042.
Еще по теме 7.2. ПРОСТАЯ СЛУЧАЙНАЯ ВЫБОРКА:
- 9.2.3 Персональные ресурсы потребителей
- НЕ СПРАШИВАЙТЕ, ПРОСТО НАБЛЮДАЙТЕ
- 7.2. ПРОСТАЯ СЛУЧАЙНАЯ ВЫБОРКА
- 7.3. ОПРЕДЕЛЕНИЕ НЕОБХОДИМОЙ ЧИСЛЕННОСТИ ВЫБОРКИ
- 7.4. РАЗЛИЧНЫЕ ВИДЫ ВЫБОРОЧНОГО НАБЛЮДЕНИЯ
- 7.5. МАЛЫЕ ВЫБОРКИ
- НЕ СПРАШИВАЙТЕ, ПРОСТО НАБЛЮДАЙТЕ
- 9.2.3 Персональные ресурсы потребителей
- Случайная выборка
- Объем выборки при случайном отборе
- Районированная выборка[333] Пути модификации собственно-случайной выборки
- Стратифицированная выборка
- Многоступенчатая выборка
- Ошибки выборки при одноступенчатом гнездовом отборе
- Ошибка многоступенчатой выборки
- Неслучайные методы отбора
- Эффективность квотной выборки и пути ее совершенствования