<<
>>

9.4. ИЗМЕРЕНИЕ ТЕСНОТЫ КОРРЕЛЯЦИОННОЙ СВЯЗИ МЕЖДУ ДВУМЯ ПРИЗНАКАМИ

Показатели тесноты связи дают возможность охарактеризовать степень зависимости вариации результативного признака от вариации признака-фактора. В известной мере они дополняют и развивают уже отмеченные приемы обнаружения связи.

186 I

Зная показатели тесноты корреляционной связи, мы сможем: 1) ответить на вопрос о необходимости изучения данной связи и целесообразности ее практического применения; 2) сопоставляя показатели тесноты связи для различных ситуаций, судить о степени различий в ее проявлении для конкретных условий; 3) и, наконец, сопоставляя показатели тесноты связи результативного признака с различными факторами, выявить те факторы, которые в данных конкретных условиях являются решающими и воздействуют на формирование величины результативного признака.

К простейшим показателям степени тесноты связи относят коэффициент корреляции знаков (коэффициент Г. Фехнера), основанный на оценке степени согласованности направлений отклонений индивидуальных значений аргумента и функции от соответствующих средних. Для расчета этого показателя вычисляют средние значения результативного и факторного признаков, а затем проставляют знаки отклонений для всех значений взаимосвязанных признаков. Если число совпадений знаков отклонений индивидуальных величин от средней обозначить па, а число несовпадений знаков отклонений пь, то коэффициент Г. Фехнера можно записать таким образом:

*Ф= - (9.7)

Пи+Пь

Коэффициент Фехнера может принимать различные значения в пределах от —1 до +1. Если знаки всех отклонений совпадут, то пь=0 и тогда показатель будет равен 1, что свидетельствует о несомненном наличии прямой связи. Если же знаки всех отклонений будут разными, тогда па=0 и коэффициент Фехнера будет равен —1, что свидетельствует о наличии обратной связи.

Рассмотрим расчет Кф на примере, приведенном в табл. 9.5.

Таблица 9.5 Знак отклонений индиви- Средняя дуальной величины признака Порядковый Энерговоору- месячная от средней Совпадение (a) j номер пред- женность, выработка и несовпадение приятия кВт ? ч/чел.-ч рабочего, знаков (6) тыс. руб., чел. для X для у I 2 3 4 5 6 1 4,0 8,43 а 2 4,3 9,79 — — а 3 6,7 9,06 — — а 4 7,4 11,01 — — а 5 7,7 12,69 — — а 6 8,3 10,55 — + Ъ 7 9,6 • 10,12 + — Ь 8 12,1 14,58 + + а 9 15,0 14,18 + + а 10 16,0 20,22 + + а Итого 91,1 121,63 187

Средний уровень энерговооруженности труда составит (х) 9,11 кВт-ч/чел.-ч, а средний уровень месячной выработки—(у) 12,163 тыс. руб./чел. В графах 4 и 5 табл. 9.5 указаны знаки отклонений значений признаков от средней. Используя данные графы 6,

получим па=8, пь = 2. Тогда Кф= -1=+0,6. Полученная вели-

8 + 2

чина коэффициента Фехнера свидетельствует о том, что между уровнем энерговооруженности труда и средней месячной выработкой рабочих можно предполагать наличие прямой зависимости. Как видно из приведенной формулы для расчета коэффициента Фехнера, величина этого показателя не зависит от величины отклонений факторного н результативного признаков от соответствующей средней величины. Поэтому нельзя говорить о степени тесноты корреляционной связи, а тем более об оценке ее существенности на основании только коэффициента Фехнера. При малом объеме исходной информации коэффициент Фехнера практически решает ту же задачу, которая ставится при построении групповых и корреляционных таблиц, т. е. отвечает на вопрос о наличии и направлении корреляционной связи между признаками. В том случае, если построена корреляционная или же групповая таблица, дополнительный расчет коэффициента Фехнера не имеет практической ценности.

Более совершенным показателем степени тесноты связи является линейный коэффициент корреляции г0*.

При расчете этого показателя учитываются не только знаки отклонений индивидуальных значений признака от средней, но и сами величины таких от-» клонений, т. е. соответственно для факторного и результативного признаков величин xi—х и уг—у. Однако непосредственно сопоставлять между собой полученные абсолютные величины нельзя, так как сами признаки могут быть выражены в разных единицах (например, тарифный разряд и уровень средней выработки в рублях), а при наличии одних и тех же единиц измерения средние могут быть различны по величине. В этой связи сравнению могут подлежать отклонения, выраженные в относительных величинах, т. е. в долях среднего квадрэтического отклонения. Так, для фак-

торного признака будем иметь совокупность величин tx~ =—5-,

а для результативного гУ/= . Полученные таким образом.

нормированные отклонения можно сравнивать между собой. Для того чтобы на основе сопоставления рассчитанных нормированных отклонений получить обобщающую характеристику степени тесноты связи между признаками для всей совокупности,, рассчитывают среднее произведение нормированных отклонений. Получен-

1В8

[ная таким образом средняя и будет являться линейным коэффициентом корреляции г.

, х,- »i \ Ox I \ Oy J

Ьли поскольку Ox и ov для данных рядов являются постоянными и шогут быть вынесены за скобку, то формула линейного коэффициента корреляции приобретает следующий вид:

2 ixi—x)Uli-y)

ПОхОу

(9.8)

Используем данные табл. 9.1 и покажем этапы расчета линей-1ного коэффициента корреляции.

Таблица 9.6 Порядковый номер предприятия | Уровень энерговооруженности труда, кВт • ч/чел.-ч х1 Уровень средней месячной выработки, тыс. руб./чел. У1 XI —X (xt -X)' У1 -у (У1 —У)' ? *•*

? X 1 2 3 4 5 6 7 8 1

2

3 4 5 6 7 8 9 10 4,0 4,3 6,7 7,4 7,7 8,3 9,6 12,1 15,0 16,0 8,43 9,79 9,06 11.01 11,69 12,55 10,12 14,58 14,18 20,22 —5,11 —4,81 —2,41 -1,71 -1,41 —0,81 0,49 2,99 5,89 6,89 26,11 23,14 5,80 2,92 1,99 0,66 0,24 8,94 34,69 47,47 —3,733 —2,373 —3,103 —1,153 —0,469 +0,387 —2,042 +2,417 +2,017 +8,057 13,94 5,63 9,63 1,33 0,22 0,15 4,17 5,84 4,07

64,91 + 19,076 + 11,41?; + 7,478 + 1,972 + 0,661

- 0,313

— Looi

+ 7,227 + 11,880 + 55,513 Итого 91,1 121,63 151,969 109,897 113,905 По итоговым данным графы 2 и графы 3 определим: х= = 9,11кВт; у= 12,163 тыс. руб. г

=У 15,1969=3,897 кВт ч/чел.-ч ;

=У 10,9897=3,316 тыс. руб./чел.; + 113,905

10-3,897-3,316

= 0,881.

189

Знак линейного коэффициента корреляции указывает на направление связи — прямой зависимости соответствует знак плюс, а обратной зависимости — знак минус.

Можно показать, что линейный коэффициент корреляции может принимать любые значения в пределах от —1 до +1. Чем ближе коэффициент корреляции по абсолютной величине к 1, тем теснее связь между признаками. Полученная величина линейного коэффициента корреляции свидетельствует о наличии ^достаточно тесной прямой зависимости между рассматриваемыми7 признаками. Вычисление коэффициента корреляции по указанной формуле (9.8) является трудоемкой операцией. Выполнив несложные преобразования, можно получить следующую формулу для расчет*' линейного коэффициента корреляции:

г=-?--(9.8а)

У["2>2- (2*)21 Г"2r=_nZxt/fxy-Zxfx--2yfv_ (9 86)

Существенное упрощение расчетов достигается при использовании метода отсчета от условного нуля.

Как известно, в этом случае мы определяем отклонения вариантов значения признака не от их средних арифметических, а от произвольно выбранного начала отсчета (Ах—для вариантов значений факторного признака и Ау — для вариантов значений результативного признака).

Если мы обозначим: ах— отклонения индивидуальных значений факторного признака х от принятого начала отсчета в долях

х-__а

интервала по х (т. е. величина ах= ——— ) и ау — отклонения

индивидуальных значений результативного признака от принятого

начала отсчета в долях интервала по у (ау=Л_у— ), то вычнс-

ление коэффициента корреляции по корреляционной таблице с использованием условных отклонений осуществляется по следующей формуле:

n2axavfXy--Zaxfx--Zayfy г= _-— • (9.8в)

190

Для расчета воспользуемся корреляционной табл. 9.4. В качестве условного начала отсчета для ряда распределения значений х и у примем центральное значение второго интервала, т. е. Ах= = 8,5; Ау= 12,855.

Тогда табл. 9.4 примет следующий вид:

Таблица 9.7 аУ -1 0 +1 +2 «л Xi ^ 9,905 12,855 15,805 18,755 fx ах fx а'х fx —I

0

+ 1

+2 5,5 8,5 11,5 14,5 3 2 2 1 1 1 3 4 1 2 -3 0

1

4 3 0 1 8 fy 5 3 1 1 10 2 12 ау fy °2у /у —5 5 0 0 + 1 1 +2 4 —2 10 Zaxayfxy= +3+1 + 4=8; Sa^=2 ; 2%fy=-2;

2аУ*=12; Xa\fv=W; S^=Sfy=10. * Подставив вычисленные значения в формулу (9.86), получим линейный коэффициент корреляции, равный +0,795: 2(-2)

10 8+0,4 8,4 г=--- ---=---?=---= 0,795.

8-

V{*~){^) у"'6'9-6

3,41-3,10

Коэффициент корреляции в обобщенной форме дает представление о фактах, на основе которых он получен. Поэтому нужно помнить, что величина коэффициента корреляции зависит от выбора единицы наблюдения, если эта единица принадлежит к числу изменяемых. Чтобы яснее было дальнейшее изложение, введем понятие неизменяемых и изменяемых единиц наблюдения. Неизменяемые единицы наблюдения — единицы, по которым непосредственно фиксируются признаки, выражающие свойства этих единиц. Например, фиксируется уровень часовой производительности труда у рабочих разной квалификации. В этом случае единицей наблюдения является отдельный рабочий.

Изменяемые единицы наблюдения — это производные группы единиц, полученные на основе статистических расчетов. Так, продолжая приведенный выше пример, можно сгруппировать рабочих по уровню квалификации и определить уровень средней часовой

191

выработки рабочих одной и той же квалификации. Грубой ошиб кой является расчет коэффициента корреляции между средними значениями факторного и результативного признаков, представленных в групповой таблице. Как правило, величина коэффициента корреляции, рассчитанного по средним групповой таблицы, близка к единице, тогда как действительная степень тесноты связи может быть значительно ниже. Объяснение различий в величинах коэффициентов корреляции следует искать в ослаблении по группам влияния прочих, не учитываемых нами причин, «случайных» по отношению к уровню факторного признака. Чем большее число единиц будет объединено в группу, тем относительно меньше будет подвержена действию случайных факторов группа в целом, поскольку результаты действия случайных факторов имеют тенденцию взаимно погашаться. В таких случаях действительная теснота корреляционной зависимости преувеличивается. Поэтому правильные выводы о степени тесноты связи мы можем сделать, коррелируя значения признаков по неизменяемым единицам наблюдения, т. е. следует коррелировать не средние значения факторного и результативного признаков по выделенным группам, а величины этих признаков, полученные в результате наблюдения у отдельных единиц совокупности.

Зная линейный коэффициент корреляции, оценивающий степень тесноты связи между изменениями аргумента х и функции у,

Л

можно определить коэффициент регрессии в уравнении У(Х) = а + Ьх по следующей формуле:

b=r\' (9-9)

где оу и Ох — средние квадратические отклонения соответственно значений результативного и факторного признаков.

Наличие соотношения (9.9) дает возможность производить вычисление коэффициента корреляции и параметров уравнения линейной регрессии одновременно.

Воспользуемся данными примера, приведенного на с. 180 для расчета параметров уравнения линейной зависимости. Расчет показателей по сгруппированным данным привел к таким результатам: ож=3,23; оу = 2,88; л=0,795. Тогда в=0,795- -07U

3,23 ' '

а~У—Ьх= 12,265—0,71-9,1 = 5,8. И уравнение линейной зависимости уровня средней месячной выработки от уровня энерговоору-

л

женности труда примет вид: ух=5,80+0,7 \х.

Оценка степени тесноты связи с помощью коэффициента корреляции производится, как правило, на основе более илн менее ограниченной информации об изучаемом явлении. В этой связи возникает вопрос о том, насколько правомерно наше заключение о действительном наличии корреляционной связи в той совокупности, из которой была произведена выборка. Принципиально возможны случаи, когда отклонение, от нуля полученной величины

192

выборочного коэффициента корреляции оказывается целиком обусловленным неизбежными случайными колебаниями тех выборочных данных, на основании которых он вычислен. Особенно осторожно следует подходить к истолкованию полученных коэффициентов корреляции при незначительных объемах выборочной совокупности. В этой связи и возникает необходимость оценки существенности линейного коэффициента корреляции, дающая возможность распространить выводы по результатам выборки на генеральную совокупность. В зависимости от объема выборочной совокупности предлагаются различные методы оценки существенности линейного коэффициента корреляции.

В отношении приводимых ниже критериев существенности можно сделать общее замечание, касающееся свойств исходной совокупности. Этим свойством является нормальное распределение значений признака в исходной совокупности.

Рассмотрим следующие критерии, предлагаемые в статистической литературе:

1. При большом объеме выборки, отобранной из исходной нормально распределенной совокупности, можно считать распределение линейного коэффициента корреляции приближенно нормальным со средней, равной г, и дисперсией о2г= ^ ^, и тогда

средняя квадратическая ошибка коэффициента корреляции равна:

0,=^=-. (9.10)

|//г— 1

где г — линейный коэффициент корреляции, полученный по данным выборки; п — объем выборки.

Если величина линейного коэффициента корреляции превышает величину средней квадрэтической ошибки более чем в /aov рззэ, то можно говорить о существенности выборочного коэффи-циентэ корреляции, где a — уровень знэчимостн 0,01 или 0,05.

Если же отношение—L^-окажется меньше ta, то с вероятностью

(1—а) следует предполагать отсутствие корреляционной связи в генеральной совокупности. Доверительный интервал для коэффициента корреляции будет записан так:

1-г* , 1-г*

Г-ta -,-< Г +1а --?,

у/п— 1 yn—1

где гген — значение коэффициента корреляции в генеральной совокупности.

При малых объемах выборки и линейном коэффициенте корреляции, близком к 1, использование средней квадратйческой ошибки по формуле (9.10) в качестве критерия существенности г оказывается невозможным в силу того, что распределение выборочного т может значительно отличаться от нормального. ?

2. Для малого объема выборочной совокупности рекомендуется критерий проверки гипотезы об отсутствии корреляционной свя-

13. Заказ 4739

193

зн между исследуемыми переменными, предложенный Р. Фишером. Используется тот факт, что величина /раСч=-4==п=^-2при

У 1 — гя

условии г=0 распределена по закону Стьюдента с (л—2) степенями свободы. Полученную величину /расч сравнивают с табличным значением /-критерия (число степеней свободы равно п—2). Если рассчитанная величина tpSlC4 превосходит табличное значение критерия г, то практически невероятно, что найденное значение г обусловлено только случайными совпадениями х и у в выборке из генеральной совокупности, для которой действительное значение коэффициента корреляции равно 0. Если же вычисленная величина 'расч меньше, чем в таблице, то полагают, что коэффициент корреляции в генеральной совокупности в действительности равен нулю и соответственно эмпирический коэффициент корреляции не отличается существенно от нуля.

Применим указанный метод к оценке существенности корреляции между уровнем энерговооруженности труда и уровнем средней месячной выработки. При объеме выборки, равном 10, и при условии, что величина коэффициента корреляции равна 0,881, получим:

0,881 г—— 0,881-V8"

/расч = „ 710-2 = --i—=4,1 I.

yi-0,0812 0,368

В таблице для числа степеней свободы k=n—2=8 и уровня значимости 1% находим, что /=3,355'. Таким образом, лишь с вероятностью, меньшей 1%, можно утверждать, что величина /= =4,11 могла появиться в силу случайностей выборки. Такое событие является маловероятным, а потому можно считать, что в генеральной совокупности действительно существует прямая зависимость между изучаемыми признаками, т. е. отличие выборочного коэффициента корреляции от нуля является существенным.

3. Проверку гипотезы об отсутствии связи можно сделать и без вычислений, пользуясь таблицей, составленной Р. Фишером. В этой таблице показывается величина коэффициента корреляции, которая может считаться существенной при данном количестве наблюдений. При пользовании этой таблицей величину коэффициента корреляции следует искать для числа степеней свободы, равного п—2.

Краткую выдержку из таблицы2 значений коэффициентов корреляции при различных уровнях критерия значимости приводим в табл. 9.8.

1 Смирнов Н. В., Дуни н-Б а р к о в с к и й И. В. Курс теории вероятностей и математической статистики для технических приложений. М., Наука, 1965, с. 471.

194

T & б л и ц а 9.8 п—% а=0,05 а=0,02 «=0,01 п-2 я=0,05 «=0,02 1-0,01 4 0,8114 0,8822 0,9172 40 0,3044 0,3578 0,3972 8 0,6319 0,7155 0,7646 50 0,2732 0,3218 0,3541 10 0,5760 0,6581 0,7079 60 0,2500 0,2948 0,3248 13 0,5139 0,5923 0,6411 70 0,2319 0,2737 0,3017 18 0,4438 0,5155 0,5614 80 0,2172 0,2565 0,2830 20 0,4227 0,4921 0,5368 90 0,2050 0,2422 0,2573 25 0,3809 0,4451 0,4869 100 0,1946 0,2301 0,2510 30 0,3494 0.4093 0,4487 В приведенном выше примере коэффициент корреляции для оценки тесноты связи между уровнем энерговооруженности труда н средней месячной выработкой рабочих был рассчитан всего по 10 данным. По табл. 9.9 находим, что коэффициент корреляции по данным выборки должен быть по крайней мере не ниже 0,7646, для того чтобы он мог считаться существенным при уровне значимости (1=0,01. При уровне значимости а=0,05 можно говорить о значимости действительной связи при коэффициенте корреляции, равном или более 0,6319. По расчету линейный коэффициент корреляции получился равным 0,881. Сравнение расчетного и табличных значений линейного коэффициента корреляции дает основание предполагать действительное наличие связи между изучаемыми признаками в генеральной совокупности.

4. В тех случаях, когда линейный коэффициент корреляции, полученный по данным относительно малой выборки, близок к единице (г^0,8) для проверки его существенности рекомендуется метод преобразованной корреляции, предложенный Р. Фишером. Р. Фишер показал, что распределение логарифмической функции линейного коэффициента корреляции (обозначается эта функция г) приближается к нормальной кривой даже для выборок очень небольшого объема:

Z = 4~ [1П (1 + Г) - 1П (1 - Л) ] = \- 1П .

Средняя квадратическая ошибка z-распределения зависит только от объема выборки и определяется по формуле

о,—=-« (9-Н)

уп-3

По таблице соотношений между гиг1, дающей возможность избежать вычислений логарифмов, находим, что коэффициенту корреляции 0,881 соответствует z=l,38. Для числа наблюдений п=10

с2=-===-=-]=-=-^—»= 0,378, yi0-3 у7 2,646

13*

195 отношение г к средней квадратической ошибке аг равно 3,65 (1,38: : 0,378). Характеристику oz можно рассматривать как среднее квадратическое отклонение нормального распределения. Поскольку отношение ~~~ оказалось больше трех, можно полагать действи-

°г

тельное наличие связи между признаками в генеральной совокупности.

Коэффициент корреляции достаточно точно оценивает степень тесноты связи лишь в случае наличия линейной зависимости между признаками. При наличии же криволинейной-зависимости линейный коэффициент корреляции преуменьшает степень тесноты связи и даже может быть равен 0, а потому в таких случаях рекомендуется использовать в качестве показателя степени тесноты связи эмпирическое корреляционное отношение* г]. Расчет корреляционного отношения основан на известной теореме сложения дисперсий. Общая дисперсия результативного признака (о2о) может быть разложена на две составляющие. Первая составляющая — межгрупповая дисперсия б2 — характеризует ту часть колеблемости результативного признака, которая складывается под влиянием изменения признака-фактора, положенного в основу группировки

h _ _

2 {yi—yo)2ns

62=^—-h-,.

2 п,

где «/j — средние значения результативного признака в соответствующих группах; у0— общая средняя .для всей совокупности; fij — число наблюдений в соответствующей группе; k — число выделенных групп. Вторая составляющая — средняя из внутригруп-повых дисперсий о2,-— оценивает ту часть вариации результативного признака, которая обусловлена действием других случайных причин.

_ 2 &Ы 02.=_!_-,

2 п,

где o2j — дисперсия результативного признака в соответствующей группе.

Общая дисперсия о02 равна: о^=б2+а^ . Зная общую и межгрупповую дисперсии, можно оценить ту долю, которую составляет вариация функции под действием фактора х в общей вариации ре-

„ в2 зультативного признака у, т. е. найти отношение- . Извлекая

о2о

196

1 Показатель был предложен в 1896 г. К. Пирсоном.

квадратный Корень из этого отношения, получим корреляционное

.Отношение

П= ]/-|- • О 12)

Величина корреляционного отношения может быть рассчитана и по следующей формуле:

ч= \f\--^r- (9.12а)

Величина корреляционного отношения будет равна нулю, когда нет колеблемости в величине средних по выделенным группам. В тех случаях, когда внутригрупповая дисперсия близка к нулю, т. е. вся вариация результативного признака обусловлена действием фактора х, величина корреляционного отношения близка к 1. Направление связи мы легко устанавливаем по данным групповой и корреляционной таблиц.

Воспользуемся данными групповой табл. 9.3 для иллюстрации расчета величины корреляционного отношения.

Таблица 9.9 Группы предприятий по уров "К> энерг'л/оэружен-ностн ipvaa, кВт - ч че.1 -ч Число предприятий в группе nj Средняя месячнач выработка в группе, тыс. руб./чел.

У} (У] -У»)' (УJ -У.)!«/ 1 2 3 4 5 4.0—7,0 7,0—10.0 10,0—13,0 13,0—16,0 3 4 1 2 9,093 11,343 14,580 17,200 9,425 0,672 5,842 25,370 28,275 2,688 5,842

50,740 Итого 10 12,163 87,545 Средняя выработка по всем 10 предприятиям составит 12,163 тыс. руб^чел. Обозначим ее величину у0. Величина общей дисперсии выработки будет равна:

0г =i/2_ (у0)2= 158,928-12,1632= 10,99.

Сумма квадратов рассчитана по первичным данным табл. 9.1. Используем итог графы 5 табл. 9.10 для расчета межгрупповой дисперсии.

87,545

б2= —=8,7545=8,755.

197

Следовательно, величина корреляционного отношения для рассматриваемого примера составляет:

V 10;

755

=|/0,796=0,892.

Следует отметить, что вычисление- корреляционного отношения возможно лишь при наличии достаточно большого числа данных, которые представлены либо в форме корреляционной, либо в форме групповой таблицы. Вычисление корреляционного отношения при малом числе наблюдений в каждой группе лишается смысла.

Определенный интерес представляет сопоставление величины линейного коэффициента корреляции и корреляционного отношения. Сравнив полученную величину корреляционного отношения с величиной линейного коэффициента корреляции г=0,881, полученной при расчете по иесгруппированным данным, можно видеть, что г\ незначительно больше г. Когда связь между переменными уклоняется от линейной формы, то г\ и г несколько отличаются по величине, причем г\ всегда больше г по абсолютной величине1.

Сопоставление линейного коэффициента корреляции и эмпирического корреляционного отношения имеет смысл только в случае, когда эти показатели вычислены для одинаковым образом сгруппированных данных, т. е. при сравнении и коэффициент корреляции и корреляционное отношение должны быть вычислены либо по данным корреляционной таблицы, либо по первичным данным и групповой таблице.

При проверке возможности использования линейной функции, в качестве формы уравнения определяют разность квадратов rf— —г2, и если эта разность менее 0,1, то считается возможным применить линейное уравнение корреляционной зависимости. В нашем случае разность квадратов корреляционного отношения и линейного коэффициента корреляции равна 0,0192. (rj2—г2=0,8922— —0,8812=0,7957—0,7762), что значительно меньше 0,1.

Более строгая проверка гипотезы о линейности связи может быть осуществлена с помощью величины хю2, определяемой отношением:

Т)2 — Л2 1—Г]2

где k — число групп, на которые разбит диапазон значений факторного признака.

Величина w2 имеет F-распределение с числом степеней свободы числителя (k—2) и знаменателя (п—k).

Рассчитаем ш2 для приводимого нами примера:

0,8922-0,8812 1—0.8922 0,0195 0,2043

ш2=-—-:-=-:-=0,2874.

4—2 10—4 2 6

Зададимся уровнем значимости а=0,05 и определим по таблицам f-распределения табличное значение ^-критерия при заданном уровне значимости и числе степеней свободы числителя, равном 2, и знаменателя, равном /*"табл = 5,14.

Так как w2 оказывается значительно меньше табличного значения F-критерия, то нулевая гипотеза о возможности использования в качестве уравнения регрессии линейной функции не опровергается. Если же w2 окажется больше /^абл, то гипотезу о линейном виде уравнения регрессии следует считать необоснованной.

Проверка гипотезы об общем виде уравнения корреляционной зависимости может быть основана на критерии, использующем конкретный вид уравнения регрессии. В случае правильного выбора вида уравнения регрессии величина

» _ л * ni _

2 (У1-У*Л*"1 2 2 (Уи-У})2

-: -. (9 14)

должна иметь F-распределение с числом степеней свободы числителя (k—т) и знаменателя (п—/г), где п — общее число наблюдений; k — число групп, на которые разбивают диапазон значений факторного признака; tij — число наблюдений в у-й группе; т—число параметров в уравнении регрессии; yj—среднее значение резуль-

л

тативного признака в /-й группе; yXj—значения результативного признака, рассчитанные по уравнению регрессии и полученные подстановкой средних значений факторного признака в уравнение для /-й группы.

Первое отношение характеризует меру рассеивания групповых средних вокруг линии регрессии, а второе — меру рассеивания эмпирических данных вокруг групповых средних, т. е. если в первом случае рассеивание будет зависеть от выбранного вида линии регрессии, то во втором случае мы имеем меру, независимую от выбранного вида регрессионной линии.

Для проверки гипотезы о линейности связи, т. е. о возмож-

Л

ности использования уравнения вида y=a + bx\ т=2.

Используем данные табл. 9.3 и графы 11 табл. 9.4 для расчета величины (см. табл. 9.10)

к _ Л

2 {yt-y*s)*ni

k — m

Основываясь на теореме сложения дисперсий и используя

к п(

расчеты, приведенные на с. 200, определим 2 2 (уц—yj)2 по формуле (1— rf)al -л= (1—0.892)2-10,99-10=22,453!

Тогда расчетное значение отношения (14) будет равно 0,657.

4,913 22,453 •„ „

—-:—:—=2,457:3,742

4-2 10-4 »

199

198

«г

Таблица 9.10 Группы предприятий по уропню энерговооруженности трудя, кВт • ч чел.-ч Число предприятий в группе лу Среднее значение результативного признака в группе, тыс. руб./чел.

yj л

ух, {yj-y*j)2nj 1 2 3 4 5 4,0— 7,0 7,0-10,0 10,0—13,0 13,0-16,0 3 4 1

2 9,093 11.343 14,580 17.200 9.705 11,835 13,965 16,095 1,125 0,968 0,378 . 2,442 Итого 10 12.163 4,913 Табличное значение F-критерия (при уровне значимости а=0,05 и числе степеней свободы числителя, равном 2, и знаменателя, равном 6) составляет 5,14. Поскольку расчетное значение 0,657 значительно меньше табличного 5,14, гипотеза о линейности связи не опровергается.

Для оценки степени тесноты связи в условиях избранной нами формы уравнения используется показатель, называемый индексом корреляции:

(9 15)

Индекс корреляции изменяется в пределах от 0 до I. Если Чг = 0' т0 это означает, что между переменными нет связи, или если она и существует, то не может быть охарактеризована избранной кривой.

Если же iyx = l, то это означает, что связь в данном случае совершенно точно описывается избранной кривой.

Для рассматриваемого выше примера индекс корреляции будет равным 0,88:

, Г. 291Г

v = 1/ 1---—=0,88.

v* У 82,9

Величина индекса корреляции очень незначительно отличается от величины линейного коэффициента корреляции (г=0,881), что свидетельствует о достаточно обоснованном выборе в качестве формы уравнения прямой линии. На величину индекса корреляции влияет соотношение между числом исходных данных (объем выборки) и числом параметров в корреляционном уравнении. Поэтому следует внести поправку в величину индекса корреляции по следующей формуле:

il =1- Г {l-it) (JZL\l, (9.15а)

vx скор [ v* у п-т J J

где т — число параметров в уравнении связи (для нашего примера т = 2).

il = 1 - (1 - 0,7744) ( 0,2256 4~ = 0,7462,

1/хсор v [ 10-2 ) : 8

откуда »л =0,8638.

Vx скор

При рассмотрении индекса корреляции следует иметь в виду зависимость величины этого показателя от того, какая форма линии регрессии нами была избрана. Поэтому индекс корреляции в известной мере следует считать не показателем степени тесноты связи между изучаемыми признаками, а показателем степени близости выбранной теоретической линии регрессии к фактическим данным.

#

<< | >>
Источник: Т. В. Рябушкин. Общая теория статистики: Учебник/Т. В. Рябушкин, 0-28 М. Р. Ефимова, И. М. Ипатова, Н. И. Яковлева. — М.: Финансы и статистика. — 279 с, ил.. 1981 {original}

Еще по теме 9.4. ИЗМЕРЕНИЕ ТЕСНОТЫ КОРРЕЛЯЦИОННОЙ СВЯЗИ МЕЖДУ ДВУМЯ ПРИЗНАКАМИ:

  1. 7.4. Показатели тесноты связи между двумя количественными признаками
  2. 7.3. Показатели тесноты связи между двумя качественными признаками
  3. 9.2. СТАТИСТИЧЕСКИЕ МЕТОДЫ ВЫЯВЛЕНИЯ НАЛИЧИЯ КОРРЕЛЯЦИОННОЙ СВЯЗИ МЕЖДУ ДВУМЯ ПРИЗНАКАМИ
  4. 7.6. Теоретическое корреляционное отношение как универсальный показатель тесноты связи
  5. 7.5. Нахождение уравнений регрессии между двумя признаками
  6. 7.2.3. Изучение связи между качественными признаками на основе таблиц сопряженности
  7. 7.2. Методы выявления корреляционной связи
  8. 9.1. СУЩНОСТЬ КОРРЕЛЯЦИОННОЙ связи
  9. Соотношение между двумя подразделениями общественного производства.
  10. Экономика Германии в период между двумя мировыми войнами