<<
>>

7.4.1. Линейный коэффициент корреляции

Для измерения тесноты связи между двумя количественными признаками х и у наиболее широко используется линейный коэффициент корреляции г.

Как явствует из его названия, он применим лишь в случае линейной зависимости между признаками.

Если форма связи между

хну еще не определена, его рассчитывают с целью получить ответ на вопрос, можно ли считать зависимость линейной.

Как и коэффициент Фехнера, линейный коэффициент корреляции может быть построен на основе отклонений индивидуальных значений х и у от соответствующей средней величины. Но в отличие от Лф в линейном коэффициенте корреляции учитываются не только знаки, но и значения отклонений (х — х) и (у — у), выраженные для сопоставимости в единицах среднего квадратического отклонения каждого признака, т.е. как нормированные отклонения V.

X — X У — У 1х = и / = - -.

(7.11)

Линейный коэффициент корреляции представляет собой среднюю величину из произведений нормированных отклонений ДЛЯ X и у.

г = (х-х) / \ У - У 1 ) I п Вынеся ах и за знак суммы (как постоянные величины), получим другой вид формулы линейного коэффициента корреляции:

_ Х(х - х)(у - у)

(7.12)

п°х°у

Числитель формулы (7.12), деленный на и, т.е.

Х(х - х)(у - у) —

= (х - х)Си - у),

п

представляет собой среднее произведение отклонений значений двух признаков от их средних, именуемое их ковариацией. Поэтому можно сказать, что линейный коэффициент корреляции представляет собой частное от деления ковариации между х и у на произведение их средних квадратических отклонений.

Путем несложных математических преобразований можно получить и другие модификации формулы линейного коэффициента корреляции.

В частности, учитывая, что

]Г(Х - х)(у - у) = Хху - Xху - - ?ху = п п —

ху — ху — X у + х у = ху — ху, ху — ху

о а

X у

Еще одно выражение для линейного коэффициента корреляции получим, преобразовав в формуле (7.12) знаменатель:

(7.14)

1(х - х)(У - У) т!Х(х - х)21,(у - у)2

Иногда линейный коэффициент корреляции удобно рассчитывать по итоговым значениям (суммам) исходных переменных: (7.15)

пЦху -

или

«X*2 - (1х)2][п^у2 - (5»:

ЪУ

И,ху - 2>- 5>2 -

(5>Г

I*2- Линейный коэффициент корреляции можно рассчитать и по формуле

(7.16) —

коэффициент регрессии в уравнении связи (см.

параграф 7.5);

ах и а — соответственно среднее квадратическое отклонение в ряду х и в ряду у.

Линейный коэффициент корреляции может принимать значения от —1 до +1, причем знак определяется в ходе решения.

Например, если ху > ху, то г [по формуле (7.13)] будет положительным, что характеризует прямую зависимость между

х и у. Если ху < ху, то г будет со знаком «—», что означает

обратную связь между х и у. Если ху = ху, то г будет равен нулю, что означает отсутствие линейной зависимости между х и у. Коэффициент корреляции, равный единице (г = 1), означа-

где а ет функциональную зависимость между хи у. Следовательно, всякое промежуточное значение гот 0 до 1 характеризует степень приближения корреляционной связи между х и у к функциональной.

Таким образом, коэффициент корреляции при линейной зависимости служит как мерой тесноты связи, так и показателем, характеризующим степень приближения корреляционной зависимости между х и у к линейной. Поэтому близость значения А- к О в одних случаях может означать отсутствие связи между х и у, а в других свидетельствовать о том, что зависимость не линейная.

Рассмотрим расчет линейного коэффициента корреляции на примере.

Пример. Имеются данные по восьми фирмам о часовой оплате труда х и уровне текучести кадров у (табл. 7.8). Необходимо измерить тесноту связи между х и у.

Таблица 7.8

Расчетная таблица для определения линейного коэффициента корреляции №

п/п Часовая оплата труда, руб.

X Уровень текучести кадров, % У х2 ху У2 1 30 34 900 1020 1156 2 40 35 1600 1400 1225 3 50 33 2500 1650 1089 4 60 28 3600 1680 784 5 70 20 4900 1400 400 6 80 24 6400 1920 576 7 90 15 8100 1350 225 8 100 11 10000 1100 121 I 520 200 38000 11520 5576 Средняя 65 25 4750 1440 697 величина (X) (У) (х2) (ху) (у2) Предположив линейную зависимость между ними, воспользуемся формулой (7.13), для чего сначала рассчитаем ах и а (расчет необходимых показателей приведен в табл. 7.8):

ох = д/х2 - (х)2 = л/4750 - (65)2 = 22,9;

= Р - (Я2 = V697 - (25)2 = 8,48. _ ху - ху _ 1440 — 65-25 _

ала, - 22,9-8,48 ’ '

Аналогичный результат получим, воспользовавшись формулой (7.15):

г = >>1.ху - 2>1> =

^х2 - (1х)2][«1у2 - О»2]

8-11520 - 520-200 _ л пс

I _ 0^95«

^[8-38000 - (520)2][8-5576 - (200)2]

Чтобы воспользоваться формулой (7.14), по исходным данным рассчитаем отклонения от средних, их квадраты и произведения, как это показано в табл. 7.9.

Расчетная таблица для определения линейного коэффициента корреляции

Таблица 7.9 №

п/п X У х - X у - У (х- х)(у- у) (х - X)2 (У - У? 1 30 34 -35 9 -315 1225 81 2 40 35 -25 10 -250 625 100 3 50 33 -15 8 -120 225 64 4 60 28 -5 3 -15 25 9 5 70 20 5 -5 -25 25 25 6 80 24 15 -1 -15 225 1 7 90 15 25 -10 -250 625 100 8 100 11 35 -14 -490 1225 196 ? 520 200 0 0 -1480 4200 576 - 520 « - 200 Напомним, что по данным таблицы х = =65, у

О О

= 25.

Отсюда

г = 1(Х - х)Ск - у) = -1480 = _0 95 &(х-х)2Ъ(у-У)2 ^4^576

Таким образом, по всем формулам получен один и тот же результат: г = -0,95, что позволяет сделать вывод о том, что между оплатой труда х и уровнем текучести кадров у существует сильная обратная связь, т.е.

с увеличением оплаты труда текучесть кадров снижается.

Проверка коэффициента корреляции на значимость (существенность)

Интерпретируя значение коэффициента корреляции, следует иметь в виду, что он рассчитан для ограниченного числа наблюдений и подвержен случайным колебаниям, как и сами значения х и у, на основе которых он рассчитан, т.е., как любой выборочный показатель, он содержит случайную ошибку и не всегда однозначно отражает действительно реальную связь между изучаемыми показателями.

Для того чтобы оценить существенность (значимость) самого г

и, соответственно, реальность измеряемой связи между х и у, необходимо рассчитать среднюю квадратическую ошибку коэффициента корреляции ог.

Оценка существенности (значимости) линейного коэффициента корреляции основана на сопоставлении значения г с его средней квадратической ошибкой:

Iг I

Укажем особенности расчета этого критерия в зависимости от числа наблюдений (объема выборки) — п. 1.

Если число наблюдений достаточно велико (и > 50) и есть основания полагать, что выборка осуществлена из нормальной совокупности, то средняя ошибка коэффициента корреляции рассчитывается по следующей приближенной формуле: 1

- г2

ст = (7.17)

л/л

Обычно при большом п, если коэффициент корреляции г пре-

и

вышает свою среднюю ошибку ог больше чем в 3 раза (т.е. — > 3),

он считается значимым (существенным), а связь — реальной.

Задавшись определенной вероятностью, можно определить доверительные пределы (границы) г. Так, при вероятности 0,95, для

которой коэффициент доверия / = 1,96 (см. Приложение 2), доверительные границы г составят 1

- г2 г ± 1,96—

Ып

При вероятности 0,997, для которой коэффициент доверия / = 3 (см. Приложение 2), доверительные границы г составят ,2

= г± Заг.

Поскольку значение г не может превышать единицу, то в случае, если г + 3аг > 1, следует указывать только нижний предел, т.е. утверждать, что реальный г не менее чем г — 3<зг. 2.

При небольшом числе наблюдений (п < 30) средняя ошибка линейного коэффициента корреляции определяется как

л/и — 2

Г

о

(7.18) г^п — 2

а значимость г проверяется на основе /-критерия Стьюдента. При этом выдвигается и проверяется нулевая гипотеза о равенстве коэффициента корреляции нулю, т.е. гипотеза об отсутствии связи между хиз'в генеральной совокупности. Для этого определяется расчетное значение критерия:

г

Г,

расч а

Г

и сопоставляется с /табл.

Если нулевая гипотеза верна, т.е. г = 0, то распределение /-критерия подчиняется закону Стьюдента (с заданными параметрами: уровнем значимости а, принимаемым обычно за 0,05, и числом степеней свободы V = п — 2). Поэтому в каждом конкретном случае по таблице распределения /-критерия Стьюдента (см. Приложение 9) находится критическое значение /, которое допустимо при справедливости нулевой гипотезы, и с ним сравнивается фактическое (расчетное) значение t.

Если / > /таб1, то нулевая гипотеза отвергается и линейный

коэффициент считается значимым, а связь между х и у - реальной.

Если /расч < /таб1, то нулевая гипотеза не отвергается и коэффициент корреляции считается незначимым, т.е. считается, что связь между х и у отсутствует, и значение г, отличное от нуля, получено случайно.

Проверим на значимость линейный коэффициент корреляции, рассчитанный по данным табл. 7.8. Так как п = 8, г= —0,95, средняя ошибка коэффициента корреляции

= 0,13.

VI - г2 _ VI - 0,952 4п-г л/8 — 2

Отсюда

, =и = М1 = 73

расч аг 0,13

По таблице Приложения 9 находим ?табч (при а = 0,05 и числе степеней свободы V = п — 2 = 6):

'табл = 2,4469.

Так как полученное /расч = 7,3 больше ?табл = 2,4469, то нулевая гипотеза об отсутствии связи между х и у в генеральной совокупности отвергается, т.е. мы делаем вывод, что коэффициент корреляции значим и существенно отличается от нуля, подтверждая тем самым реальную связь между х и у.

<< | >>
Источник: Г.Л. Громыко. Теория статистики: Учебник. — Т11 2-е изд., перераб. и доп. - М.: ИНФРА-М,. - 476 с. — (Классический университетский учебник)., . 2005

Еще по теме 7.4.1. Линейный коэффициент корреляции:

  1. 7.4.2. Коэффициенты корреляции рангов
  2. 9.5. КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ РАНГОВ
  3. Коэффициент внутригнездовой корреляции
  4. 9.6. МНОЖЕСТВЕННАЯ КОРРЕЛЯЦИЯ
  5. 8.8. Корреляция рядов динамики
  6. 7.5.3. Гиперболическая корреляция
  7. 7.4.3. Коэффициент конкордации
  8. 10.6. КОРРЕЛЯЦИЯ В РЯДАХ ДИНАМИКИ
  9. 7.8. Множественная корреляция
  10. 3.7.1. Районный коэффициент
  11. 6.2.3 Линейно-функциональная система
  12. § 4. Коэффициенты преступности и ее структура
  13. 7.5.1. Парная линейная регрессия
  14. 7.5.2. Параболическая корреляция
  15. 6.2.1 Линейная система
  16. КОЭФФИЦИЕНТЫ ДЕМОГРАФИЧЕСКИЕ
  17. График. (Поле корреляции, диаграмма рассеивания)
  18. 4.4. Линейно-функциональная система управления
  19. КОЭФФИЦИЕНТ ТОБИНА
  20. 4.3.6. Повышающие и понижающие коэффициенты