7.4.1. Линейный коэффициент корреляции
Для измерения тесноты связи между двумя количественными признаками х и у наиболее широко используется линейный коэффициент корреляции г.
Как явствует из его названия, он применим лишь в случае линейной зависимости между признаками.
Если форма связи междухну еще не определена, его рассчитывают с целью получить ответ на вопрос, можно ли считать зависимость линейной.
Как и коэффициент Фехнера, линейный коэффициент корреляции может быть построен на основе отклонений индивидуальных значений х и у от соответствующей средней величины. Но в отличие от Лф в линейном коэффициенте корреляции учитываются не только знаки, но и значения отклонений (х — х) и (у — у), выраженные для сопоставимости в единицах среднего квадратического отклонения каждого признака, т.е. как нормированные отклонения V.
X — X У — У 1х = и / = - -.
(7.11)
Линейный коэффициент корреляции представляет собой среднюю величину из произведений нормированных отклонений ДЛЯ X и у.
г = (х-х) / \ У - У 1 ) I п Вынеся ах и за знак суммы (как постоянные величины), получим другой вид формулы линейного коэффициента корреляции:
_ Х(х - х)(у - у)
(7.12)
п°х°у
Числитель формулы (7.12), деленный на и, т.е.
Х(х - х)(у - у) —
= (х - х)Си - у),
п
представляет собой среднее произведение отклонений значений двух признаков от их средних, именуемое их ковариацией. Поэтому можно сказать, что линейный коэффициент корреляции представляет собой частное от деления ковариации между х и у на произведение их средних квадратических отклонений.
Путем несложных математических преобразований можно получить и другие модификации формулы линейного коэффициента корреляции.
В частности, учитывая, что
]Г(Х - х)(у - у) = Хху - Xху - - ?ху = п п —
ху — ху — X у + х у = ху — ху, ху — ху
о а
X у
Еще одно выражение для линейного коэффициента корреляции получим, преобразовав в формуле (7.12) знаменатель:
(7.14)
1(х - х)(У - У) т!Х(х - х)21,(у - у)2
Иногда линейный коэффициент корреляции удобно рассчитывать по итоговым значениям (суммам) исходных переменных: (7.15)
пЦху -
или
«X*2 - (1х)2][п^у2 - (5»:
ЪУ
И,ху - 2>- 5>2 -
(5>Г
I*2- Линейный коэффициент корреляции можно рассчитать и по формуле
(7.16) —
коэффициент регрессии в уравнении связи (см.
параграф 7.5);ах и а — соответственно среднее квадратическое отклонение в ряду х и в ряду у.
Линейный коэффициент корреляции может принимать значения от —1 до +1, причем знак определяется в ходе решения.
Например, если ху > ху, то г [по формуле (7.13)] будет положительным, что характеризует прямую зависимость между
х и у. Если ху < ху, то г будет со знаком «—», что означает
обратную связь между х и у. Если ху = ху, то г будет равен нулю, что означает отсутствие линейной зависимости между х и у. Коэффициент корреляции, равный единице (г = 1), означа-
где а ет функциональную зависимость между хи у. Следовательно, всякое промежуточное значение гот 0 до 1 характеризует степень приближения корреляционной связи между х и у к функциональной.
Таким образом, коэффициент корреляции при линейной зависимости служит как мерой тесноты связи, так и показателем, характеризующим степень приближения корреляционной зависимости между х и у к линейной. Поэтому близость значения А- к О в одних случаях может означать отсутствие связи между х и у, а в других свидетельствовать о том, что зависимость не линейная.
Рассмотрим расчет линейного коэффициента корреляции на примере.
Пример. Имеются данные по восьми фирмам о часовой оплате труда х и уровне текучести кадров у (табл. 7.8). Необходимо измерить тесноту связи между х и у.
Таблица 7.8
Расчетная таблица для определения линейного коэффициента корреляции №
п/п Часовая оплата труда, руб.
X Уровень текучести кадров, % У х2 ху У2 1 30 34 900 1020 1156 2 40 35 1600 1400 1225 3 50 33 2500 1650 1089 4 60 28 3600 1680 784 5 70 20 4900 1400 400 6 80 24 6400 1920 576 7 90 15 8100 1350 225 8 100 11 10000 1100 121 I 520 200 38000 11520 5576 Средняя 65 25 4750 1440 697 величина (X) (У) (х2) (ху) (у2) Предположив линейную зависимость между ними, воспользуемся формулой (7.13), для чего сначала рассчитаем ах и а (расчет необходимых показателей приведен в табл. 7.8):
ох = д/х2 - (х)2 = л/4750 - (65)2 = 22,9;
= Р - (Я2 = V697 - (25)2 = 8,48. _ ху - ху _ 1440 — 65-25 _
ала, - 22,9-8,48 ’ '
Аналогичный результат получим, воспользовавшись формулой (7.15):
г = >>1.ху - 2>1> =
^х2 - (1х)2][«1у2 - О»2]
8-11520 - 520-200 _ л пс
I _ 0^95«
^[8-38000 - (520)2][8-5576 - (200)2]
Чтобы воспользоваться формулой (7.14), по исходным данным рассчитаем отклонения от средних, их квадраты и произведения, как это показано в табл. 7.9.
Расчетная таблица для определения линейного коэффициента корреляции
Таблица 7.9 №
п/п X У х - X у - У (х- х)(у- у) (х - X)2 (У - У? 1 30 34 -35 9 -315 1225 81 2 40 35 -25 10 -250 625 100 3 50 33 -15 8 -120 225 64 4 60 28 -5 3 -15 25 9 5 70 20 5 -5 -25 25 25 6 80 24 15 -1 -15 225 1 7 90 15 25 -10 -250 625 100 8 100 11 35 -14 -490 1225 196 ? 520 200 0 0 -1480 4200 576 - 520 « - 200 Напомним, что по данным таблицы х = =65, у
О О
= 25.
Отсюда
г = 1(Х - х)Ск - у) = -1480 = _0 95 &(х-х)2Ъ(у-У)2 ^4^576
Таким образом, по всем формулам получен один и тот же результат: г = -0,95, что позволяет сделать вывод о том, что между оплатой труда х и уровнем текучести кадров у существует сильная обратная связь, т.е.
с увеличением оплаты труда текучесть кадров снижается.Проверка коэффициента корреляции на значимость (существенность)
Интерпретируя значение коэффициента корреляции, следует иметь в виду, что он рассчитан для ограниченного числа наблюдений и подвержен случайным колебаниям, как и сами значения х и у, на основе которых он рассчитан, т.е., как любой выборочный показатель, он содержит случайную ошибку и не всегда однозначно отражает действительно реальную связь между изучаемыми показателями.
Для того чтобы оценить существенность (значимость) самого г
и, соответственно, реальность измеряемой связи между х и у, необходимо рассчитать среднюю квадратическую ошибку коэффициента корреляции ог.
Оценка существенности (значимости) линейного коэффициента корреляции основана на сопоставлении значения г с его средней квадратической ошибкой:
Iг I
Укажем особенности расчета этого критерия в зависимости от числа наблюдений (объема выборки) — п. 1.
Если число наблюдений достаточно велико (и > 50) и есть основания полагать, что выборка осуществлена из нормальной совокупности, то средняя ошибка коэффициента корреляции рассчитывается по следующей приближенной формуле: 1
- г2
ст = (7.17)
л/л
Обычно при большом п, если коэффициент корреляции г пре-
и
вышает свою среднюю ошибку ог больше чем в 3 раза (т.е. — > 3),
он считается значимым (существенным), а связь — реальной.
Задавшись определенной вероятностью, можно определить доверительные пределы (границы) г. Так, при вероятности 0,95, для
которой коэффициент доверия / = 1,96 (см. Приложение 2), доверительные границы г составят 1
- г2 г ± 1,96—
Ып
При вероятности 0,997, для которой коэффициент доверия / = 3 (см. Приложение 2), доверительные границы г составят ,2
= г± Заг.
Поскольку значение г не может превышать единицу, то в случае, если г + 3аг > 1, следует указывать только нижний предел, т.е. утверждать, что реальный г не менее чем г — 3<зг. 2.
При небольшом числе наблюдений (п < 30) средняя ошибка линейного коэффициента корреляции определяется как
л/и — 2
Г
о
(7.18) г^п — 2
а значимость г проверяется на основе /-критерия Стьюдента. При этом выдвигается и проверяется нулевая гипотеза о равенстве коэффициента корреляции нулю, т.е. гипотеза об отсутствии связи между хиз'в генеральной совокупности. Для этого определяется расчетное значение критерия:
г
Г,
расч а
Г
и сопоставляется с /табл.
Если нулевая гипотеза верна, т.е. г = 0, то распределение /-критерия подчиняется закону Стьюдента (с заданными параметрами: уровнем значимости а, принимаемым обычно за 0,05, и числом степеней свободы V = п — 2). Поэтому в каждом конкретном случае по таблице распределения /-критерия Стьюдента (см. Приложение 9) находится критическое значение /, которое допустимо при справедливости нулевой гипотезы, и с ним сравнивается фактическое (расчетное) значение t.
Если / > /таб1, то нулевая гипотеза отвергается и линейный
коэффициент считается значимым, а связь между х и у - реальной.
Если /расч < /таб1, то нулевая гипотеза не отвергается и коэффициент корреляции считается незначимым, т.е. считается, что связь между х и у отсутствует, и значение г, отличное от нуля, получено случайно.
Проверим на значимость линейный коэффициент корреляции, рассчитанный по данным табл. 7.8. Так как п = 8, г= —0,95, средняя ошибка коэффициента корреляции
= 0,13.
VI - г2 _ VI - 0,952 4п-г л/8 — 2
Отсюда
, =и = М1 = 73
расч аг 0,13
По таблице Приложения 9 находим ?табч (при а = 0,05 и числе степеней свободы V = п — 2 = 6):
'табл = 2,4469.
Так как полученное /расч = 7,3 больше ?табл = 2,4469, то нулевая гипотеза об отсутствии связи между х и у в генеральной совокупности отвергается, т.е. мы делаем вывод, что коэффициент корреляции значим и существенно отличается от нуля, подтверждая тем самым реальную связь между х и у.
Еще по теме 7.4.1. Линейный коэффициент корреляции:
- 3.1.4. Качество трудовой жизни
- 1. Статистика
- 9.4. ИЗМЕРЕНИЕ ТЕСНОТЫ КОРРЕЛЯЦИОННОЙ СВЯЗИ МЕЖДУ ДВУМЯ ПРИЗНАКАМИ
- 9.5. КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ РАНГОВ
- 9.6. МНОЖЕСТВЕННАЯ КОРРЕЛЯЦИЯ
- 10.6. КОРРЕЛЯЦИЯ В РЯДАХ ДИНАМИКИ
- 7.2.1. Параллельное рассмотрение значений х и j в каждой из п единиц
- 7.4. Показатели тесноты связи между двумя количественными признаками
- 7.4.1. Линейный коэффициент корреляции
- 7.4.2. Коэффициенты корреляции рангов
- 7.5.1. Парная линейная регрессия
- 7.6. Теоретическое корреляционное отношение как универсальный показатель тесноты связи
- 7.8. Множественная корреляция
- 8.7. Автокорреляция в рядах динамики
- 8.8. Корреляция рядов динамики
- 1. Статистика
- Коэффициент внутригнездовой корреляции
- СОДЕРЖАНИЕ ТРУДА
- § 3. Парная линейная корреляция
- § 4. Иные способы установления взаимосвязей