7.4.2. Коэффициенты корреляции рангов
Наряду с линейным коэффициентом корреляции г для измерения тесноты связи между двумя коррелируемыми признаками часто используются менее точные, но более простые по расчету непараметрические показатели, к числу которых, кроме коэффициента Фехнера (см.
подпараграф 7.2.1), относятся коэффициенты корреляции рангов (или ранговые коэффициенты корреляции) Спирмэна (р) и Кендэла (т).Оба показателя, названные именами английских ученых, предложивших эти коэффициенты, основаны на корреляции не самих значений коррелируемых признаков, а их рангов.
Ранг — это порядковый номер, присваиваемый каждому индивидуальному значению х и у (отдельно) в ранжированном ряду. Оба признака необходимо ранжировать (нумеровать) в одном и том же порядке: от меньших значений к большим и наоборот. Чаще нумерация (присвоение ранга) от 1 до и идет по возрастанию значений признака. Если встречается несколько одинаковых значений х (или у), то каждому из них присваивается ранг, равный частному от деления суммы рангов (мест в ряду), приходящихся на эти значения, на число равных значений.
Например, если после значения признака, получившего ранг 3, следуют по возрастанию два одинаковых значения (т.е. значения, занимающие 4-е и 5-е места, одинаковы), то им обоим присваивается ранг, равный 4,5, так как (4 + 5)/2 = 4,5. Если бы за рангом 3 следовали три равных значения признака, то им всем был бы присвоен одинаковый ранг 5, так как (4 + 5 + 6)/3 = 5.
Ранги признаков х и у обозначают символами и N (иногда Ях и І?). Суждение о связи между изменениями значений X и у основано на сравнении поведения рангов по двум признакам параллельно. Если у каждой пары хи у ранги совпадают, это характеризует максимально тесную прямую связь. Если же наблюдается полная противоположность рангов, т.е. в одном ряду ранги возрастают от 1 до п, а в другом — убывают от л до 1, это максимально возможная обратная связь.
При общей идее перехода от самих значений признаков к их рангам подходы к измерению тесноты связи при корреляции рангов у Спирмэна и Кендэла несколько отличаются, что находит отражение в предложенных ими формулах.
Для расчета коэффициента Спирмэна значения признаков хи у нумеруют (отдельно) в порядке возрастания от 1 до п, т.е.
им присваивают определенный ранг (Nx и N ) — порядковый номер в ранжированном ряду. Затем для каждой пары рангов находят их разность (обозначается как сі = — Я), и квадраты этой разности суммируют.Коэффициент корреляции рангов Спирмэна
р = 1 - ~з , или р = 1 -1 -, (7.19)
п — п п (п — 1)
где (1 — разность рангов їй у;
п — число наблюдаемых пар значений х и у.
Примечание. Формула (7.19) представляет собой не что иное, как модификацию одной из формул линейного коэффициента корреляции, где вместохи^ рассматриваются их ранги в виде ряда натуральных чисел от 1 до п, для которых, как известно, средняя величина равна п(п + 1)/2, а сумма квадратов отклонений чисел натурального ряда от их средней величины равна (л3 - п)/12. После определенных преобразований формулы линейного коэффициента корреляции и замены значений х и у характеристиками натурального ряда получается формула (7.19).
Коэффициент корреляции рангов Спирмэна может принимать значения от 0 до ±1.
Когда ранги двух признаков полностью совпадают, т.е. каждое значение Ях = N , то ?^2 = 0. Соответственно, р = 1, что характеризует, как уже указывалось, максимально тесную прямую связь.
Если ранги двух признаков имеют строго противоположное направление, т.е. первому рангу х соответствует п-й (последний) ранг у, второму — (п — 1)-й ранг у и т.д., то в этом случае макси-
^2 п{п2 - X) 6?с12 мальная величина X" равна и, следовательно, 3
’ " п(п2 — 1)
может иметь максимальное значение 2. Тогда по формуле Спир- мэна р =— 1, что характеризует полную (максимально тесную) обратную связь между изменениями значений хну.
Если же связь между хну отсутствует, то, очевидно, долж-
п(п2 - 1)
но соблюдаться равенство 2^а = , и тогда р = 0.
6
Следует иметь в виду, что, поскольку коэффициент Спирмэна учитывает разность только рангов, а не самих значений х и у, он менее точен по сравнению с линейным коэффициентом. Поэтому его крайние значения (1 или 0) нельзя безоговорочно расценивать как свидетельство функциональной связи или полного отсутствия зависимости между х и у.
Во всех других случаях, т.е.
когда р не принимает крайних значений, он довольно близок к г. Если же учесть простоту его расчета, то становится понятным, почему многие исследователи отдают ему предпочтение, особенно на начальном этапе выявления наличия связи между изучаемыми показателями.Рассмотрим расчет коэффициента корреляции рангов Спирмэна по данным о часовой оплате труда х и уровне текучести кадров у (см. табл. 7.8). Исходные данные и расчет необходимых показателей приведены в табл. 7.10.
Таблица 7.10
Расчетная таблица для определения коэффициента корреляции рангов Спирмэна X У Ранги Разность рангов с! = N - N
X у N
X N
У 30 34 1 7 -6 36 40 35 2 8 -6 36 50 33 3 6 -3 9 60 28 4 5 -1 1 70 20 5 3 2 4 80 24 6 4 2 4 90 15 7 2 5 25 100 И 8 1 7 49 п = 8 = 164 Подставим в формулу (7.19) рассчитанные значения = 164 ия = 8:
п_, _і 6-164 _ ППСЛ
р - 1 , 1 — —— = -0,952.
п(п — 1) 8(64 - 1)
Полученное значение коэффициента корреляции рангов Спир- мэна (р = —0,952) свидетельствует о сильной обратной связи между х и у.
Формула (7.19) применима строго теоретически только тогда, когда отдельные значения х (и у), а следовательно, и их ранги не повторяются. Для случая повторяющихся (связанных) рангов есть другая, более сложная формула, скорректированная на число повторяющихся рангов. Однако опыт показывает, что результаты расчетов по скорректированной формуле для связанных рангов мало отличаются от результатов, полученных по формуле для неповторяющихся рангов. Поэтому на практике формула (7.19) успешно применяется как для неповторяющихся, так и для повторяющихся рангов.
Коэффициент корреляции рангов Кендэла т строится несколько по-другому, хотя его расчет также начинается с ранжирования значений признаков х и у.
Ранги х (Ы ) располагают строго в порядке возрастания и параллельно записывают соответствующее каждому Ых значение N.
Поскольку Ых записаны строго по возрастанию, то ставится задача определить меру соответствия последовательности N «правильному» следованию Ых.
При этом для каждого N последовательно определяют число следующих за ним рангов, превышающих его значение, и число рангов, меньших по значению. Первые («правильное» следование) учитываются как баллы со знаком «+», и их сумма обозначается буквой Р. Вторые («неправильное» следование) учитываются как баллы со знаком «—», и их сумма обозначается буквой 0.Очевидно, что максимальное значение Рдостигается в том случае, если ранги у ^у) совпадают с рангами х (Мх) и в каждом ряду представляют ряд натуральных чисел от 1 до п. Тогда после первой пары значений = 1 и Ж = 1 число превышения данных значений рангов составит (п — 1), после второй пары, где Nx = 2 и N = 2, соответственно (п — 2) и т.д. Таким образом, если ранги х и у совпадают и число пар рангов равно п, то
п (п — 1)
^шах = (п - 1) + (Я — 2) + ... + 3 + 2 + 1 = -Ц—А
Если последовательность рангов у имеет обратную тенденцию по отношению к последовательности рангов х, то будет иметь такое же максимальное значение по модулю:
10 | = п (я - 1)
I ^тах | 2
Если же ранги у не совпадают с рангами х, то суммируются все положительные и отрицательные баллы (? = Р + 0; отношение данной суммы 5 к максимальному значению одного из слагаемых и представляет собой коэффициент корреляции рангов Кендэла т, т.е.
т= -^гпр ™" (7'20)
2
Рассмотрим расчет коэффициента корреляции рангов Кендэла на примере табл. 7.11, где х и у изменяются в одном направлении.
Пример. Предположим, по 10 хозяйствам имеются данные об урожайности картофеля у (ц/га) и о количестве внесенных на 1 га удобрений х (кг). Необходимо измерить тесноту связи между изменениями х и у с помощью коэффициента корреляции рангов Кендэла. Исходные данные и необходимые расчеты приведены в табл. 7.11.
Таблица 7.11
Расчетная таблица для определения коэффициента корреляции рангов Кендэла X У Ранги Подсчет баллов «+» «—» 138 218 1 1 9 0 175 240 2 3 7 1 190 232 3 2 7 0 196 280 4 6 4 2 200 260 5 4 5 0 235 310 6 9 1 3 250 290 7 7 2 1 260 278 8 5 2 0 275 300 9 8 1 0 290 320 10 10 — — п = 10 Р “ 38 0« -7 Поясним, как происходит подсчет баллов.
Поскольку ранги х, т.е.
N , даны строго в порядке возрастания, подсчет баллов ведем, наблюдая за изменением Л\ Так, после первой пары девять значений N больше 1 и ни одного меньше 1. Поэтому в первой строке стоит 9 в графе со знаком «+» и 0 в графе со знаком «-».После второй пары, где N - 3, наблюдается семь случаев, когда ранги у превышают значение 3, и один ранг (Л/у= 2) по значению меньше 3. Соответственно во второй строке записана цифра 7 в графе со знаком «+» и 1 в графе со знаком «—» и т.д.
В итоге Р = 38, б = -7, а ? = Р + 0 = 38 - 7 = 31.
Отсюда коэффициент корреляции рангов Кендэла
2-31
10-9
25
= 0,69.
п (п — 1)
Полученное значение рангового коэффициента корреляции Кендэла характеризует довольно большую (выше средней) тесноту связи между изменениями X и у.
Аналогично рассчитывается т и для случая противоположной направленности рангов хиу, как, например, в табл. 7.10. Чтобы рассчитать по данным табл. 7.10 коэффициент Кендэла, перепишем значения рангов х и у еще раз в табл. 7.12 и определим Р и ().
Таблица 7.12
Расчетная таблица N
X N
У Подсчет баллов «+» «—» 1 1 1 6 2 8 0 6 3 6 0 5 4 5 0 4 5 3 1 2 6 4 0 2 7 2 0 1 8 1 — — п 8 Р= 2 <2 = -26 Согласно данным табл. 7.12 при «правильном» следовании рангов х в ряду у только в двух случаях наблюдается превышение предыдущего ранга: это значение 8 после первой пары, где Иу — 1, и 4 после пятой пары, где N = 3. Во всех остальных случаях последующие ранги меньше рассматриваемого в каждой паре N и N. Так, за первой парой следует шесть рангов, значение которых меньше N = 7, за второй парой также следует шесть рангов, значение которых меньше N = 8, за третьей парой - пять рангов, которые меньше N = 6, и т.д.
Таким образом, в сумме Р = 2, <2 = —26, а5'=/3 + (2 = 2 — 26 = = -24. Отсюда
= , 2^ _
п(п-\) 8-7
Полученное отрицательное значение коэффициента Кендэла характеризует сильную обратную связь между х и у.
Формула коэффициента корреляции рангов Кендэла (7.20) применяется для случаев, когда отдельные значения признака (как х, так и у) не повторяются и, следовательно, их ранги не объединены.
Если же встречается несколько одинаковых значений х (или у), т.е.
ранги повторяются, становятся связанными, коэффициент корреляции рангов Кендэла определяется по формуле^ ,, • (7-21)
п(п - 1) _
1 *
п (п - 1) _
1 У
где 5 — фактическая общая сумма баллов при оценке +1 каждой пары рангов с одинаковым порядком изменения и -1 каждой пары рангов с обратным порядком изменения;
и = и = Г !) _ число баллов, корректирующих (умень- *
у 2
шающих) максимальную сумму баллов за счет повторений (объединений) I рангов в каждом ряду.
Отметим, что случаи следования одинаковых повторяющихся рангов (в любом ряду) оцениваются баллом 0, т.е. они не учитываются при расчете ни со знаком «+», ни со знаком «—».
Рассмотрим расчет коэффициента корреляции Кендэла для связанных рангов по следующим условным данным (табл. 7.13), где х — стоимость основных фондов (млн руб.), а у — выпуск продукции (млн руб.) у 10 предприятий одной отрасли.
Сначала определим ранги значений для признаках. Минимальному значению х = 13 присваивается ранг 1. Следующим за ним двум одинаковым значениям х = 15, занимающим 2-е и 3-е места, X У N
X Подсчет баллов «+» «—» 13 31 1 2 8 1 15 30 2,5 1 7 0 15 32 2,5 3 7 0 16 33 4 4,5 5 0 18 33 6 4,5 3 0 18 34 6 6 3 0 18 35 6 7,5 2 0 19 35 8 7,5 2 0 20 38 9 9,5 0 0 22 38 10 9,5 — — я = 10 Р= 37 <2 = -1 присваиваем каждому ранг 2,5 (так как (2 + 3)/2 = 2,5); ранг 4 присваивается значению х = 16. Каждому из трех одинаковых значений х = 18, занимающих 5, 6 и 7-е места (ранги) в ряду, присваивается ранг 6 — средняя величина из суммы их рангов, т.е. (5 + 6 + 7)/3 = 6. Поскольку дальше нет одинаковых значений х, то следующим трем значениям х (19, 20, 22) соответственно присваиваются ранги 8, 9 и 10.
Аналогично определены и ранги у.
Подсчет баллов со знаками «+» и «—» проводится описанным ранее методом с одной лишь оговоркой. Например, подсчитывая число «правильных» и «неправильных» следований после второй пары рангов (Л^= 2,5 и Л^= 1), третью пару не учитываем ни со знаком «+», ни со знаком «—», так как значение N = 2,5 повторяет значение N рассматриваемой второй пары. Так же и в других случаях. Например, рассматривая пятую пару (N.= 6 и
=4,5), по той же причине не учитываем шестую и седьмую пары, у которых N = 6. Рассматривая седьмую пару (Л^ = 6 и N = 7,5), не учитываем восьмую пару, у которой Ny = 7,5 повторяет значение N = 7,5 седьмой пары, и т.д.
Подсчитав все баллы, получим Р= 37, 0 = — 1, а Я = Р + О = = 37 — 1 = 36. Максимальная сумма баллов равна
п{п - 1) 10-9
—- = -г- = 45. 2
2 Далее рассчитаем поправки ?/. и и:
и = !) = 2(2 - 1) + 3(3 - 1) = 2
2 (ґ — число повторяющихся (связанных) рангов в ряду х, а именно: два ранга со значением 2,5 и три ранга со значением 6);
= ІНІ- 1) = 2 (2 - 1) + 2 (2 - 1) + 2 (2 - 1) = у 2 2
(ґ — соответственно число связанных рангов в ряду у, а именно: два ранга со значением 4,5, два — со значением 7,5 и два — со значением 9,5).
Отсюда коэффициент корреляции рангов Кендэла для случая связанных рангов
т = - - 5 - „ = = 0,867.
2 У
и (и - !) _ и
п (п - 1) _
7(45 - 4)(45 - 3)
Полученный результат позволяет сделать вывод о значительном соответствии последовательности рангов двух переменных, а следовательно, о большой зависимости между изменениями рассматриваемых показателей х и у.
Перечислим преимущества ранговых коэффициентов корреляции Спирмэна и Кендэла: они легко вычисляются, с их помощью можно изучать и измерять связь не только между количественными, но и между качественными (атрибутивными) признаками, ранжированными определенным образом. Кроме того, при использовании ранговых коэффициентов корреляции не требуется знать форму связи изучаемых явлений.
Еще по теме 7.4.2. Коэффициенты корреляции рангов:
- 9.5. КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ РАНГОВ
- 9.6. МНОЖЕСТВЕННАЯ КОРРЕЛЯЦИЯ
- 10.6. КОРРЕЛЯЦИЯ В РЯДАХ ДИНАМИКИ
- 7.4. Показатели тесноты связи между двумя количественными признаками
- 7.4.1. Линейный коэффициент корреляции
- 7.4.2. Коэффициенты корреляции рангов
- 7.8. Множественная корреляция
- 8.8. Корреляция рядов динамики
- Глава 1 НУКЛЕАРНАЯ СЕМЬЯ
- Глава 10 ПРОТИВОИНЦЕСТУОЗНЫЕ ТАБУ И ИХ РАСШИРЕНИЕ