Понятие о корреляции и корреляционном анализе в психологии (стр. 1 из 4)

Коэффициент корреляции Спирмена

В статистике также существует коэффициент корреляции Спирмена, который назван в честь статистика Чарльза Эдварда Спирмена (Spearman).

Цель этого коэффициента заключается в измерении интенсивности соотношения между двумя переменными, независимо от того, являются ли они линейными или нет.

Корреляция Спирмена служит для оценки того, может ли интенсивность взаимосвязи между двумя анализируемыми переменными быть измерена монотонной функцией (математическая функция, которая сохраняет или инвертирует соотношение начальной последовательности).

Как считать коэффициент корреляции Спирмена

Расчет коэффициента корреляции Спирмена уже немного отличается от предыдущей. Для этого необходимо организовать имеющиеся данные в следующую таблицу.

1. У вас должны быть две пары данных, соответствующих друг другу. Вы должны внести их в эту таблицу. Например, дирекция ресторана хочет узнать, есть ли связь между количеством заказов бутылок воды и количеством заказов десертов. Директор взял наугад данные 4-х столиков. Таким образом, у него получились две пары данных: где “Data А” — это заказы десертов, а “Data B” — заказы воды (т. е. первый столик заказал 7 десертов и 8 бутылок воды, второй — 6 десертов и 3 бутылки с водой и т. д.):

2. В столбце «Ranking А» мы будем классифицировать наблюдения, которые находятся в «Data А», нарастающим образом: «1» является самым низким значением в столбце и n (общее количество наблюдений) — самым высоким значением в столбце «Data А». В нашем примере это:

3. Сделайте то же самое позиционирование (классификацию наблюдений) для второго столбца “Data B”, записав это в столбце “Ranking B”.

4. В столбце «d» посчитайте разницу между двумя последними столбцами-ранкингами (A — B). Знак здесь учитывать не нужно (в следующем шаге узнаете почему).

5. Возведите во вторую степень каждое из значений, полученное в столбце «d».

6. Сделайте сумму всех данных, которые у вас получились в столбце «d2». Это будет Σd². В нашем примере Σd² = 0+1+0+1 = 2.

7. Теперь используем формулу Спирмена.

В нашем случае n = 4, мы это видим по количеству пар данных (соответствует числу наблюдений).

8. И наконец, замените данные в формуле.

Наш результат равен 0,8 или 80 %. Это означает, что переменные имеют положительную корреляцию.

Т. е. заказы бутылок воды и заказы десертов клиентами этого ресторана зависят друг от друга (т. к. коэффициент 0,8 далёк от 0), но не полностью (т. к. коэффициент очень близок к 1, но не равен 1). А положительная, так как коэффициент больше чем 0, это означает, что количество воды и количество десертов увеличиваются вместе, а не наоборот (т. е. чем выше количество потребляемой воды, тем выше количество потребляемых десертов).

Что такое корреляция простыми словами

Не хочу вас сразу грузить формулами и расчётами, об этом поговорим ближе к концу. Давайте сначала разберемся, что по своей сути означает цифра коэффициента корреляции, которую вы можете встретить в какой-нибудь книге или статье.

Значение коэффициента может меняться от -1 до +1:

Если значение близко к единице или минус единице — значит два явления так или иначе сильно взаимосвязаны. Впрочем, причины этого не всегда очевидны — явление А может влиять на явление B, может быть наоборот. Нередко бывает, что существует явление C, которое приводит в движение А и В одновременно. В общем, природа корреляции — это уже второй вопрос, которым должны заниматься исследователи.

Околонулевые значения, в свою очередь, говорят об отсутствии какой-либо зависимости между явлениями. Нет конкретного предела, где заканчивается случайность и начинается взаимосвязь, все зависит от предмета исследования и количества данных. Навскидку, обычно при значениях от -0.3 до 0.3 можно говорить о том, что зависимость отсутствует.

При высокой положительной корреляции вслед за графиком А растёт и график B, и чем выше значение, тем слаженнее оба движутся. Для наглядности, вот как выглядит корреляция +1:

Движения графиков полностью повторяют друг друга, причем это как в случае простого добавления, так и с множителем.

При сильной отрицательной корреляции рост графика А приводит к падению графика B и наоборот. Вот так выглядит корреляция -1:

Движения графиков похожи на зеркальные отражения.

Коэффициент корреляции — удобный инструмент для анализа во многих сферах науки и жизни. Его легко рассчитать в Excel и применить, поэтому самая большая сложность в работе с ним — грамотно подобрать данные для расчёта. Основное правило — чем больше данных, тем лучше. Многие взаимосвязи проявляют себя лишь на длинной дистанции.

Также нужно следить за тем, чтобы найденные корреляции не были ложными.

️ ️

Реальные причины корреляции и возможные гипотезы

Курс доллара и стоимость нефти отрицательно коррелируют. Можем выдвинуть гипотезу: повышение цен на черное золото вызывает падение стоимости американской валюты. Но почему так происходит? Откуда взялась связь между этими явлениями?

Возможно, дело в том, что США – крупнейший потребитель нефти в мире. Каждый день они импортируют около 7,2 миллиона баррелей. Снижение цены на черное золото – хорошо для американской экономики, ведь позволяет тратить меньше денег. Следовательно, доллар растет.

Например, мы выяснили, что существует отрицательная взаимосвязь между доходом персонала и его эффективностью в работе. Наша гипотеза: «Лентяи и бездельники получают больше, чем ответственные сотрудники». Тогда мы пересмотрим систему мотивации и избавимся от бесполезных людей.

Согласно статистике, чем больше пожарных участвует в тушении огня, тем существенней размер ущерба. Какую гипотезу можем сделать отсюда? Пожарные приносят вред, давайте сократим их! Но если разобраться, то настоящая причина повреждения – это огонь. А увеличение числа лиц, задействованных в его тушении, – следствие масштаба пожара.

Наша вселенная бесконечна, а значит всегда можно найти несколько переменных, которые будут коррелировать между собой, несмотря на полное отсутствие причинно-следственных связей. Даже самое буйное воображение не сможет объяснить, что объединяет сыр и одеяло-убийцу:

Более подробно на эту тему смотрите в видео:

Понятие корреляции

Корреляция (от латинского «correlatio» – соотношение, взаимосвязь) – математический термин, который означает меру статистической вероятностной зависимости между случайными величинами (переменными).

Пример: возьмем два вида взаимосвязи:

  1. Первый – ручка в руке человека. В какую сторону движется рука, в такую сторону и ручка. Если рука находится в состоянии покоя, то и ручка не будет писать. Если человек чуть сильнее надавит на нее, то след на бумаге будет насыщеннее. Такой вид взаимосвязи отражает жесткую зависимость и не является корреляционным. Это взаимосвязь – функциональная.
  2. Второй вид – зависимость между уровнем образования человека и прочтением литературы. Заранее неизвестно, кто из людей больше читает: с высшим образованием или без него. Эта связь – случайная или стохастическая, ее изучает статистическая наука, которая занимается исключительно массовыми явлениями. Если статистический расчет позволит доказать корреляционную связь между уровнем образованности и прочтением литературы, то это даст возможность делать какие-либо прогнозы, предсказывать вероятностное наступление событий. В этом примере с большой долей вероятности можно утверждать, что больше читают книги люди с высшим образованием, те, кто более образован. Но поскольку связь между данными параметрами не функциональная, то мы можем и ошибиться. Всегда можно рассчитать вероятность такой ошибки, которая будет однозначно невелика и называется уровнем статистической значимости (p).

Примерами взаимосвязи между природными явлениями являются: цепочка питания в природе, организм человека, который состоит из систем органов, взаимосвязанных между собой и функционирующих как единое целое.

Каждый день мы сталкиваемся с корреляционной зависимостью в повседневной жизни: между погодой и хорошим настроением, правильной формулировкой целей и их достижением, положительным настроем и везением, ощущением счастья и финансовым благополучием. Но мы ищем связи, опираясь не на математические расчеты, а на мифы, интуицию, суеверия, досужие домыслы. Эти явления очень сложно перевести на математический язык, выразить в цифрах, измерить. Другое дело, когда мы анализируем явления, которые можно просчитать, представить в виде цифр. В таком случае мы можем определить корреляцию с помощью коэффициента корреляции (r), отражающего силу, степень, тесноту и направление корреляционной связи между случайными переменными.

Сильная корреляция между случайными величинами – свидетельство наличия некоторой статистической связи конкретно между этими явлениями, но эта связь не может переноситься на эти же явления, но для другой ситуации. Часто исследователи, получив в расчетах значительную корреляцию между двумя переменными, основываясь на простоте корреляционного анализа, делают ложные интуитивные предположения о существовании причинно-следственных взаимосвязей между признаками, забывая о том, что коэффициент корреляции носит вероятностный характер.

Пример: количество травмированных во время гололеда и число ДТП среди автотранспорта. Эти величины будут коррелировать между собой, хотя они абсолютно не взаимосвязаны между собой, а имеют только связь с общей причиной этих случайных событий – гололедицей. Если же анализ не выявил корреляционной взаимосвязи между явлениями, это еще не является свидетельством отсутствия зависимости между ними, которая может быть сложной нелинейной, не выявляющейся с помощью корреляционных расчетов.

Первым, кто ввел в научный оборот понятие корреляции, был французский палеонтолог Жорж Кювье. Он в XVIII веке вывел закон корреляции частей и органов живых организмов, благодаря которому появилась возможность восстанавливать по найденным частям тела (останкам) облик всего ископаемого существа, животного. В статистике термин корреляции впервые применил в 1886 году английский ученый Френсис Гальтон. Но он не смог вывести точную формулу для расчета коэффициента корреляции, но это сделал его студент – известнейший математик и биолог Карл Пирсон.

Использование ПО при проведении корреляционного анализа

Результативные факторы зависят от одного до нескольких факторов. Метод корреляционного анализа может применяться в том случае, если имеется большое количество наблюдений о величине результативных и факторных показателей (факторов), при этом исследуемые факторы должны быть количественными и отражаться в конкретных источниках.

Исходные данные для корреляционного анализа

Профессиональная группа

курение

смертность

Фермеры, лесники и рыбаки

77

84

Шахтеры и работники карьеров

137

116

Производители газа, кокса и химических веществ

117

123

Изготовители стекла и керамики

94

128

Работники печей, кузнечных, литейных и прокатных станов

116

155

Работники электротехники и электроники

102

101

Инженерные и смежные профессии

111

118

Деревообрабатывающие производства

93

113

Кожевенники

88

104

Текстильные рабочие

102

88

Изготовители рабочей одежды

91

104

Работники пищевой, питьевой и табачной промышленности

104

129

Производители бумаги и печати

107

86

Производители других продуктов

112

96

Строители

113

144

Художники и декораторы

110

139

Водители стационарных двигателей, кранов и т. д.

125

113

Рабочие, не включенные в другие места

133

146

Работники транспорта и связи

115

128

Складские рабочие, кладовщики, упаковщики и работники разливочных машин

105

115

Канцелярские работники

87

79

Продавцы

91

85

Работники службы спорта и отдыха

100

120

Администраторы и менеджеры

76

60

Профессионалы, технические работники и художники

66

51

Начинаем корреляционный анализ. Решение лучше начинать для наглядности с графического метода, для чего построим диаграмму рассеивания (разброса).

Она демонстрирует прямую связь. Однако на основании только графического метода сделать однозначный вывод сложно. Поэтому продолжим выполнять корреляционный анализ. Пример расчета коэффициента корреляции представлен ниже.

С помощью программных средств (на примере MS Excel будет описано далее) определяем коэффициент корреляции, который составляет 0,716, что означает сильную связь между исследуемыми параметрами. Определим статистическую достоверность полученного значения по соответствующей таблице, для чего нам нужно вычесть из 25 пар значений 2, в результате чего получим 23 и по этой строке в таблице найдем r критическое для p=0,01 (поскольку это медицинские данные, здесь используется более строгая зависимость, в остальных случаях достаточно p=0,05), которое составляет 0,51 для данного корреляционного анализа. Пример продемонстрировал, что r расчетное больше r критического, значение коэффициента корреляции считается статистически достоверным.

https://www.youtube.com/watch?v=ytcreatorsru

1. Коэффициент корреляции определяется с помощью функции КОРРЕЛ (массив1; массив2). Массив1,2 — ячейка интервала значений результативных и факторных переменных.

Линейный коэффициент корреляции также называется коэффициентом корреляции Пирсона, в связи с чем, начиная с Excel 2007, можно использовать функцию ПИРСОН (PEARSON) с теми же массивами.

Графическое отображение корреляционного анализа в Excel производится с помощью панели «Диаграммы» с выбором «Точечная диаграмма».

После указания исходных данных получаем график.

2. Оценка значимости коэффициента парной корреляции с использованием t-критерия Стьюдента. Рассчитанное значение t-критерия сравнивается с табличной (критической) величиной данного показателя из соответствующей таблицы значений рассматриваемого параметра с учетом заданного уровня значимости и числа степеней свободы. Эта оценка осуществляется с использованием функции СТЬЮДРАСПОБР (вероятность; степени_свободы).

3. Матрица коэффициентов парной корреляции. Анализ осуществляется с помощью средства «Анализ данных», в котором выбирается «Корреляция». Статистическую оценку коэффициентов парной корреляции осуществляют при сравнении его абсолютной величины с табличным (критическим) значением. При превышении расчетного коэффициента парной корреляции над таковым критическим можно говорить, с учетом заданной степени вероятности, что нулевая гипотеза о значимости линейной связи не отвергается.

Выборочный коэффициент корреляции

Коэффициент корреляции обычно рассчитывают по выборке. Значит, у аналитика в распоряжении не истинное значение, а оценка, которая всегда ошибочна. Если выборка была репрезентативной, то истинное значение коэффициента корреляции находится где-то относительно недалеко от оценки. Насколько далеко, можно определить через доверительные интервалы.

Согласно Центральное Предельной Теореме распределение оценки любого показателя стремится к нормальному с ростом выборки. Но есть проблемка. Распределение коэффициента корреляции вблизи придельных значений не является симметричным. Ниже пример распределения при истинном коэффициенте корреляции ρ = 0,86.

Предельное значение не дает выйти за 1 и, как бы «поджимает» распределение справа. Симметричная ситуация наблюдается, если коэффициент корреляции близок к -1.

В общем рассчитывать на свойства нормального распределения нельзя. Поэтому Фишер предложил провести преобразование выборочного коэффициента корреляции по формуле:

Распределение z для тех же r имеет следующий вид.

Намного ближе к нормальному. Стандартная ошибка z равна:

Далее исходя из свойств нормального распределения несложно найти верхнюю и нижнюю границы доверительного интервала для z. Определим квантиль стандартного нормального распределения для заданной доверительной вероятности, т.е. количество стандартных отклонений от центра распределения.

cγ – квантиль стандартного нормального распределения;N-1 – функция обратного стандартного распределения;γ – доверительная вероятность (часто 95%).Затем рассчитаем границы доверительного интервала.

Нижняя граница z:

Верхняя граница z:

Теперь обратным преобразованием Фишера из z вернемся к r.Нижняя граница r:

Верхняя граница r:

Это была теоретическая часть. Переходим к практике расчетов.

Что такое корреляция

Корреляция – это связь. Но не любая. В чем же ее особенность? Рассмотрим на примере.

Представьте, что вы едете на автомобиле. Вы нажимаете педаль газа – машина едет быстрее. Вы сбавляете газ – авто замедляет ход. Даже не знакомый с устройством автомобиля человек скажет: «Между педалью газа и скоростью машины есть прямая связь: чем сильнее нажата педаль, тем скорость выше».

Это зависимость функциональная – скорость выступает прямой функцией педали газа. Специалист объяснит, что педаль управляет подачей топлива в цилиндры, где происходит сжигание смеси, что ведет к повышению мощности на вал и т.д. Это связь жесткая, детерминированная, не допускающая исключений (при условии, что машина исправна).

Теперь представьте, что вы директор фирмы, сотрудники которой продают товары. Вы решаете повысить продажи за счет повышения окладов работников. Вы повышаете зарплату на 10%, и продажи в среднем по фирме растут. Через время повышаете еще на 10%, и опять рост. Затем еще на 5%, и опять есть эффект. Напрашивается вывод – между продажами фирмы и окладом сотрудников есть прямая зависимость – чем выше оклады, тем выше продажи организации. Такая же это связь, как между педалью газа и скоростью авто? В чем ключевое отличие?

Правильно, между окладом и продажами заисимость не жесткая. Это значит, что у кого-то из сотрудников продажи могли даже снизиться, невзирая на рост оклада. У кого-то остаться неизменными. Но в среднем по фирме продажи выросли, и мы говорим – связь продаж и оклада сотрудников есть, и она корреляционная.

В основе функциональной связи (педаль газа – скорость) лежит физический закон. В основе корреляционной связи (продажи – оклад) находится простая согласованность изменения двух показателей. Никакого закона (в физическом понимании этого слова) за корреляцией нет. Есть лишь вероятностная (стохастическая) закономерность.

Положительные корреляции в науке

  • По мере увеличения количества вырубленных деревьев вероятность эрозии возрастает.
  • В археологии более устойчивая форма рельефа означает большую видимость участка.
  • С понижением температуры скорость движения молекул уменьшается.
  • По мере увеличения скорости ветряной турбины количество вырабатываемой электроэнергии увеличивается.
  • По мере увеличения количества влаги в окружающей среде рост спор плесени увеличивается.
  • По мере увеличения количества водорослей в озере увеличилось количество некоторых видов водорослей, поедающих рыбу.
  • По мере увеличения процентного содержания соли в соленой воде плавучесть увеличивается.
  • Чем больше вы едите антиоксидантов, тем лучше укрепляется ваша иммунная система.

Корреляционный анализ

При изучении корреляций стараются установить, существует ли какая-то
связь между двумя показателями в одной выборке (например, между ростом и весом
детей или между уровнем IQ и школьной успеваемостью) либо между двумя
различными выборками (например, при сравнении пар близнецов), и если эта связь
существует, то сопровождается ли увеличение одного показателя возрастанием
(положительная корреляция) или уменьшением (отрицательная корреляция) другого.

Иными словами, корреляционный анализ помогает установить, можно ли
предсказывать возможные значения одного показателя, зная величину другого.

До сих пор при анализе результатов нашего опыта по изучению действия
марихуаны мы сознательно игнорировали такой показатель, как время реакции. Между
тем было бы интересно проверить, существует ли связь между эффективностью
реакций и их быстротой. Это позволило бы, например, утверждать, что чем человек
медлительнее, тем точнее и эффективнее будут его действия и наоборот.

С этой целью можно использовать два разных способа: параметрический метод
расчета коэффициента Браве-Пирсона (r) и вычисление коэффициента корреляции
рангов Спирмена (rs),
который применяется к порядковым данным, т.е. является непараметрическим.
Однако разберемся сначала в том, что такое коэффициент корреляции.

Корреляция в Энциклопедическом словаре:

Корреляция — в математической статистике — вероятностная илистатистическая зависимость. В отличие от функциональной зависимостикорреляция возникает тогда, когда зависимость одного из признаков отдругого осложняется наличием ряда случайных факторов.

(от позднелат. correlatio — соотношение) — взаимная связь,взаимозависимость, соотношение предметов или понятий.

стратиграфическая — сопоставление друг с другом одновозрастныхслоев осадочных и вулканических горных пород разных районов и привязка ихк подразделениям единой стратиграфической шкалы.

языковая -..1) взаимообусловленность, связь, определеннаязависимость языковых элементов…2) Разновидность оппозиции в фонологии(см. Оппозиция в лингвистике).

Значения коэффициента корреляции

Охарактеризовать силу корреляционной связи можно прибегнув к шкале Челдока, в которой определенному числовому значению соответствует качественная характеристика.

  • 0-0,3 – корреляционная связь очень слабая;
  • 0,3-0,5 – слабая;
  • 0,5-0,7 – средней силы;
  • 0,7-0,9 – высокая;
  • 0,9-1 – очень высокая сила корреляции.

Шкала может использоваться и для отрицательной корреляции. В этом случае качественные характеристики заменяются на противоположные.

Можно воспользоваться упрощенной шкалой Челдока, в которой выделяется всего 3 градации силы корреляционной связи:

  • очень сильная – показатели ±0,7 — ±1;
  • средняя – показатели ±0,3 — ±0,699;
  • очень слабая – показатели 0 — ±0,299.

Данный статистический показатель позволяет не только проверить предположение о существовании линейной взаимосвязи между признаками, но и установить ее силу.

История разработки критерия корреляции

Критерий корреляции Пирсона был разработан командой британских ученых во главе с Карлом Пирсоном (1857-1936) в 90-х годах 19-го века, для упрощения анализа ковариации двух случайных величин. Помимо Карла Пирсона над критерием корреляции Пирсона работали также Фрэнсис Эджуорт и Рафаэль Уэлдон.

Для чего используется критерий корреляции Пирсона?

Критерий корреляции Пирсона позволяет определить, какова теснота (или сила) корреляционной связи между двумя показателями, измеренными в количественной шкале. При помощи дополнительных расчетов можно также определить, насколько статистически значима выявленная связь.

Например, при помощи критерия корреляции Пирсона можно ответить на вопрос о наличии связи между температурой тела и содержанием лейкоцитов в крови при острых респираторных инфекциях, между ростом и весом пациента, между содержанием в питьевой воде фтора и заболеваемостью населения кариесом.

Условия и ограничения применения критерия хи-квадрат Пирсона

  1. Сопоставляемые показатели должны быть измерены в количественной шкале (например, частота сердечных сокращений, температура тела, содержание лейкоцитов в 1 мл крови, систолическое артериальное давление).
  2. Посредством критерия корреляции Пирсона можно определить лишь наличие и силу линейной взаимосвязи между величинами. Прочие характеристики связи, в том числе направление (прямая или обратная), характер изменений (прямолинейный или криволинейный), а также наличие зависимости одной переменной от другой – определяются при помощи регрессионного анализа.
  3. Количество сопоставляемых величин должно быть равно двум. В случае анализ взаимосвязи трех и более параметров следует воспользоваться методом факторного анализа.
  4. Критерий корреляции Пирсона является параметрическим, в связи с чем условием его применения служит нормальное распределение каждой из сопоставляемых переменных. В случае необходимости корреляционного анализа показателей, распределение которых отличается от нормального, в том числе измеренных в порядковой шкале, следует использовать коэффициент ранговой корреляции Спирмена.
  5. Следует четко различать понятия зависимости и корреляции. Зависимость величин обуславливает наличие корреляционной связи между ними, но не наоборот.

Например, рост ребенка зависит от его возраста, то есть чем старше ребенок, тем он выше. Если мы возьмем двух детей разного возраста, то с высокой долей вероятности рост старшего ребенка будет больше, чем у младшего. Данное явление и называется зависимостью, подразумевающей причинно-следственную связь между показателями. Разумеется, между ними имеется и корреляционная связь, означающая, что изменения одного показателя сопровождаются изменениями другого показателя.

В другой ситуации рассмотрим связь роста ребенка и частоты сердечных сокращений (ЧСС). Как известно, обе эти величины напрямую зависят от возраста, поэтому в большинстве случаев дети большего роста (а значит и более старшего возраста) будут иметь меньшие значения ЧСС. То есть, корреляционная связь будет наблюдаться и может иметь достаточно высокую тесноту. Однако, если мы возьмем детей одного возраста, но разного роста, то, скорее всего, ЧСС у них будет различаться несущественно, в связи с чем можно сделать вывод о независимости ЧСС от роста.

Приведенный пример показывает, как важно различать фундаментальные в статистике понятия связи и зависимости показателей для построения верных выводов

Рейтинг
( Пока оценок нет )
Editor
Editor/ автор статьи

Давно интересуюсь темой. Мне нравится писать о том, в чём разбираюсь.

Понравилась статья? Поделиться с друзьями:
В гармонии с собой
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: