Корреляция и причинноследственная связь в поисках мудрости

В поисках мудрости.

Освоение лучшего из того, что уже выяснили другие.

Корреляция и причинно-следственная связь.

Корреляция измеряет степень, в которой два явления связаны друг с другом. Например, существует корреляция между летними температурами и продажами мороженого. Когда один идет вверх, другой тоже. Две переменные называются.

Положительно коррелирован — когда изменение одного связано с изменением другого в том же направлении. Отрицательно коррелирован — когда изменение одного связано с изменением другого в противоположном направлении. Нулевая корреляция — если две переменные не связаны друг с другом..

Положительно коррелируют — рост и вес положительно коррелируют. Более высокие люди в среднем весят больше, чем более низкие. Отрицательно коррелируют — масса тела и упражнения. В среднем вы будете весить больше, если не будете заниматься спортом, и меньше в противном случае. Нулевая корреляция — размер бедер и результат SAT.

Диаграммы разброса.

Диаграммы разброса можно использовать для определения корреляции между двумя переменными. Ниже приведены данные о росте и весе..

Рост (дюймы) Вес (фунты) 74193 66133 68155 69147 73175 70128 60100 63128 67170 70182 70178 70118 75227 62115 74 211.

Точечная диаграмма с высотой по оси X и весом по оси Y.

На графике вы можете ясно видеть, что они положительно коррелированы. Это хорошо работает с меньшим набором данных. Если вам нужно проанализировать большой объем данных, то будет непросто интерпретировать результаты диаграммы разброса. Нам нужна описательная статистика, которая суммирует огромные объемы данных в одно число. Для этого используется коэффициент корреляции..

Коэффициент корреляции.

Коэффициент корреляции — это одно число от -1 до +1..

Корреляция 1 между двумя переменными означает, что изменение одной переменной приведет к эквивалентному изменению другой переменной в том же направлении..

Корреляция -1 указывает на то, что изменение одной переменной приводит к эквивалентному изменению другой переменной в противоположном направлении..

Корреляция 0 указывает на отсутствие связи между двумя переменными..

Как рассчитать коэффициент корреляции.

Я беру этот пример из книги «Голая статистика». На том же примере роста и веса рассчитаем коэффициент корреляции.

Рост (дюймы) Вес (фунты) ABA * B 74193 1,21 0,99 1,19 66 133 (0,63) (0,67) 0,42 68 155 (0,17) (0,06) 0,01 69 147 0,06 (0,29) (0,02) 73 175 0,98 0,49 0,48 70 128 0,29 (0,81) (0,24) 60100 (2,00) (1,59) 3,18 63 128 (1,31) (0,81) 1,07 67 170 (0,40) 0,35 (0,14) 70 182 0,29 0,68 0,20 70 178 0,29 0,57 0,17 70118 0,29 (1,09) (0,32) 75 227 1,44 1,93 2,77 62 115 (1,54) (1,17) 1,81 74 211 1,21 1,49 1,79 Определите стандартное отклонение для роста и веса. Чтобы узнать о стандартном отклонении, обратитесь к этой публикации. Вы получите 4,36 и 36,12 в качестве стандартного отклонения для роста и веса. Узнайте среднее значение роста и веса. Чтобы узнать о средстве, обратитесь к этой публикации. Вы получите средний рост и вес как 68,73 и 157,33. Чтобы вычислить значения для 3-го столбца, обозначенные буквой A (высота в стандартных единицах), вам необходимо выполнить (высота — средняя высота) / стандартное отклонение для высоты. Для первой записи это составляет (74 — 68,73) / 4,36 = 1,21. Чтобы вычислить значения для 4-го столбца, обозначенные буквой B (Вес в стандартных единицах), вам необходимо выполнить (вес — средний рост) / стандартное отклонение для веса. Для первой записи получается (193 — 157,33) / 36,12 = 0,99. Вычислите произведение A и B и поместите в столбец 5, как указано A * B. Подумайте, почему мы умножили? Возьмите среднее значение столбца A * B, и вы получите коэффициент корреляции. Это составит 0,83, что является коэффициентом корреляции..

Значение 0,83 указывает на положительную корреляцию между ростом и весом. Не волнуйтесь, если вы не понимаете математику. Пока вы понимаете, что означает ценность, вы должны быть хорошими. Доступны инструменты для математических расчетов.

Как Netflix рекомендует фильмы.

В книге «Голая статистика» автор пишет.

На самом базовом уровне Netflix использует концепцию корреляции. Сначала я оцениваю серию фильмов. Netflix сравнивает мои оценки с оценками других клиентов, чтобы определить тех, чьи оценки сильно коррелируют с моими. Этим клиентам нравятся фильмы, которые мне нравятся. Как только это будет установлено, Netflix сможет рекомендовать фильмы, которые были высоко оценены единомышленниками, но которые я не видел. Это большая картина. Фактическая методология намного сложнее.

Причинно-следственная связь.

Сильная корреляция между двумя переменными не означает, что изменение одной переменной вызывает изменение другой. Приведу пример из книги «Эффект ореола»..

Один известный статистик однажды показал точную корреляцию между арестами за публичное пьянство и количеством баптистских проповедников в Америке девятнадцатого века. Корреляция реальная и интенсивная, но мы можем предположить, что два увеличения причинно-следственной связи не связаны и что оба возникают как следствие одного и того же фактора: заметного общего увеличения населения Америки..

Это важное понятие, и мы часто путаем корреляцию и причинность в нашей жизни. В книге «Статистическое мышление» автор пишет:.

Классическим примером того, что «корреляция не подразумевает причинной связи», является известная история о том, что продажи мороженого в течение года, как правило, коррелируют с количеством утоплений. Означает ли это, что, скажем, употребление мороженого приводит к тому, что значительные группы детей сходят с ума от сахара и падают в озеро? Или, что еще более странно, когда люди тонут, они внезапно съедают много мороженого? Что ж, неудивительно, что нет. Продажи мороженого, как правило, растут летом, когда люди проводят больше времени, купаясь на открытом воздухе, поэтому рост продаж мороженого и увеличение числа случаев утопления вызваны более теплой погодой, но не связаны напрямую.

Если вы думаете, что это глупо, и никто бы не совершил такую ​​основную ошибку причинно-следственной связи.

Эксперты общественного здравоохранения в 1940-х годах заметили взаимосвязь между случаями полиомиелита и потреблением мороженого; они рекомендовали отказаться от мороженого, чтобы защититься от болезни. Позже выяснилось, что, как вы уже догадались, вспышки полиомиелита чаще случались летом, а летом чаще употребляли мороженое, а полиомиелит и мороженое не имели ничего общего друг с другом..

Если вы зададите генеральному директору следующий вопрос. В чем секрет высокой эффективности вашей компании. Один из ответов, который мы часто слышим, — это то, что наши сотрудники довольны, и, следовательно, низкая текучесть кадров стала причиной успеха. Это корреляция или причинно-следственная связь? Отрывок из книги Эффект ореола.

Теперь задача состоит в том, чтобы распутать направление причинности. Приводит ли меньшая текучесть кадров к более высокой производительности компании? Возможно, поскольку компания со стабильной рабочей силой могла бы обеспечить более надежное обслуживание клиентов, меньше тратить на найм, обучение и т. Д. Или более высокая производительность компании ведет к снижению текучести кадров? Это также может быть правдой, поскольку прибыльная и растущая компания может предложить более стимулирующую и полезную среду, а также большие возможности для продвижения. Важно знать, что к чему ведет.

Заключительные мысли.

Сама по себе корреляция ничего не объясняет. Если вы спросите людей, которые заработали много денег, они ответят, что их умение и упорный труд принесли им деньги..

Но в заявлении упускается одна ключевая переменная — интуитивная прозорливость. Если вы посмотрите вокруг, то увидите людей с гораздо большими навыками, которые вообще не заработали денег..

Мои навыки + интуитивная интуиция = деньги, которые я заработал.

Понимание роли интуитивной прозорливости поможет нам стать лучше без эго. Тот, кто этого не понимает, путает корреляцию как причинную связь..

Похожие статьи