Корреляция против причинноследственной связи Введение в статистику JMP

Корреляция против причинно-следственной связи.

Сильная корреляция может указывать на причинно-следственную связь, но легко могут быть и другие объяснения:

Это может быть результатом случайной случайности, когда переменные кажутся связанными, но истинной основополагающей взаимосвязи нет. Может быть третья, скрытая переменная, которая заставляет отношения казаться сильнее (или слабее), чем они есть на самом деле..

Для данных наблюдений корреляции не могут подтвердить причинно-следственную связь..

Корреляции между переменными показывают нам, что в данных есть закономерность: переменные, которые у нас есть, имеют тенденцию перемещаться вместе. Однако сами по себе корреляции не показывают нам, движутся ли данные вместе, потому что одна переменная вызывает другую. .

Можно найти статистически значимую и надежную корреляцию для двух переменных, которые на самом деле вообще не связаны причинно. На самом деле такие корреляции обычны! Часто это происходит потому, что обе переменные связаны с разными причинными переменными, которые имеют тенденцию совпадать с данными, которые мы измеряем..

Пример: упражнения и рак кожи..

Давайте подумаем об этом на примере. Представьте, что вы просматриваете данные о состоянии здоровья. Вы наблюдаете статистически значимую положительную корреляцию между физическими упражнениями и случаями рака кожи — то есть люди, которые больше занимаются спортом, как правило, болеют раком кожи. Эта корреляция кажется сильной и надежной и проявляется во многих популяциях пациентов. Не вдаваясь в подробности, можно сделать вывод, что упражнения каким-то образом вызывают рак! Основываясь на этих выводах, вы можете даже разработать правдоподобную гипотезу: возможно, стресс от упражнений заставляет организм терять некоторую способность защищаться от солнечных лучей..

Но представьте, что на самом деле эта корреляция существует в вашем наборе данных, потому что люди, которые живут в местах, которые получают много солнечного света круглый год, значительно более активны в своей повседневной жизни, чем люди, которые живут в местах, которых нет. В их данных это отражается как усиление физических нагрузок. В то же время повышенное ежедневное воздействие солнечного света означает увеличение числа случаев рака кожи. На обе переменные — частоту физических упражнений и рак кожи — повлияла третья, причинная переменная — воздействие солнечного света, но они не были связаны причинно..

. но с помощью хорошо спланированного эмпирического исследования мы можем установить причинно-следственную связь!

Различение между тем, что дает или не дает причинно-следственные доказательства, является ключевым моментом в грамотности данных. Определение причинности никогда не бывает идеальным в реальном мире. Однако существует множество экспериментальных, статистических и исследовательских методов проектирования для поиска доказательств причинно-следственных связей: например, рандомизация, контролируемые эксперименты и прогностические модели с несколькими переменными. Помимо внутренних ограничений корреляционных тестов (например, корреляции не могут не измерять тривиальные, потенциально причинно-следственные связи), важно понимать, что доказательства причинно-следственной связи обычно исходят не от отдельных статистических тестов, а от тщательного экспериментального дизайна..

Пример: болезни сердца, диета и упражнения..

Например, представьте себе еще раз, что мы исследователи здоровья, на этот раз смотрим на большой набор данных об уровне заболеваемости, диете и других видах поведения, связанных со здоровьем. Предположим, что мы обнаруживаем две корреляции: учащенное сердечно-сосудистое заболевание коррелирует с диетой с высоким содержанием жиров (положительная корреляция), а увеличение количества упражнений коррелирует с меньшим количеством сердечных заболеваний (отрицательная корреляция). Обе эти корреляции велики, и мы надежно их находим. Конечно, это дает ключ к разгадке причинно-следственной связи, верно?

В случае этих данных о состоянии здоровья корреляция может указывать на лежащую в основе причинно-следственную связь, но без дальнейшей работы она не может ее установить. Представьте, что после обнаружения этих корреляций в качестве следующего шага мы разрабатываем биологическое исследование, в котором изучаются способы поглощения жира организмом и его влияние на сердце. Возможно, мы найдем механизм, благодаря которому повышенное потребление жиров сохраняется, что приводит к определенной нагрузке на сердце. Мы также можем более внимательно изучить упражнения и разработать рандомизированный контролируемый эксперимент, который обнаружит, что упражнения прерывают накопление жира, тем самым снижая нагрузку на сердце..

Все эти доказательства укладываются в одно объяснение: диета с высоким содержанием жиров действительно может вызвать сердечные заболевания. И первоначальная корреляция все еще сохранялась, когда мы углублялись в проблему: диета с высоким содержанием жиров и сердечные заболевания взаимосвязаны.!

Но в этом примере обратите внимание, что наши причинные доказательства не были предоставлены самим тестом корреляции, который просто изучает взаимосвязь между данными наблюдений (такими как частота сердечных заболеваний и заявленные диета и упражнения). Вместо этого мы использовали эмпирическое исследование, чтобы найти доказательства этой связи..

Итак, как мы исследуем причинно-следственную связь? При правильном расследовании!

Понимание причинно-следственной связи — сложная проблема. В реальном мире у нас никогда не бывает доступа ко всем данным, которые могут нам понадобиться для отображения всех возможных отношений между переменными. Но есть несколько ключевых стратегий, которые помогут нам изолировать и исследовать механизмы между различными переменными. Например, в контролируемом эксперименте мы можем попытаться тщательно сопоставить две группы и случайным образом применить лечение или вмешательство только к одной из групп..

Принцип рандомизации является ключевым в дизайне экспериментов, и понимание этого контекста может изменить то, что мы можем сделать из статистических тестов..

Давайте еще раз вспомним первый пример выше, в котором изучалась взаимосвязь между физическими упражнениями и частотой рака кожи. Представьте себе, что мы каким-то образом можем взять большую, глобально распределенную выборку людей и случайным образом назначить их выполнять упражнения на разных уровнях каждую неделю в течение десяти лет. По истечении этого времени мы также собираем показатели заболеваемости раком кожи для этой большой группы. В итоге мы получим набор данных, который был экспериментально разработан для проверки взаимосвязи между упражнениями и раком кожи! Поскольку упражнение напрямую управлялось в эксперименте посредством случайного распределения, оно не будет систематически связано с какими-либо другими переменными, которые могли бы отличаться между этими двумя группами (при условии, что все другие аспекты исследования действительны). Это означает, что в данном случае, поскольку наши данные были получены с помощью разумного экспериментального дизайна, положительная корреляция между упражнениями и раком кожи будет значимым доказательством причинно-следственной связи..

Похожие статьи