Различия между корреляцией и причинноследственной связью

Корреляция и причинно-следственная связь в статистике.

Доктор философии, математика, магистр наук Университета Пердью, математика, бакалавриат Университета Пердью, математика, физика и химия, Университет Андерсона.

Однажды за обедом молодая женщина ела большую миску мороженого, и один из преподавателей подошел к ней и сказал: «Тебе лучше быть осторожным, существует высокая статистическая корреляция между мороженым и утоплением». Должно быть, она смущенно посмотрела на него, когда он объяснил что-то еще. «В дни с наибольшим объемом продаж мороженого также тонет большинство людей».

Когда она допила мое мороженое, двое коллег обсудили тот факт, что то, что одна переменная статистически связана с другой, не означает, что одна переменная является причиной другой. Иногда в фоновом режиме скрывается переменная. В этом случае день года скрывается в данных. В жаркие летние дни продается больше мороженого, чем в снежные зимние. Летом плавает больше людей и, следовательно, летом тонет больше, чем зимой..

Остерегайтесь скрытых переменных.

Приведенный выше анекдот является ярким примером того, что известно как скрытая переменная. Как следует из названия, скрытая переменная может быть неуловимой, и ее трудно обнаружить. Когда мы обнаруживаем, что два набора числовых данных сильно коррелированы, мы всегда должны спрашивать: «Может ли быть что-то еще, что вызывает эту взаимосвязь?»

Ниже приведены примеры сильной корреляции, вызванной скрытой переменной:

Среднее количество компьютеров на человека в стране и средняя продолжительность жизни в этой стране. Количество пожарных при пожаре и ущерб от пожара. Рост ученика начальной школы и его или ее уровень чтения.

Во всех этих случаях связь между переменными очень сильна. Обычно на это указывает коэффициент корреляции, который имеет значение, близкое к 1 или -1. Не имеет значения, насколько близок этот коэффициент корреляции к 1 или к -1, эта статистика не может показать, что одна переменная является причиной другой переменной..

Обнаружение скрытых переменных.

По своей природе скрытые переменные трудно обнаружить. Одна из стратегий, если таковая имеется, — это изучить, что происходит с данными с течением времени. Это может выявить сезонные тенденции, такие как пример мороженого, которые не видны, когда данные собираются вместе. Другой метод — посмотреть на выбросы и попытаться определить, что отличает их от других данных. Иногда это дает намек на то, что происходит за кулисами. Лучше всего действовать на опережение; подвергайте сомнению предположения и планируйте эксперименты.

Почему это имеет значение?

В начальном сценарии предположим, что действующий из лучших побуждений, но не имеющий статистической информации конгрессмен предложил объявить вне закона все мороженое, чтобы не утонуть. Такой законопроект доставит неудобства широким слоям населения, приведет к банкротству нескольких компаний и приведет к сокращению тысяч рабочих мест из-за закрытия производства мороженого в стране. Несмотря на самые благие намерения, этот закон не уменьшит количество смертей от утопления..

Если этот пример кажется слишком надуманным, подумайте о следующем, которое действительно произошло. В начале 1900-х врачи заметили, что некоторые младенцы загадочным образом умирали во сне от предполагаемых проблем с дыханием. Это называлось смертью в колыбели и теперь известно как СВДС. Единственное, что бросалось в глаза при вскрытии, проведенном у умерших от СВДС, — это увеличенная вилочковая железа, железа, расположенная в груди. На основе корреляции увеличения вилочковой железы у детей со СВДС, врачи предположили, что аномально большой вилочковая железа вызывает неправильное дыхание и смерть..

Предлагаемое решение заключалось в сокращении тимуса с высокой дозой облучения или полном удалении железы. Эти процедуры имели высокий уровень смертности и привели к еще большему количеству смертей. Печально то, что эти операции не пришлось проводить. Последующие исследования показали, что эти врачи ошибались в своих предположениях и что вилочковая железа не отвечает за СВДС..

Корреляция не подразумевает причинно-следственной связи.

Вышесказанное должно заставить нас задуматься, когда мы думаем, что статистические данные используются для оправдания таких вещей, как режимы лечения, законодательство и образовательные предложения. Важно, чтобы при интерпретации данных была проделана хорошая работа, особенно если результаты, связанные с корреляцией, будут влиять на жизни других..

Когда кто-нибудь заявляет: «Исследования показывают, что A является причиной B, и некоторые статистические данные подтверждают это», будьте готовы ответить: «Корреляция не подразумевает причинно-следственную связь». Всегда следите за тем, что скрывается за данными.

Похожие статьи