Семь способов составить данные Общие методы определения отсутствующих данных в качестве фактора анализа

Семь способов восстановить данные: распространенные методы вменения отсутствующих данных.

Есть много способов исправить недостающие данные. Я считаю, что наиболее распространенным является игнорирование этого. Но отсутствие выбора означает, что ваше статистическое программное обеспечение делает выбор за вас..

В большинстве случаев ваше программное обеспечение выбирает удаление по списку. Списочное удаление может быть или не быть плохим выбором, в зависимости от того, почему и сколько данных отсутствует..

Другой распространенный подход среди тех, кто уделяет внимание, — это вменение. Вменение просто означает замену отсутствующих значений оценкой с последующим анализом полного набора данных, как если бы вмененные значения были фактическими наблюдаемыми значениями..

Как вы выбираете эту оценку? Ниже приведены распространенные методы:

Среднее вменение.

Просто вычислите среднее значение наблюдаемых значений этой переменной для всех лиц, которые не пропали без вести..

Преимущество этого метода состоит в том, что оно сохраняет то же среднее значение и размер выборки, но имеет множество недостатков. Практически каждый из перечисленных ниже методов лучше, чем вменение среднего значения..

Замена.

Подсчитайте ценность нового человека, который не был выбран для включения в выборку..

Другими словами, найдите новую тему и используйте вместо нее их ценность..

Вменение горячей колоды.

Случайно выбранное значение от человека в выборке, который имеет аналогичные значения по другим переменным..

Другими словами, найдите всех субъектов выборки, которые похожи по другим переменным, затем случайным образом выберите одно из их значений по отсутствующей переменной..

Одно из преимуществ — вы ограничены только возможными значениями. Другими словами, если возраст в вашем исследовании ограничен значением от 5 до 10, вы всегда получите значение от 5 до 10 таким образом..

Другой — случайный компонент, который добавляет некоторую изменчивость. Это важно для точных стандартных ошибок..

Вменение холодной колоды.

Систематически выбираемое значение от человека, который имеет аналогичные значения по другим переменным..

Это похоже на Hot Deck во многих отношениях, но устраняет случайные вариации. Так, например, вы всегда можете выбрать третьего человека в тех же экспериментальных условиях и заблокировать.

Вменение регрессии.

Прогнозируемое значение, полученное путем регрессии отсутствующей переменной по другим переменным..

Поэтому вместо того, чтобы просто вычислять среднее значение, вы берете прогнозируемое значение, основанное на других переменных. Это сохраняет взаимосвязь между переменными, участвующими в модели вменения, но не изменчивость относительно прогнозируемых значений..

Вменение стохастической регрессии.

Прогнозируемое значение из регрессии плюс случайная остаточная стоимость..

Это имеет все преимущества регрессионного вменения, но добавляет преимущества случайного компонента..

Большинство множественных вменений основано на той или иной форме вменения стохастической регрессии..

Интерполяция и экстраполяция.

Расчетное значение на основе других наблюдений того же человека. Обычно это работает только с продольными данными..

Однако будьте осторожны. Например, интерполяция может иметь больше смысла для такой переменной, как рост у детей, которая не может уменьшаться с течением времени. Экстраполяция означает, что вы делаете оценку за пределами фактического диапазона данных, и это требует дополнительных предположений, которые вам следует.

Однократное или множественное вменение?

Существует два типа вменения: однократное или множественное. Обычно, когда говорят о вменении, имеют в виду холостые.

Единичное значение относится к тому факту, что вы получаете единую оценку отсутствующего значения, используя один из семи методов, перечисленных выше..

Он популярен, потому что концептуально прост и потому, что результирующая выборка имеет то же количество наблюдений, что и полный набор данных..

Единичное вменение выглядит очень заманчиво, когда удаление по списку устраняет большую часть набора данных..

Но у него есть ограничения.

Некоторые методы вменения приводят к смещению оценок параметров, таких как средние значения, корреляции и коэффициенты регрессии, за исключением случаев, когда данные отсутствуют полностью случайно (MCAR). Смещение часто хуже, чем при удалении по списку, которое используется по умолчанию в большинстве программ..

Степень смещения зависит от многих факторов, включая метод вменения, механизм отсутствующих данных, долю отсутствующих данных и информацию, доступную в наборе данных..

Более того, все методы единичного вменения недооценивают стандартные ошибки..

Поскольку условно исчисленные наблюдения сами по себе являются оценками, их значения имеют соответствующую случайную ошибку. Но когда вы вводите эту оценку как точку данных, ваше программное обеспечение этого не знает. Таким образом, он не учитывает дополнительный источник ошибок, что приводит к слишком маленьким стандартным ошибкам и слишком маленьким p-значениям..

И хотя вменение концептуально просто, на практике его сложно реализовать. Так что это не идеально, но может быть достаточным в определенных ситуациях..

Таким образом, множественное вменение дает несколько оценок. Два из перечисленных выше методов работают как метод вменения при множественном вменении — горячая палуба и стохастическая регрессия..

Поскольку эти два метода имеют случайную составляющую, множественные оценки немного отличаются. Это повторно вводит некоторые вариации, которые ваше программное обеспечение может включать, чтобы дать вашей модели точные оценки стандартной ошибки..

Множественное вменение было огромным прорывом в статистике около 20 лет назад. Он решает множество проблем с отсутствующими данными (хотя, к сожалению, не все), и, если все сделано правильно, приводит к объективным оценкам параметров и точным стандартным ошибкам..

Похожие статьи