Множественное вменение в Stata

Множественное вменение в Stata.

Введение.

Отсутствие данных — обычная проблема, и чаще всего мы решаем проблему отсутствия данных на специальной основе. Цель этого семинара — обсудить часто используемые методы обработки недостающих данных и общие проблемы, которые могут возникнуть при использовании этих методов. В частности, мы остановимся на одном из самых популярных методов — множественном вменении. Мы не поддерживаем какой-либо один метод обработки недостающих данных, и в зависимости от типа данных и модели, которые вы будете использовать, другие методы, такие как прямая максимальная вероятность, могут лучше удовлетворить ваши потребности. Мы решили изучить множественное вменение путем изучения данных, тщательного рассмотрения допущений, необходимых для реализации этого метода, и четкого понимания аналитической модели, которую необходимо оценить. Мы надеемся, что этот семинар поможет вам лучше понять объем проблем, с которыми вы можете столкнуться при работе с недостающими данными с помощью этого метода..

Набор данных hsb2_mar.dta, основанный на hsb2. Код Stata для этого семинара разработан с использованием Stata 15. Некоторые переменные имеют связанные с ними метки значений..

Цели статистического анализа с недостающими данными:

Изучение механизмов недостающих данных.

Механизм отсутствующих данных описывает процесс, который, как предполагается, привел к возникновению недостающих значений. Механизмы отсутствия данных обычно относятся к одной из трех основных категорий. В литературе есть точные технические определения этих терминов; следующее объяснение обязательно содержит упрощения.

Полностью отсутствует случайно (MCAR)

Переменная отсутствует полностью случайным образом, если ни переменные в наборе данных, ни ненаблюдаемое значение самой переменной не предсказывают, будет ли пропущено значение. Полное случайное отсутствие данных — довольно сильное предположение и может быть относительно редким. Одна относительно распространенная ситуация, при которой данные отсутствуют полностью случайным образом, возникает, когда случайным образом выбирается подмножество случаев для проведения дополнительных измерений, это иногда называют «запланированным отсутствием». Например, в некоторых обследованиях состояния здоровья некоторые субъекты выбираются случайным образом для прохождения более тщательного медицинского обследования; поэтому только часть участников будет иметь полную информацию по этим переменным. Полное случайное отсутствие также позволяет связать отсутствие одной переменной с отсутствием другой, например var1 отсутствует всякий раз, когда отсутствует var2. Например, у мужа и жены отсутствует информация о росте..

Отсутствует случайно (MAR)

Считается, что переменная отсутствует случайно, если другие переменные (но не сама переменная) в наборе данных могут использоваться для прогнозирования отсутствия данной переменной. Например, в опросах мужчины могут с большей вероятностью отказываться отвечать на некоторые вопросы, чем женщины (т. Е. Пол предполагает отсутствие ответов по другой переменной). MAR — менее ограничительное предположение, чем MCAR. Согласно этому предположению вероятность пропуска не зависит от истинных значений после учета наблюдаемых переменных. MAR также связан с незнанием. Механизм недостающих данных считается игнорируемым, если он отсутствует случайно, и вероятность отсутствия данных не зависит от самой недостающей информации. Допущение игнорирования необходимо для оптимальной оценки недостающей информации и является необходимым допущением для обоих методов пропущенных данных, которые мы обсудим..

Отсутствует не случайно (MNAR)

Наконец, считается, что данные отсутствуют не случайно, если значение самой ненаблюдаемой переменной предсказывает отсутствие данных. Классический пример этого — доход. Люди с очень высокими доходами с большей вероятностью откажутся отвечать на вопросы о своих доходах, чем люди с более умеренными доходами..

Понимание механизма (ов) отсутствующих данных, присутствующих в ваших данных, важно, потому что разные типы отсутствующих данных требуют разных обработок. Когда данные отсутствуют полностью случайным образом, анализ только полных случаев не приведет к смещенным оценкам параметров (например, коэффициентам регрессии). Однако размер выборки для анализа может быть существенно уменьшен, что приведет к большим стандартным ошибкам. Напротив, анализ только полных наблюдений для данных, которые либо отсутствуют случайно, либо отсутствуют случайно, может привести к смещенным оценкам параметров. Множественное вменение и другие современные методы, такие как прямое максимальное правдоподобие, обычно предполагают, что данные относятся как минимум к MAR, а это означает, что эту процедуру также можно использовать для данных, которые отсутствуют полностью случайным образом. Статистические модели также были разработаны для моделирования процессов MNAR; однако эти модели выходят за рамки данного семинара..

Для получения дополнительной информации об отсутствующих механизмах данных см.:

Эллисон, Эндерс 2002, Литтл 2010 & Рубин, 2002 Рубин, 1976 Шафер & Грэм, 2002 г..

Полные данные:

Ниже представлена ​​регрессионная модель, прогнозирующая чтение с использованием полного набора данных (hsb2), используемого для создания hsb_mar, который содержит результаты тестов, а также демографическую и школьную информацию для 200 старшеклассников. Мы будем использовать эти результаты для сравнения.

Общие методы работы с отсутствующими данными.

В этом разделе мы собираемся обсудить некоторые общие методы работы с недостающими данными и кратко обсудим их ограничения..

Полный анализ случая (удаление по списку) Доступный анализ случая (попарное удаление) Среднее значение Единое вложение Стохастическое вменение.

1. Полный анализ случая:

Этот метод включает в себя удаление наблюдений в конкретном наборе данных, в которых отсутствуют данные по любой интересующей переменной. Это распространенный метод, потому что его легко реализовать и он работает с любым типом анализа..

Ниже мы рассмотрим некоторую описательную статистику набора данных hsb_mar..

Обратите внимание, что хотя набор данных содержит 200 наблюдений, шесть переменных имеют менее 200 наблюдений. Отсутствующая информация варьируется от 9 наблюдений или 4,5% (считывание) до 18 наблюдений или 9% (женщины и прога) случаев в зависимости от переменной. Это не кажется большим количеством недостающих данных, поэтому мы можем быть склонны попытаться проанализировать наблюдаемые данные такими, какие они есть, стратегия, которую иногда называют полным анализом случая..

Ниже представлена ​​регрессионная модель, в которой чтение зависимой переменной регрессирует для записи, математики, женского и прогр. Обратите внимание, что поведение регресса команды по умолчанию — это полный анализ случая (также называемое удалением по списку).

Глядя на результат, мы видим, что в анализе использовалось всего 130 наблюдений; Другими словами, более одной трети случаев в нашем наборе данных (70/200) были исключены из анализа из-за отсутствия данных. Само по себе уменьшение размера выборки (и статистической мощности) может считаться проблемой, но полный анализ случая также может привести к смещенным оценкам. В частности, ниже вы увидите, что оценки для перехвата, записи, математики и прогона отличаются от регрессионной модели для полных данных. Кроме того, стандартные ошибки все больше из-за меньшего размера выборки, в результате чего оценка параметра для женщин становится погранично несущественной. К сожалению, если механизмом пропущенных данных не является MCAR, этот метод внесет систематическую ошибку в оценки параметров..

2. Доступный анализ случая:

Этот метод включает в себя оценку средних значений, дисперсий и ковариаций на основе всех имеющихся не пропущенных случаев. Это означает, что вычисляется ковариационная (или корреляционная) матрица, в которой каждый элемент основан на полном наборе наблюдений с не пропущенными значениями для каждой пары переменных. Этот метод стал популярным, потому что потеря мощности из-за отсутствия информации не так существенна, как при полном анализе случая. В зависимости от изученных парных сравнений размер выборки будет меняться в зависимости от количества пропущенных данных, присутствующих в одной или обеих переменных. Одним из основных недостатков этого метода является отсутствие согласованного размера выборки, а полученные оценки параметров часто сильно отличаются от оценок, полученных в результате анализа полных данных или метода списочного удаления. Если механизмом пропуска данных не является MCAR, этот метод внесет систематическую ошибку в оценки параметров. Поэтому этот метод не рекомендуется..

3. Безусловное среднее вменение:

Эти методы включают замену отсутствующих значений для отдельной переменной ее общим расчетным средним из имеющихся наблюдений. Хотя это простой и легко реализуемый метод работы с отсутствующими значениями, он имеет некоторые печальные последствия. Самая важная проблема, связанная с вменением среднего, также называемым подстановкой среднего, заключается в том, что это приведет к искусственному снижению изменчивости из-за того, что вы вменяете значения в центр распределения переменной. Это также имеет непреднамеренное последствие изменения величины корреляции между условно исчисляемой переменной и другими переменными. Мы можем продемонстрировать это явление на наших данных..

Ниже приведены таблицы средних значений и стандартных отклонений четырех переменных в нашей регрессионной модели ДО и ПОСЛЕ вменения среднего, а также их соответствующие матрицы корреляции. Это потребует от нас создания фиктивных переменных для нашей программы категориального прогнозирования..

Средние значения и корреляции между переменными до вменения среднего.

Средние значения и корреляции между переменными после вменения среднего.

Вы заметите, что среднее значение изменилось очень мало (как и следовало ожидать); однако стандартное отклонение заметно ниже после замены на средние значения наблюдений с отсутствующей информацией. Это связано с тем, что вы уменьшаете изменчивость своих переменных, когда вменяете всех в среднем. Более того, вы можете увидеть таблицу коэффициентов корреляции, в которой корреляция между каждым из наших интересующих предикторов (запись, математика, женский пол и прогр), а также между предикторами и прочитанным результатом теперь ослаблена. Следовательно, регрессионные модели, которые стремятся оценить связи между этими переменными, также увидят, что их эффекты ослаблены..

4. Единичное или детерминированное вменение:

Немного более сложный тип вменения — это регрессионное / условное вменение среднего, которое заменяет отсутствующие значения прогнозируемыми баллами из уравнения регрессии. Сила этого подхода в том, что он использует полную информацию для условного расчета значений. Недостатком здесь является то, что все ваши прогнозируемые значения будут попадать прямо на линию регрессии, снова уменьшая изменчивость, но не в такой степени, как при безусловном вменении среднего. Более того, статистические модели не могут различать наблюдаемые и вмененные значения и, следовательно, не включают в модель ошибку или неопределенность, связанную с этим вмененным значением. Кроме того, вы увидите, что этот метод также раздувает связи между переменными, поскольку он приписывает значения, которые идеально коррелируют друг с другом. К сожалению, даже в предположении MCAR, вменение регрессии приведет к смещению вверх корреляций и статистики R-квадрата. Дальнейшее обсуждение и пример детерминированного вменения можно найти в книге Крейга Эндерса «Прикладной анализ отсутствующих данных» (2010)..

стр. 46, Прикладной анализ отсутствующих данных, Крейг Эндерс (2010)

5. Стохастическая импутация:

Признавая проблемы с регрессионным вменением и уменьшенную изменчивость, связанную с этим подходом, исследователи разработали метод, позволяющий включить или «добавить обратно» потерянную изменчивость. Остаточный член, который случайным образом выбирается из нормального распределения со средним нулевым и дисперсией, равной остаточной дисперсии из регрессионной модели, добавляется к прогнозируемым баллам из регрессионного вменения, таким образом восстанавливая часть утерянной изменчивости. Этот метод превосходит предыдущие, поскольку он дает несмещенные оценки коэффициентов в соответствии с MAR. Однако стандартные ошибки, возникающие во время оценки регрессии, хотя и менее смещены, чем метод единого вменения, все же будут уменьшены..

Хотя вы, возможно, склонны использовать один из этих более традиционных методов, рассмотрите следующее утверждение: «Анализ отсутствующих данных затруднен, потому что не существует правильной методологической процедуры. Во многих (если не в большинстве) ситуаций слепое применение оценки максимального правдоподобия или множественного вменения, вероятно, приведет к более точному набору оценок, чем использование одного из [ранее упомянутых] методов обработки отсутствующих данных »(стр. 344, Прикладной анализ отсутствующих данных) , 2010).

стр. 48, Прикладной анализ отсутствующих данных, Крейг Эндерс (2010)

Множественное вменение.

Множественное вменение — это, по сути, итеративная форма стохастического вменения. Однако вместо заполнения одного значения используется распределение наблюдаемых данных для оценки нескольких значений, которые отражают неопределенность вокруг истинного значения. Эти значения затем используются в интересующем анализе, например, в модели OLS, и результаты объединяются. Каждое условное значение включает случайный компонент, величина которого отражает степень, в которой другие переменные в модели вменения не могут предсказать его истинные значения (Johnson and Young, 2011; White et al, 2010). Таким образом, добавление к вмененным значениям уровня неопределенности в отношении «правдивости» вмененных значений.

Распространенное заблуждение относительно методов пропущенных данных — это предположение, что вмененные значения должны представлять «реальные» значения. Цель обращения к отсутствующим данным — правильно воспроизвести матрицу дисперсии / ковариации, которую мы наблюдали бы, если бы в наших данных не было отсутствующей информации..

МИ состоит из трех основных фаз:

1. Этап вменения или заполнения: недостающие данные заполняются оценочными значениями, и создается полный набор данных. Этот процесс заполнения повторяется m раз..

2. Этап анализа: затем каждый из m полных наборов данных анализируется с использованием интересующего статистического метода (например, линейной регрессии)..

3. Этап объединения: оценки параметров (например, коэффициенты и стандартные ошибки), полученные из каждого проанализированного набора данных, затем объединяются для вывода..

Выбранный вами метод вменения зависит от характера недостающей информации, а также от типа переменной (переменных) с недостающей информацией..

Модель вменения, аналитическая модель и совместимость:

При разработке вашей модели вменения важно оценить, является ли ваша модель вменения «подходящей» или соответствующей вашей аналитической модели. Согласованность означает, что ваша модель вменения включает (по крайней мере) те же переменные, что и в вашей аналитической или оценочной модели. Сюда входят любые преобразования в переменные, которые потребуются для оценки интересующей вас гипотезы. Это может включать преобразования журналов, условия взаимодействия или перекодирование непрерывной переменной в категориальную форму, если это будет то, как она будет использоваться в последующем анализе. Причина этого связана с предыдущими комментариями о цели множественного вменения. Поскольку мы пытаемся воспроизвести правильную матрицу дисперсии / ковариации для оценки, все отношения между нашими аналитическими переменными должны быть представлены и оценены одновременно. В противном случае вы вводите значения, предполагая, что они имеют нулевую корреляцию с переменными, которые вы не включили в свою модель вменения. Это приведет к недооценке связи между интересующими вас параметрами в вашем анализе и потере способности обнаруживать свойства ваших данных, которые могут представлять интерес, такие как нелинейности и статистические взаимодействия. Дополнительную информацию по этой конкретной теме см .:

1. фон Хиппель, 2009 г..

2. фон Хиппель, 2013 г..

3. White et al., 2010 г..

Подготовка к ИМ:

Первый шаг: проверьте количество и долю пропущенных значений среди интересующих вас переменных. Давайте перезагрузим наш набор данных и воспользуемся командой mdesc для подсчета количества пропущенных наблюдений и доли пропущенных для каждой переменной..

Мы видим, что переменные с наибольшей долей недостающей информации — это проги и женщины с 9,0%. В общем, вы хотите отметить переменные с большой долей недостающей информации, поскольку они будут иметь наибольшее влияние на сходимость вашей указанной модели вменения..

Второй шаг: изучите шаблоны отсутствующих данных среди интересующих вас переменных.

В Stata есть набор команд множественного вменения (mi), которые помогают пользователям не только вменять свои данные, но и исследовать закономерности отсутствия в данных..

Для использования этих команд набор данных в памяти должен быть объявлен или mi установлен как набор данных «mi». Набор данных, который установлен mi, получает стиль mi. Это сообщает Stata, как должны храниться данные умноженного исчисления после завершения импутации. Для получения информации об этих стилях введите в командное окно несколько стилей. Мы будем использовать стиль млонг .

Выбранный стиль можно изменить с помощью mi convert .

Вы заметите, что выполнение предыдущей команды создаст три новые переменные в вашем наборе данных. Эти новые переменные будут использоваться Stata для отслеживания вмененных наборов данных и значений..

_mi_miss: отмечает наблюдения в исходном наборе данных, у которых отсутствуют значения. _mi_m: указывает номер условного исчисления. Значение 0 для исходного набора данных. _mi_id: индикатор для наблюдений в исходном наборе данных, который повторяется в наборе данных, чтобы отметить импутированные наблюдения..

Команды mi misstable помогают пользователям табулировать количество пропущенных в их интересующих переменных (суммировать), а также исследовать закономерности пропущенных (закономерностей) .

Обратите внимание, что Stata кодирует отсутствующие значения. , .a, .b, .c,…, .z больше любых непустых значений:

∞ > 0,4) или, как полагают, связаны с отсутствием. Это факторы, которые не представляют особого интереса для вашей аналитической модели, но они добавлены к модели вменения, чтобы увеличить мощность и / или помочь сделать предположение о MAR более правдоподобным. Было обнаружено, что эти переменные улучшают качество вмененных значений, полученных в результате множественного вменения. Более того, исследования продемонстрировали их особую важность при вменении зависимой переменной и / или когда у вас есть переменные с большой долей недостающей информации (Johnson and Young, 2011; Young and Johnson, 2010; Enders, 2010)..

Вы можете априори знать несколько переменных, которые, по вашему мнению, могут стать хорошими вспомогательными переменными, основываясь на ваших знаниях данных и предмета. Кроме того, хороший обзор литературы часто может помочь их выявить. Однако, если вы не уверены, какие переменные в данных могут быть потенциальными кандидатами (это часто бывает при проведении вторичного анализа данных), вы можете использовать несколько простых методов, чтобы помочь определить потенциальных кандидатов. Один из способов идентифицировать эти переменные — изучить связи между записью, чтением, женским и математическим расчетом с другими переменными в наборе данных. Например, давайте взглянем на корреляционную матрицу между 4 интересующими нас переменными и двумя другими переменными результатов теста наука и социология. .

Наука и социология кажутся хорошими вспомогательными средствами, потому что они хорошо коррелированы (r >0.4) со всеми другими интересующими переменными результатов теста. Вы также заметите, что они плохо коррелируют с женщинами. Хорошее вспомогательное средство не обязательно должно быть связано с каждой переменной, чтобы быть полезным. Вы также заметите, что в науке также отсутствует собственная информация. Кроме того, для того, чтобы иметь полную информацию, не требуется хорошего вспомогательного материала. Они могут отсутствовать, но по-прежнему эффективны в снижении систематической ошибки (Enders, 2010).

Одна из областей, которая все еще находится в стадии активного исследования, заключается в том, полезно ли включать переменную в качестве вспомогательной, если она не превышает порог корреляции 0,4 с какой-либо из переменных, подлежащих вменению. Некоторые исследователи считают, что включение этих типов элементов вносит ненужную ошибку в модель вменения (Allison, 2012), в то время как другие не считают, что такая практика наносит какой-либо вред (Ender, 2010). Таким образом. мы оставляем это на ваше усмотрение как исследователя, чтобы использовать ваше лучшее суждение.

Хорошие вспомогательные переменные также могут быть коррелятами или предикторами отсутствия. Давайте создадим набор флагов отсутствующих данных для каждой переменной, которая будет рассчитана. Затем мы проверим, может ли наша потенциальная вспомогательная переменная socst также предсказывать отсутствие.

Ниже приведен набор t-критериев, чтобы проверить, значительно ли различаются средние оценки по социологии и науке между теми, у кого отсутствует информация, и теми, у кого нет.

Единственное существенное различие было обнаружено при проверке пропусков по математике с помощью socst. Выше вы можете видеть, что средний балл по socst значительно ниже у респондентов, которые не успевают по математике. Это говорит о том, что socst является потенциальным коррелятом отсутствия (Enders, 2010) и может помочь нам удовлетворить предположение MAR для множественного вменения, включив его в нашу модель вменения..

Пример 1: MI с использованием многомерного нормального распределения (MVN):

Выбрав вменять одну или несколько переменных, одно из первых решений, которое вы примете, — это тип распределения, при котором вы ожидаете вменять свою переменную (ы). Один из доступных методов использует процедуры Монте-Карло цепи Маркова (MCMC), которые предполагают, что все переменные в модели вменения имеют совместное многомерное нормальное распределение. Это, вероятно, наиболее распространенный параметрический подход для множественного вменения. Используемый конкретный алгоритм называется алгоритмом увеличения данных (DA), который принадлежит к семейству процедур MCMC. Алгоритм заполняет отсутствующие данные путем извлечения из условного распределения, в данном случае многомерного нормального, недостающих данных с учетом наблюдаемых данных. В большинстве случаев исследования с использованием моделирования показали, что предположение о распределении MVN приводит к надежным оценкам, даже если предположение о нормальности нарушается при достаточном размере выборки (Demirtas et al., 2008; KJ Lee, 2010). Однако предвзятые оценки наблюдались, когда размер выборки относительно невелик, а доля недостающей информации высока..

Примечание. Поскольку мы используем многомерное нормальное распределение для вменения, возможны десятичные и отрицательные значения. Эти значения не являются проблемой для оценки; однако нам нужно будет создать фиктивные переменные для номинальных категориальных переменных, чтобы можно было интерпретировать оценки параметров для каждого уровня..

1. Этап вменения:

После того, как данные установлены, Stata требует 3 дополнительных команды. Первый — это вмененный регистр mi. Эта команда определяет, какие переменные в модели вменения имеют недостающую информацию..

Вторая команда — это mi impute mvn, где пользователь указывает модель вменения, которая будет использоваться, и количество вмененных наборов данных, которые должны быть созданы..

В командной строке mi impute mvn мы можем использовать опцию добавления, чтобы указать количество выполняемых вменений. В этом примере мы выбрали 10 вменений. Переменные в левой части знака равенства содержат недостающую информацию, в то время как правая часть зарезервирована для переменных без пропущенной информации и поэтому считается исключительно «предикторами» пропущенных значений. Как видите, даже несмотря на то, что наука является вспомогательной переменной, наука должна быть включена в качестве переменной для вменения..

После mvn указываются все переменные для модели вменения, включая все переменные аналитической модели, а также любые вспомогательные переменные. Параметр rseed не требуется, но поскольку MI разработан как случайный процесс, установка начального числа позволит вам каждый раз получать один и тот же набор условно исчисленных данных. Вмененные наборы данных будут храниться добавленными или «сложенными» вместе в наборе данных. Индикаторная переменная с именем _mi_m автоматически заполняется для нумерации каждого нового импутируемого набора данных (1-10)..

Вывод после mi impute mvn, позволяет пользователю узнать, какие параметры были вызваны для команды. В верхней части выходных данных показано, какой тип вменения использовался (MVN), а также количество созданных наборов вмененных данных (m = 10). Поскольку оценка вмененных значений включает байесовский процесс, также сообщаются характеристики MCMC, включая тип ранее использованного, общее количество итераций, количество итераций приработки (количество итераций перед первым набором вмененных итераций). значений) и количество итераций между розыгрышами. Нижняя часть выходных данных включает таблицу, в которой указано количество пропущенных значений, которые были вменены для каждой переменной, которая была зарегистрирована для вменения..

2. Этап анализа / объединения:

Третий шаг — это оценка mi, которая запускает интересующую аналитическую модель (здесь это линейная регрессия с использованием регрессии) в каждом из вмененных наборов данных. Он также объединяет все оценки (коэффициенты и стандартные ошибки) для всех вмененных наборов данных..

Команда оценки mi используется как префикс к стандартной команде регрессии. При этом выполняется указанная модель оценки в каждом из 10 вмененных наборов данных для получения 10 наборов коэффициентов и стандартных ошибок. Затем Stata объединяет эти оценки, чтобы получить один набор выводимой статистики..

На этом этапе оценки параметров объединяются в единый набор статистических данных, который надлежащим образом отражает неопределенность, связанную с вмененными значениями. Коэффициенты регрессии — это просто среднее арифметическое индивидуальных коэффициентов, оцененных для каждой из 10 регрессионных моделей. Усреднение оценок параметров уменьшает вариацию, тем самым повышая эффективность и уменьшая вариабельность выборки. Оценка стандартной ошибки для каждой переменной немного сложнее и будет обсуждаться в следующем разделе. Если вы сравните эти оценки с оценками из полных данных, вы увидите, что в целом они вполне сопоставимы. Переменные write, female и math, важны в обоих наборах данных. Вы также заметите небольшое увеличение стандартных ошибок, чего и следовало ожидать, поскольку процесс множественного вменения предназначен для создания дополнительной неопределенности в наших оценках..

Например, если вы взяли для записи все 10 оценок параметров и вычислили дисперсию, это будет равно V B = 0,00067. Эта изменчивость оценивает дополнительную вариацию (неопределенность), возникающую из-за отсутствия данных. Разница в пределах (V W): это просто среднее арифметическое дисперсий выборки (SE) для каждого из 10 вмененных наборов данных..

Например, если вы возведете в квадрат стандартные ошибки записи для всех 10 вменений, а затем разделите их на 10, получится V w = 0,0059. Это оценивает изменчивость выборки, которую мы ожидали бы, если бы не было пропущенных данных. Общая дисперсия (V T): основная полезность MI зависит от того, как оценивается общая дисперсия. Общая дисперсия — это сумма нескольких источников дисперсии. В то время как коэффициенты регрессии просто усредняются по вмененным значениям, формула Рубина (Rubin, 1987) делит дисперсию на «в пределах вменения», фиксируя ожидаемую неопределенность, и «между вменениями», фиксируя изменчивость оценок из-за отсутствия информации (Graham, 2007; White et al. ., 2010). Общая дисперсия — это сумма трех источников дисперсии. Внутреннее, промежуточное и дополнительный источник дисперсии выборки.

Например, общая дисперсия для записи переменной может быть рассчитана следующим образом: V B + V w + V B / m = 0,0006 7 + 0,0059 + 0,00067 / 10 = 0,00667 Дополнительная дисперсия выборки — это буквально дисперсия между деленными на m. Это значение представляет ошибку выборки, связанную с оценками общего или среднего коэффициента. Он используется в качестве поправочного коэффициента для использования определенного количества вменений..

Это значение становится тем меньше, чем больше проводится условных расчетов. Идея состоит в том, что чем больше количество вменений, тем точнее будут оценки параметров. Итог: Основное различие между множественным вменением и другими методами единого вменения заключается в оценке дисперсий. SE для каждой оценки параметра — это квадратный корень из V T. Относительное увеличение дисперсии (RIV / RVI): пропорциональное увеличение общей дисперсии выборки из-за отсутствия информации ([V B + V B / m] / V W). Например, RVI для записи составляет 0,1239, это означает, что предполагаемая дисперсия выборки для записи на 12,4% больше, чем ее дисперсия выборки, если бы данные при записи были завершены. Итог: переменные, у которых отсутствует большое количество данных и / или которые слабо коррелируют с другими переменными в модели вменения, будут иметь высокий RVI. Часть недостающей информации (FMI): напрямую связана с RVI. Доля общей дисперсии выборки, вызванной отсутствием данных ([V B + V B / m] / V T). Он рассчитывается на основе процентной доли, отсутствующей для конкретной переменной, и того, насколько эта переменная коррелирует с другими переменными в модели вменения. Интерпретация аналогична R-квадрату. Таким образом, значение FMI 0,1138 для записи означает, что 11,4% общей дисперсии выборки связано с отсутствием данных. Точность оценки ИФР возрастает по мере увеличения вменения чисел, поскольку оценки дисперсии стабилизируются при вменении больших чисел. Это особенно важно при наличии переменной (переменных) с большой долей недостающей информации. Если сходимость вашей модели вменения происходит медленно, изучите оценки ИФР для каждой переменной в вашей модели вменения. Высокий FMI может указывать на проблемную переменную. Итог: если FMI высок для какой-либо конкретной переменной (переменных), рассмотрите возможность увеличения количества вменений. Хорошее практическое правило состоит в том, чтобы вмененные числа (как минимум) равнялись наивысшему процентному содержанию ИФР. Относительная эффективность: относительная (дисперсионная) эффективность (RE) вменения (насколько хорошо оцениваются истинные параметры генеральной совокупности) связана как с объемом недостающей информации, так и с количеством (m) выполненных вменений. RE — это оценка эффективности выполнения бесконечного числа вменений. Когда количество недостающей информации очень мало, эффективность может быть достигнута только путем выполнения нескольких вменений (минимальное число, указанное в большей части литературы, равно 5). Однако при большом количестве недостающей информации обычно требуется больше вменений для достижения адекватной эффективности оценок параметров. Вы можете получить относительно хороший КПД даже при небольшом количестве m. Однако это не означает, что стандартные ошибки будут хорошо оценены. Для правильной оценки стандартной ошибки часто требуется больше вменений, поскольку вариативность между вмененными наборами данных включает необходимую степень неопределенности в отношении вмененных значений. Прямая связь между RE, m и FMI: 1 / (1 + FMI / m). Эта формула представляет RE использования вменения m по сравнению с бесконечным числом вменений. Чтобы получить представление о том, как это выглядит на практике, взгляните на пример из документации SAS. Итог: может показаться, что вы можете получить хороший ВЭ с помощью нескольких вменений; однако для получения хороших оценок дисперсий часто требуется больше вменений, чем для хороших оценок таких параметров, как средние значения или коэффициенты регрессии. Степени свободы (DF): в отличие от анализа с не исчисленными данными, размер выборки не влияет напрямую на оценку DF. Фактически DF продолжает увеличиваться по мере увеличения количества вменений. Стандартная формула, используемая для расчета DF, может приводить к дробным оценкам и завышенным степеням свободы. Поправка малой выборки к DF (Barnard and Rubin, 1999) реализована (по умолчанию) для того, чтобы адресовать завышенную DF, которая иногда может возникать, когда число m велико. Итог: стандартная нескорректированная формула предполагает, что оценщик имеет нормальное распределение, то есть t-распределение с бесконечными степенями свободы. В больших выборках это обычно не проблема, но может быть в выборках меньшего размера. В этом случае следует использовать скорректированную формулу по умолчанию (Lipsitz et al., 2002)..

После выполнения вменения также полезно посмотреть на средние значения, частоты и ящичковые диаграммы, сравнивая наблюдаемые и вмененные значения, чтобы оценить, кажется ли диапазон разумным. Вы также можете изучить графики остатков и выбросов для каждого вмененного набора данных по отдельности. Если аномалии очевидны только в небольшом количестве вменений, это указывает на проблему с моделью вменения (White et al, 2010)..

Вам также следует оценить сходимость вашей модели вменения. Это должно быть сделано для различных условно исчисленных переменных, но особенно для тех переменных, для которых большая доля пропущенных переменных (например, высокий ИФР). Сходимость модели вменения означает, что алгоритм DA достиг соответствующего стационарного апостериорного распределения. Сходимость для каждой вмененной переменной можно оценить с помощью графиков трассировки. Графики трассировки — это графики предполагаемых параметров в зависимости от номеров итераций. Эти графики можно запросить с помощью параметров saveptrace и mcmconly..

Эта опция mcmconly просто запустит алгоритм MCMC для того же количества итераций, которое требуется для получения 10 вменений, без фактического создания 10 вмененных наборов данных. Используется ли он обычно в сочетании с saveptrace или savewlf для проверки сходимости MCMC до вменения. Вменение не выполняется с помощью mcmconly, поэтому параметры добавления или замены не требуются с помощью mi impute mvn .

На практике сходимость часто проверяют визуально по графикам трассировки и автокорреляции оцененных параметров. Графики трассировки — это графики предполагаемых параметров в зависимости от номеров итераций. Долгосрочные тренды на графиках следа и высокая серийная зависимость на графиках автокорреляции указывают на медленную сходимость к стационарности. Стационарный процесс имеет среднее значение и дисперсию, которые не меняются с течением времени (StataCorp, 2017 — Stata 15 «MI Impute Chained»). Вы можете взглянуть на примеры хороших и плохих графиков трассировки в разделе руководства пользователя SAS «Оценка сходимости цепей Маркова»..

Обратите внимание, что сохраненный файл трассировки не является истинным набором данных Stata, но его можно загрузить, как если бы они использовали команду mi ptrace use, и его содержимое можно описать без фактического открытия файла с помощью команды mi ptrace describe. Файл трассировки содержит информацию о номере вменения, номере итерации, коэффициентах регрессии, дисперсиях и ковариациях..

Если в вашей модели много параметров, может оказаться невозможным исследовать сходимость каждого отдельного параметра. В этом случае вы можете использовать savewlf. WLF означает наихудшую линейную функцию. Это выведет вам параметр (ы) с наивысшим значением FMI..

Давайте посмотрим на данные для женщин (y3), которые были одной из переменных, содержащих наименьшее количество полных наблюдений. Сгенерируем графики для каждой серии.

Мы начнем с объявления данных как временных рядов, поэтому номер итерации будет на оси абсцисс. Затем мы построим график коэффициентов регрессии и дисперсии для женщин..

Выше приведен пример двух графиков трассировки. На графике трассировки нужно отметить два основных момента. Во-первых, оцените, кажется ли, что алгоритм достиг стабильного апостериорного распределения, исследуя график, чтобы увидеть, остаются ли предсказанные значения относительно постоянными и что, по-видимому, отсутствует какая-либо тенденция (что указывает на достаточную степень случайности в коэффициентах, ковариации и / или отклонения между итерациями). В нашем случае это похоже на правду. Во-вторых, вы хотите изучить график, чтобы увидеть, сколько времени требуется для достижения этой стационарной фазы. В приведенном выше примере это, похоже, происходит почти сразу, поскольку не возникает наблюдаемой закономерности, что указывает на хорошую сходимость. По умолчанию период приработки (количество итераций перед отрисовкой первого набора условно вычисленных значений) составляет 100. Его можно увеличить, если окажется, что правильная сходимость не достигается с помощью опции прожигания..

Другой график, который очень полезен для оценки сходимости, — график автокорреляции. Автокорреляция измеряет корреляцию между предсказанными значениями на каждой итерации. Поскольку процесс вменения должен быть случайным, мы не должны наблюдать коррелированные вмененные значения при вменении. Мы можем проверить, осталось ли достаточно итераций между последовательными отрисовками (то есть наборами данных), чтобы автокорреляция не существовала. Допустим, вы заметили тенденцию отклонений на предыдущем графике кривой. Вы можете захотеть оценить величину наблюдаемой зависимости значений от итераций. График автокорреляции покажет вам это. Чтобы построить эти графики в Stata, вы будете использовать команду ac или автокорреляции в том же файле данных «трассировки»..

На приведенном ниже графике ось x показывает отставание, то есть расстояние между данной итерацией и итерацией, с которой она коррелируется, на оси Y — значения корреляций. На графике вы можете видеть, что корреляция высока, когда алгоритм mcmc запускается, но быстро приближается к нулю после нескольких итераций, что указывает на почти отсутствие корреляции между итерациями и, следовательно, отсутствие корреляции между значениями в соседних вмененных наборах данных. По умолчанию Stata рисует вмененный набор данных каждые 100 итераций. Если корреляция оказывается высокой для большего, чем это значение, вам нужно будет увеличить количество итераций между вмененными наборами данных, используя параметр burnbetween. Взгляните на документацию Stata 15 mi impute mvn для получения дополнительной информации об этом и других вариантах..

Примечание. Время, необходимое для достижения нулевой (или почти нулевой) корреляции, является показателем времени сходимости (Enders, 2010)..

Для получения дополнительной информации об этих и других диагностических инструментах см. Ender, 2010 и Rubin, 1987..

Пример 2: MI с использованием связанных уравнений / MICE (также известный как полностью условная спецификация или последовательная обобщенная регрессия)

Второй метод, доступный в Stata, — это множественное вменение с помощью связанных уравнений (MICE), которое не предполагает совместного распределения MVN, а вместо этого использует отдельное условное распределение для каждой вмененной переменной. Эта спецификация может быть необходима, если вы вводите переменную, которая должна принимать только определенные значения, такие как двоичный результат для логистической модели или счетная переменная для модели Пуассона. В симуляционных исследованиях (Ли & Карлин, 2010; Van Buuren, 2007), было показано, что MICE дает оценки, сопоставимые с методом MVN. Позже мы обсудим некоторые диагностические инструменты, которые можно использовать для оценки того, была ли достигнута конвергенция при использовании MICE..

Распределения MICE, доступные в Stata, представляют собой двоичную, упорядоченную и полиномиальную логистическую регрессию для категориальных переменных, линейную регрессию и соответствие прогнозируемого среднего (PMM) * для непрерывных переменных, а также пуассоновскую и отрицательную биномиальную регрессию для переменных количества. Stata также предоставляет доступ к некоторым более специализированным методам, включая усеченную и интервальную регрессию. Если вы не укажете распределение, по умолчанию используется линейная регрессия..

Для получения дополнительной информации об этих методах и связанных с ними параметрах см. Файл справки Stata о mi impute chained .

* Примечание: поведение Stata по умолчанию для PMM использует слишком мало совпадений ближайших соседей и будет повторно использовать заниженные стандартные ошибки, этот параметр следует изменить при использовании процедуры.

Давайте перезагрузим данные и набор mi:

1. Этап вменения:

Базовая установка для проведения вменения показана ниже. Синтаксис очень похож на предыдущую модель с использованием MVN с некоторыми отличиями. Во-первых, теперь мы указываем chained вместо mvn. Во-вторых, вместо того, чтобы просто перечислять переменные для вменения, мы теперь укажем конкретное распределение для вменения. Выбранный метод вменения указан в скобках перед переменной (переменными), к которой применяется это распределение. В этом случае мы будем использовать логистику для бинарной переменной женский, полиномиальную логистику для нашей неупорядоченной программы категориальных переменных и линейную регрессию для всех наших переменных непрерывной оценки. Вы заметите, что нам больше не нужны фиктивные переменные для программы, поскольку мы вменяем ее как категориальную переменную..

По умолчанию переменные будут вменяться в порядке от наиболее наблюдаемых к наименее наблюдаемым. Если вы хотите изменить это значение по умолчанию, укажите опцию orderasis .

Как и в случае с MVN, Stata автоматически создаст переменные _mi_m, _mi_id, _mi_miss .

2. Этап анализа.

После создания 10 наборов данных с множественным вменением мы можем запустить нашу линейную регрессию с помощью команды regress. Поскольку мы вменяли женский пол и прогр в соответствии с распределением, подходящим для категориальных результатов, вмененные значения теперь будут истинными целочисленными значениями, и их можно будет рассматривать как индикаторные переменные в регрессионной модели..

Как и раньше, команда оценки mi используется как префикс к стандартной команде регрессии. При этом выполняется указанная модель оценки для каждого из 10 вмененных наборов данных для получения 10 наборов коэффициентов и стандартных ошибок. Затем Stata объединяет эти оценки, чтобы получить один набор выводимой статистики..

Если вы сравните эти оценки с оценками из полных данных, вы увидите, что в целом они вполне сопоставимы. Переменные write, female и math, важны в обоих наборах данных. Вы также заметите небольшое увеличение стандартных ошибок, чего и следовало ожидать, поскольку процесс множественного вменения предназначен для создания дополнительной неопределенности в наших оценках. Как и в модели MVN, SE больше из-за включения неопределенности в оценки параметров, но эти SE все еще меньше, чем мы наблюдали при полном анализе случаев. Все оценки параметров выглядят хорошо, кроме тех, что для прог .

Как и в случае с методом MVN, мы можем сохранить файл предсказанных значений для каждой итерации и построить их график с помощью графика трассировки. Параметр savetrace указывает Stata для сохранения средних и стандартных отклонений условно рассчитанных значений от каждой итерации в набор данных Stata с именем «trace1»..

Примечание. При использовании MVN используется опция saveptrace. .

Некоторое управление данными необходимо для создания графика трассировки. Файл, созданный Stata, является «длинным» с строкой для каждой цепочки на каждой итерации. Мы хотим, чтобы дата была «широкой», чтобы значения среднего и стандартного отклонения для каждой переменной были разделены по цепочке. Поскольку существует несколько цепочек (m = 10), повторяется номер итерации, что недопустимо для данных временных рядов. Таким образом, нам нужно изменить форму данных, чтобы использовать tsset. Затем мы можем построить график прогнозируемого среднего и / или стандартного отклонения для каждой вмененной переменной..

График трассировки ниже отображает прогнозируемую среднюю стоимость, полученную во время первой цепочки вменения. Как и прежде, ожидается, что значения будут изменяться случайным образом, чтобы включить изменение в прогнозируемые значения для чтения..

Все 10 цепочек вменения также могут быть построены одновременно, чтобы убедиться, что в одной цепочке не произошло ничего неожиданного. Каждая цепочка получается с использованием разного набора начальных значений, и он должен быть уникальным. Каждая цветная линия представляет собой различное вменение. Таким образом, все 10 цепочек вменения накладываются друг на друга..

Графики автокорреляции доступны только при предположении совместного MVN. В случае MICE от этого будет мало пользы из-за итеративного процесса, используемого для создания вменений. На каждой итерации модель вменения оценивается с использованием как наблюдаемых данных, так и вмененных данных из предыдущей итерации. Таким образом, вы всегда будете получать определенную автокорреляцию. Для получения дополнительной информации об оценке конвергенции при использовании MICE ознакомьтесь с документацией Stata по mi impute chained .

MICE имеет несколько свойств, которые делают его привлекательной альтернативой алгоритму DA. Во-первых, MICE позволяет вменять каждую переменную с использованием ее собственного условного распределения вместо одного общего многомерного распределения. Это особенно полезно, когда отрицательные или нецелые значения не могут использоваться в последующих анализах, таких как вменение двоичной переменной результата. Во-вторых, для разных переменных могут быть указаны разные модели вменения. Это полезно, если есть определенные свойства данных, которые необходимо сохранить. Однако гибкость подхода также может вызвать проблемы с оценкой. Указание различных распределений может привести к медленной сходимости или несовпадению модели вменения (см. Разделы «Совместимость условных выражений» и «Сходимость MICE» в файле справки Stata по mi imput chained). Кроме того, проблемы полного и квазиполного разделения могут возникнуть при попытке вменения большого количества категориальных переменных. В целом, при попытке множественного вменения, особенно с помощью MICE, вы должны предоставить себе достаточно времени для построения соответствующей модели и времени для модификаций, если с вашей моделью вменения возникнут проблемы сходимости и / или оценки. Цель состоит в том, чтобы пройти этот процесс только один раз.!

Другие вопросы.

1. Почему вспомогательные переменные?

Итак, вы можете задать себе один вопрос: почему вспомогательные переменные необходимы или даже важны. Во-первых, они могут помочь повысить вероятность выполнения допущения MAR (White et al, 2011; Johnson and Young, 2011; Allison, 2012). Помните, что переменная считается отсутствующей случайным образом, если другие переменные в наборе данных могут использоваться для прогнозирования отсутствия данной переменной. Таким образом, вы хотите, чтобы ваша модель вменения включала все переменные, с которыми, по вашему мнению, связаны, или указывала на отсутствие в вашей переменной, чтобы выполнить предположение MAR. Во-вторых, было показано, что включение вспомогательных средств помогает давать более точные и стабильные оценки и, таким образом, сокращать предполагаемые стандартные ошибки в аналитических моделях (Enders, 2010; Allison, 2012; von Hippel and Lynch, 2013). Это особенно верно в случае отсутствия переменных результата. В-третьих, включение этой переменной также может помочь увеличить мощность (Reis, Judd, 2000; Enders, 2010). В целом, почти всегда есть преимущества от принятия более «всеобъемлющей стратегии анализа» (Enders, 2010; Allison, 2012).

2. Выбор количества вменений (m) Исторически рекомендовалось использовать от трех до пяти наборов данных MI. Относительно низкие значения m могут быть подходящими, если доля недостающей информации мала и методы анализа относительно просты. Однако в последнее время часто рекомендуются более высокие значения m. В некоторой степени это изменение рекомендуемого количества вменений основано на радикальном увеличении вычислительной мощности, доступной типичному исследователю, что делает его более практичным для запуска, создания и анализа множественных вмененных наборов данных с большим количеством вменений. Рекомендации по количеству м разнятся. Например, от пяти до двадцати вменений для низкой доли отсутствующей информации и до 50 (или более) вменений, когда доля отсутствующих данных относительно высока. Помните, что оценки коэффициентов стабилизируются при гораздо более низких значениях m, чем оценки дисперсии и ковариации членов ошибок (т. Е. Стандартных ошибок). Таким образом, чтобы получить соответствующие оценки этих параметров, вам может потребоваться увеличить m. Большее количество вменений может также позволить проверять гипотезы с менее ограничивающими предположениями (т. Е. Которые не предполагают равные доли отсутствующей информации для всех коэффициентов). Для оценки стабильности оценок параметров рекомендуется несколько прогонов m вменений..

Graham et al., 2007 провели моделирование, демонстрирующее влияние на оценки мощности, эффективности и параметров различных частей недостающей информации при уменьшении m. Авторы обнаружили, что:

1. Увеличились среднеквадратическая ошибка и стандартная ошибка.

2. Мощность была уменьшена, особенно когда FMI больше 50% и размер эффекта небольшой, даже для большого количества метров (20 или более)..

3. Существенно увеличилась изменчивость оценки ИФР. В целом оценка FMI улучшается с увеличением m. .

Еще один фактор, который следует учитывать, — это важность воспроизводимости анализов с использованием одних и тех же данных. White et al. (2010), предполагая, что истинный FMI для любой переменной будет меньше или равен проценту неполных наблюдений, использует правило, согласно которому m должно равняться проценту неполных наблюдений. Таким образом, если FMI для переменной составляет 20%, вам потребуется 20 импулированных наборов данных. Аналогичный анализ, проведенный Bodner, 2008, дает аналогичную рекомендацию. White et al., 2010 также обнаружили, что, делая это предположение, ошибка, связанная с оценкой коэффициентов регрессии, стандартных ошибок и результирующих p-значений, была значительно уменьшена, что привело к адекватному уровню воспроизводимости..

3. Максимум, минимум и округление.

Эта проблема часто возникает в контексте использования MVN для вменения переменных, которые обычно имеют целочисленные значения или границы. Интуитивно говоря, имеет смысл округлять значения или включать границы, чтобы получить «правдоподобные» значения. Однако было показано, что эти методы снижают эффективность и увеличивают систематическую ошибку за счет изменения корреляции или ковариаций между переменными, оцененными в процессе вменения. Кроме того, эти изменения часто приводят к недооценке неопределенности в отношении вмененных значений. Помните, что условные значения НЕ эквивалентны наблюдаемым значениям и служат только для оценки ковариаций между переменными, необходимых для вывода (Johnson and Young 2011)..

Оставление вмененных значений в модели вменения идеально подходит для ваших аналитических моделей. Если для выполнения определенного типа анализа необходимы правдоподобные значения, вы можете использовать другой алгоритм вменения, например MICE. .

4. Общие вопросы?

Разве множественное вменение не просто создание данных??

Нет. Этот аргумент может быть использован для методов пропущенных данных, которые используют одно вмененное значение, потому что это значение будет обрабатываться как наблюдаемые данные, но это не относится к множественному вменению. В отличие от единственного вменения, множественное вменение встраивает в модель неопределенность / ошибку, связанную с отсутствующими данными. Поэтому процесс и последующая оценка никогда не зависят от одного значения. Кроме того, еще один метод работы с отсутствующими данными, максимальная вероятность дает результаты, очень похожие на множественное вменение, и не требует заполнения недостающей информации..

Что такое пассивное вменение?

Пассивные переменные — это функции вмененных переменных. Например, предположим, что у нас есть переменная X с недостающей информацией, но в моей аналитической модели нам нужно будет использовать X 2. При пассивном вменении мы будем вменять X, а затем использовать эти вмененные значения для создания квадратичного члена. Этот метод называется «вменять, а затем преобразовывать» (фон Хиппель, 2009). Хотя кажется, что это имеет смысл, дополнительное исследование (Seaman et al., 2012; Bartlett et al., 2014) показало, что использование этого метода на самом деле является неправильной спецификацией вашей модели вменения и приведет к смещенным оценкам параметров в ваших аналитических данных. модель. Есть лучшие способы справиться с трансформациями.

Как относиться к переменным преобразованиям, таким как журналы, квадраты и взаимодействия??

Большая часть современной литературы по множественному вменению поддерживает метод обработки преобразований переменных как «просто еще одной переменной». Например, если вы знаете, что в вашей последующей аналитической модели, вам интересно посмотреть на модифицирующий эффект Z на связь между X и Y (то есть на взаимодействие между X и Z). Это свойство ваших данных, которое вы хотите сохранить в результирующих вмененных значениях. Использование чего-то вроде пассивного вменения, когда взаимодействие создается после вменения X и / или Z, означает, что заполненные значения вменяются в соответствии с моделью, предполагающей что Z не является модератором связи между X и Y. Таким образом, ваша модель вменения теперь неверно указана, и интересующее изменение эффекта (например, взаимодействие) будет ослаблено.

Следует ли мне включать свою зависимую переменную (DV) в мою модель вменения?

Да! Решительное ДА, если вы не хотите вменять независимые переменные (IV), предполагая, что они не коррелируют с вашим DV (Enders, 2010). Таким образом, предполагаемая связь между вашими DV и IV смещается в сторону нуля (т. Е. Занижается).

Кроме того, использование вмененных значений вашего DV считается вполне приемлемым, если у вас есть хорошие вспомогательные переменные в вашей модели вменения (Ender s, 2010; Johnson and Young, 2011; White et al., 2010). Однако, если подходящие вспомогательные переменные недоступны, вы все равно ВКЛЮЧАете свой DV в модель вменения, а затем ограничиваете свой анализ только теми наблюдениями с наблюдаемым значением DV. Исследования показали, что вменение DV при отсутствии вспомогательных переменных может добавить ненужные случайные вариации в ваши вмененные значения (Allison, 2012) .

Сколько я могу пропустить и при этом получать хорошие оценки с помощью MI?

Моделирование показало, что ИМ может хорошо работать при определенных обстоятельствах даже при отсутствии до 50% наблюдений (Allison, 2002). Однако чем больше объем недостающей информации, тем выше вероятность того, что вы столкнетесь с проблемами оценки во время процесса вменения, и тем ниже вероятность выполнения предположения MAR, если оно не планировалось пропустить (Johnson and Young, 2011). Кроме того, как обсуждается далее, чем выше ИФР, тем больше вменений необходимо для достижения хорошей относительной эффективности оценок эффекта, особенно стандартных ошибок..

О чем я должен сообщить в своих методах, связанных с моим вменением?

В большинстве документов упоминается, выполняли ли они множественное вменение, но очень мало или вообще приводится подробностей о том, как они реализовали этот метод. В общем, базовое описание должно включать:

Какая статистическая программа использовалась для вменения. Тип используемого алгоритма вменения (например, MVN или MICE). Некоторое обоснование выбора конкретного метода вменения. Количество созданных вмененных наборов данных (m). Доля отсутствующих наблюдений для каждой вмененной переменной. Переменные, используемые в модели вменения, и почему ваша аудитория будет знать, использовали ли вы более инклюзивную стратегию. Это особенно важно при использовании вспомогательных переменных..

Это может показаться большим количеством, но, вероятно, не потребует более 4-5 предложений. Эндерс (2010) приводит несколько примеров описаний конкретных сценариев. Кроме того, Маккиннон (2010) обсуждает, как сообщать о процедурах инфаркта миокарда в медицинских журналах..

Основные выводы этого семинара:

Множественное вменение всегда превосходит любой из методов одиночного вменения, потому что:

Одно вмененное значение никогда не используется. Оценки дисперсии отражают соответствующую степень неопределенности, связанную с оценками параметров. Перед выполнением множественного вменения необходимо принять несколько решений, включая выбор распределения, вспомогательные переменные и количество вменений, которые могут повлиять на качество вменения. . Помните, что множественное вменение не является магией, и, хотя оно может помочь увеличить мощность, не следует ожидать, что он даст «значительный» эффект, когда другие методы, такие как удаление по списку, не могут найти значимых ассоциаций. Множественное вменение — это один из инструментов исследователей для решения очень распространенной проблемы отсутствия данных..

Использованная литература:

Основная боковая панель.

Нажмите здесь, чтобы сообщить об ошибке на этой странице или оставить комментарий.

Похожие статьи