Глава 6 Смешанные модели Промежуточная статистика (статистическое моделирование)

Глава 6 Смешанные модели.

Давайте нарушим еще одно предположение регрессии — независимость. Хотя это обычно подразумевается при настройке повторяющихся измерений, это не исключение. Например,

Повторные меры: вы проводите испытание на лицах, которым проводится вмешательство. Вы создаете опрос, и участники должны заполнить его копию в начале вмешательства, через 30 дней после вмешательства и через год после вмешательства. Если у нас есть один интересующий результат этого опроса, у нас есть три измерения для человека. Эти ценности не являются независимыми; разумно думать, что ваши измерения больше связаны друг с другом, чем любые мои. Неповторяющиеся меры: вы проводите поквартирный отбор у людей в домохозяйствах, спрашивая о пищевых привычках. Вы собираете информацию о каждом человеке в доме и хотите использовать отдельных людей в качестве единицы анализа. Вполне вероятно, что два человека в одном доме будут питаться одинаково, в отличие от двух человек из разных домов..

Чтобы устранить отсутствие зависимости, мы перейдем от нормальной регрессии (линейной или иной) к структуре смешанных моделей, которая учитывает эту структуру зависимости. Он делает это (на самом базовом уровне), позволяя каждому [человеку из примера вмешательства, домохозяйству из примера «от двери к двери»] иметь свой собственный перехватчик, который мы не оцениваем. .

В этой главе мы откажемся от «автоматического» набора данных и вместо этого воспользуемся образцом «Национального лонгитюдного исследования», содержащимся в Stata:

Эти данные представляют собой обследование, проведенное за 1968-1988 годы, и эта конкретная выборка данных представляет собой информацию о заработной плате женщин. Мы повторили измерения в том смысле, что у нас есть годовые данные для женщин, поэтому каждая женщина может иметь до 20 точек данных..

6.1 Терминология.

Вы можете встретить несколько разных названий смешанных моделей, которые соответствуют одной и той же модели:

Смешанная модель Регрессия / модель со смешанными эффектами Многоуровневая регрессия / модель Иерархическая регрессия / модель (в частности, HLM, иерархическая линейная модель)

Иерархические / многоуровневые вариации требуют обдумывания уровней данных и включают «вложение», когда одна переменная встречается только внутри другой, например члены семьи, проживающие в одном доме. Самый канонический пример — студенты в классах, мы могли бы.

Уровень 1: Самый низкий уровень, студенты. Уровень 2: Класс или учитель (это также могут быть два отдельных уровня классных комнат внутри учителя) Уровень 3: Район Уровень 4: Штат Уровень 5: Страна.

Это заходит слишком далеко; редко можно увидеть более трех уровней, но теоретически может существовать любое количество.

На этом семинаре мы только кратко обсудим это с иерархической точки зрения, предпочитая представление смешанных моделей (с напоминанием еще раз, что они одинаковы!).

6.1.1 Эконометрическая терминология.

Чтобы усложнить терминологию, в эконометрике некоторые термины, которые мы здесь будем использовать, перегружены. Когда вы обсуждаете смешанные модели с кем-то, имеющим эконометрическое или экономическое образование, важно различать статистические термины «фиксированные эффекты» и «случайные эффекты», которые являются двумя компонентами смешанной модели, которые мы обсуждаем ниже, и то, что эконометристы называют «Регрессия с фиксированными эффектами» и «регрессия со случайными эффектами».

Не вдаваясь в подробности эконометрического мира, то, что эконометристы называют «регрессией случайных эффектов», по сути является тем, что статистики называют «смешанными моделями», о чем мы здесь говорим. Команда Stata xtreg обрабатывает эти эконометрические модели..

6.2 Широкие и длинные данные, не зависящие от времени и неизменные во времени.

Прежде чем приступить к анализу, необходимо убедиться, что данные имеют правильный формат. Давайте рассмотрим данные NLS, где у нас есть показатели заработной платы женщин за 20 лет..

В широком формате данных будет строка, представляющая женщину, и у нее будет 20 столбцов с информацией о зарплате 18 (плюс дополнительные демографические данные)..

В длинном формате данных каждая строка будет представлять женщину и год, так что каждая женщина может иметь до 20 строк (если женщина не измерялась в данном году, эта строка & год отсутствует).

Чтобы соответствовать смешанной модели, нам нужны данные в длинном формате. Мы можем использовать команду reshape для преобразования широких данных в длинные. Это описано в наборе примечаний Stata I..

Кроме того, существует концепция переменных, зависящих от времени, и переменных, не зависящих от времени. Изменяющиеся во времени переменные — это переменные, которые могут быть разными для каждой записи в пределах одного и того же человека. Примеры включают вес или зарплату. Неизменными во времени являются те, которые одинаковы для всех записей. Примеры включают расу или базовые характеристики..

Когда данные большие, переменные, не зависящие от времени, должны быть постоянными для каждого человека..

6.3 Линейная смешанная модель.

Самая основная смешанная модель — это линейная смешанная модель, которая расширяет модель линейной регрессии. Модель называется «смешанной», потому что она содержит смесь фиксированных эффектов и случайных эффектов. .

Фиксированные эффекты: это предикторы, которые присутствуют в регулярной линейной регрессии. Мы получим коэффициенты для этих предикторов и сможем их протестировать и интерпретировать. Технически линейная модель OLS представляет собой смешанную модель только с фиксированными эффектами. 19 Случайные эффекты: это «группирующие» переменные, и они должны быть категориальными (Stata заставит каждую используемую переменную производить случайные эффекты, как если бы перед ней стоял i.). По сути, это тоже всего лишь предикторы, однако мы не получаем коэффициенты для проверки или интерпретации. Мы действительно получаем меру вариабельности между группами и тестируем, приносит ли случайный эффект пользу модели..

Давайте подгоним модель с помощью смешанной команды. Он работает аналогично регрессу с небольшой настройкой. Мы попробуем спрогнозировать журнал заработной платы 20 с учетом опыта работы, расы и возраста. Идентификационный код переменной идентифицирует людей.

Фиксированная часть уравнения, ln_w ttl_exp i.race age, такая же, как и для линейной регрессии, ln_w — результат, а остальные — предикторы, причем раса является категориальной. Новая часть || idcode:. || отделяет фиксированные слева от случайных эффектов справа. idcode идентифицирует людей. Задача: включить более сложную функцию случайных наклонов, которую мы здесь не будем рассматривать; для наших целей: просто требуется.

Давайте пройдемся по выходным данным. Обратите внимание, что то, что мы называем случайными эффектами (например, отдельные лица в ситуации с повторными измерениями, классы в студентах, вложенные в ситуацию в классе), Stata в большей части выходных данных называет «группами»..

В самом верху вы увидите, что решение приходит итеративно, подобно логистической регрессии (вы, вероятно, также заметили, насколько оно медленное)! Вероятность журнала — это то, как работает итерация; по сути, модель «угадывает» выбор коэффициентов и находит набор коэффициентов, которые минимизируют логарифмическое правдоподобие. Конечно, «предположение» намного умнее случайного. Фактическое значение правдоподобия журнала не имеет смысла. Поскольку мы имеем дело с повторяющимися измерениями какого-то типа, вместо одного размера выборки, мы записываем общее количество наблюдений, количество групп (уникальные записи в случайных эффектах) и минимальное / среднее / максимальное значения групп. Как и раньше, просто убедитесь, что эти числа кажутся правильными. Как и в случае с логистической регрессией, тест \ (\ chi ^ 2 \) проверяет гипотезу о том, что все коэффициенты одновременно равны 0. Мы дали значимое p-значение, поэтому продолжаем интерпретацию. Таблица коэффициентов интерпретируется так же, как в линейной регрессии, с добавлением, что каждый коэффициент также контролирует структуру, вносимую случайными эффектами. Увеличение значений ttl_exp связано с более высокими доходами журнала. Базовая линия гонки — «белая»; по сравнению с белыми у черных средний доход ниже, а у других средний доход выше. Более высокий возраст связан с более низким доходом. Вторая таблица («Параметры случайных эффектов») дает нам информацию о структуре ошибки. Раздел «idcode:» исследует, существуют ли различия между людьми, помимо различий в характеристиках, таких как возраст и раса. Поскольку оценка var (_cons) (оценочная дисперсия константы на человека — случайный эффект индивидуального уровня) не равна нулю (и не близка к нулю), это свидетельствует о том, что случайный эффект полезен. Если бы оценка была 0 или близка к 0, это было бы свидетельством того, что случайный эффект не нужен и что любые различия между людьми уже учтены ковариатами. Предполагаемая дисперсия остатков — это любая дополнительная вариация между наблюдениями. Это похоже на остатки от линейной регрессии. Тест \ (\ chi ^ 2 \) внизу является формальным тестом включения случайных эффектов по сравнению с моделью линейной регрессии без случайных эффектов. Мы отклоняем значение NULL, что модели эквивалентны, поэтому целесообразно включить случайные эффекты.

6.4 Предположения.

Линейная аддитивность остается необходимой. rvfplot не будет работать после смешанной команды, но вы можете сгенерировать остатки по сравнению с подобранным графиком вручную.

Предположение об однородности остатков нарушается в смешанной модели. Однако некоторые формы неоднородности, такие как увеличение дисперсии по мере увеличения подобранных значений, не поддерживаются. Следовательно, мы все еще можем использовать график остатков и подобранный график, чтобы проверить это..

Опять же, предположение о независимости нарушается по замыслу, но наблюдения между группами (например, между людьми) должны быть независимыми..

6.5 Разное.

Как мы уже обсуждали ранее, коллинеарность, переоснащение и выбор модели остаются проблемой..

Со смешанными моделями сложно определить размер выборки. Обычно это делается с помощью моделирования. При первом приближении практические правила линейной регрессии остаются; 10-20 наблюдений на предсказатель. Добавление нового человека улучшит силу больше, чем добавление еще одного наблюдения для существующей группы..

Команда margins и предсказать работают аналогично регрессу, однако обратите внимание, что обе (по умолчанию) игнорируют случайные эффекты; то есть результаты, полученные в результате, усредняются по всем индивидуумам..

Как и в случае с линейной регрессией и логистической регрессией, смешанный поддерживает vce (устойчивый) для обеспечения надежных стандартных ошибок..

6.6 Проблемы сходимости.

Как и в случае с логистической регрессией, решение достигается итеративно, что означает, что оно может не сойтись по ряду причин. Разделение здесь не является проблемой (хотя оно будет в смешанных логистических моделях), но могут быть и другие причины неспособности сойтись..

Как правило, невозможность сходимости происходит из-за проблем с данными. На что следует обратить внимание:

Различные шкалы предикторов. Например, зарплата (в долларах) и количество детей. Масштабы сильно различаются, что может вызвать проблемы. Попробуйте повторно масштабировать любые переменные в экстремальных масштабах (вы можете сделать это с помощью egen scaledvar = std (origvar)). Это повлияет на интерпретацию (оценочный коэффициент будет средним прогнозируемым изменением с увеличением предиктора на одно стандартное отклонение), но не на общую подгонку модели. Причиной этого может быть высокая корреляция. Проверьте корреляции (pwcorr или corr) между вашими предикторами (включая любые категориальные переменные), и если вы найдете сильно коррелированную пару, попробуйте удалить ее. Если итерация продолжает выполняться (в отличие от завершения и жалоб на отсутствие сходимости), попробуйте передать параметр emiterate (#) с несколькими «большими» («большими» по отношению к размеру выборки) числами, чтобы алгоритм остановился после # итераций, независимо от сходимости. Вы ищете две вещи. Во-первых, если есть какие-либо оценочные стандартные ошибки, которые очень близки к нулю, этот предиктор может быть причиной проблемы. Попробуйте удалить это. Во-вторых, если вы попробуете несколько разных максимальных итераций (скажем, 50, 100 и 200), а расчетные коэффициенты и стандартные ошибки будут относительно постоянными, вы можете считать эту модель «достаточно хорошей». У вас не будет особой уверенности в точечных оценках коэффициентов, но вы, по крайней мере, сможете получить представление о направлении и приблизительной величине эффекта. Вы можете попробовать использовать оптимизатор «reml», передав опцию reml. Этот оптимизатор может быть немного проще сойтись.

6.7 Логистическая смешанная модель.

Подобно логистической регрессии, являющейся расширением линейной регрессии, логистические смешанные модели являются расширением линейных смешанных моделей, когда переменная результата является двоичной..

Команда для смешанных логистических моделей — melogit. Остальная часть команды работает очень похоже на смешанную, а интерпретация является лучшей из логистической регрессии (для фиксированных эффектов) и линейных смешанных моделей (для случайных эффектов). К сожалению, ни lroc, ни estat gof не поддерживаются, поэтому качество подгонки необходимо измерять исключительно с помощью теста \ (\ chi ^ 2 \) и, возможно, сравнения подгонки модели вручную..

По умолчанию сообщаются логарифмические шансы, дайте опцию или, чтобы сообщить отношения шансов..

6.7.1 мекрлогит.

Существует другой решатель, который можно использовать на основе QR-разложения. Это запускается с помощью команды meqrlogit. Действует аналогично мелогиту. Если у melogit есть проблемы с конвергенцией, попробуйте вместо этого использовать meqrlogit.

6.8 Упражнение 6.

Загрузите набор данных «курица» с веб-сайта Stata:

Эти данные содержат информацию о заказах в нескольких ресторанах и фиксируют, привел ли заказ к жалобе. Мы хотели бы узнать, какие атрибуты серверов (если таковые имеются) могут увеличить шансы на подачу жалобы. Поскольку у нас есть несколько заказов на ресторан, разумно предположить, что одни рестораны просто получают больше жалоб, чем другие, независимо от сервера, поэтому нам нужно будет включить случайные эффекты для этих.

Установите модель логистической регрессии со смешанными эффектами, прогнозирующую жалобу, на основе характеристик сервера (класс, раса, пол, владение, возраст, доход) и некоторых характеристик ресторана (гендер для пола менеджера и nworkers для количества рабочих). Включить случайный эффект для ресторана .

Модель подходит больше, чем случайность? Интерпретируйте модель. Что предсказывает более высокие шансы получить жалобу? Похоже, что добавление случайного эффекта было необходимо?

Похожие статьи