Многоуровневое моделирование для концепций и приложений продольных данных Emerald Insight

Многоуровневое моделирование продольных данных: концепции и приложения.

Дата публикации: 14 октября 2019 г..

Абстрактный.

Цель.

Эта статья направлена ​​на обсуждение многоуровневого моделирования для продольных данных, разъяснение обстоятельств, в которых они могут быть использованы..

Дизайн / методология / подход.

Авторы оценивают трехуровневые модели с повторными измерениями, предлагая условия для их правильной интерпретации..

Выводы.

На основе представленных концепций и методов авторы могут предлагать модели, в которых можно идентифицировать фиксированные и случайные эффекты на зависимую переменную, понимать дисперсионную декомпозицию многоуровневых случайных эффектов, тестировать альтернативные ковариационные структуры для учета гетероскедастичности и вычислять и интерпретировать внутриклассовые корреляции каждого уровня анализа.

Оригинальность / ценность.

Понимание того, как работают вложенные структуры данных и данные с повторяющимися измерениями, позволяет исследователям и менеджерам определять несколько типов конструкций, из которых можно использовать многоуровневые модели..

Ключевые слова.

Многоуровневое моделирование Продольные данные Фиксированные эффекты Случайные эффекты Stata.

Цитата.

Волосы младший, Дж. Ф. и Фаверо, Л. П. (2019), "Многоуровневое моделирование продольных данных: концепции и приложения", Журнал управления РАУСП, Том. 54 No. 4, pp. 459-489. https://doi.org/10.1108/RAUSP-04-2019-0059.

Издатель.

Emerald Publishing Limited.

Авторские права © 2019, Джозеф Ф. Хэр, младший и Луис Пауло Фаверо.

Лицензия.

Опубликовано в журнале RAUSP Management Journal. Опубликовано Emerald Publishing Limited. Эта статья опубликована под лицензией Creative Commons Attribution (CC BY 4.0). Кто угодно может воспроизводить, распространять, переводить и создавать производные работы из этой статьи (как для коммерческих, так и для некоммерческих целей) при условии полной ссылки на оригинальную публикацию и авторов. Полные условия этой лицензии можно увидеть на http://creativecommons.org/licences/by/4.0/legalcode..

1. Введение.

Модели регрессии для продольных данных очень полезны, когда исследователь хочет изучить поведение данного явления в присутствии вложенных структур данных с повторяющимися или продольными измерениями..

В то время как во вложенных структурах кластеризованных данных некоторые объясняющие переменные не представляют различий между наблюдениями (представляющими уровень анализа), исходящими из данной группы (представляющими другой уровень анализа), в структурах данных с повторяющимися измерениями также наблюдается временная эволюция, т.е. факт, который позволяет исследователю исследовать отдельные причины, которые могут привести к тому, что каждое из наблюдений представляет различное поведение зависимой переменной для одной и той же группы или для разных групп с течением времени (Fávero, 2010; Martins & Терра, 2015; Мисангьи, Лепин, Альгина, & Годдеке, 2006 г.).

Например, некоторые школьные данные, которые не различаются среди учащихся, такие как местоположение и размер, можно сравнить с данными из других школ; а некоторые данные учащихся, такие как пол и религия, которые не меняются во времени, можно сравнивать с данными других учащихся, что позволяет анализировать различные влияния в зависимой переменной. Во всех этих ситуациях (вложенные данные без или с повторяющимися измерениями) наборы данных предоставляют структуры, на основе которых могут быть оценены иерархические модели..

Многоуровневые регрессионные модели стали очень важными в нескольких областях знаний, и публикации статей, в которых используются оценки, связанные с этими моделями, становятся все более частыми (Goldstein, 2011). Причина важности многоуровневого моделирования в основном связана с определением исследовательских конструкций, которые рассматривают существование вложенных структур данных, в которых определенные переменные показывают различия между отдельными единицами, которые представляют группы, но не оценивают вариации между наблюдениями, принадлежащими одним и тем же. группа. Кроме того, вычислительные разработки и инвестиции, которые разработчики программного обеспечения для анализа данных вложили в возможности обработки для оценки многоуровневых моделей, также оказали поддержку исследователям, которые все больше интересуются этим типом подхода (Гельман & Хилл, 2007; Hough, 2006; Сантос, Фаверо, & Дистадио, 2016; Серра & Фаверо, 2018).

Теоретически исследователи могут определить конструкт с большим количеством уровней анализа, даже если интерпретация параметров модели не является чем-то тривиальным. Например, представьте себе изучение школьной успеваемости на протяжении всего времени учеников, вложенных в школы, этих в муниципальных округах, в муниципалитетах, а этих в штатах федерации. В этом случае мы будем работать с шестью уровнями анализа (временная эволюция, учащиеся, школы, муниципальные районы, муниципалитеты и штаты)..

Основным преимуществом многоуровневых моделей перед традиционными моделями регрессии, оцениваемыми, например, с помощью обычного метода наименьших квадратов (МНК), является возможность рассмотрения естественной вложенности данных (Steenbergen & Jones, 2002), то есть многоуровневые модели позволяют нам выявлять и анализировать индивидуальные неоднородности и неоднородности между группами, к которым эти люди принадлежат, что позволяет определять случайные компоненты на каждом уровне анализа (Heck & Томас, 2009 г.).

Многоуровневые модели корректируют тот факт, что наблюдения в одной и той же группе не являются независимыми и, таким образом, по сравнению с моделями OLS, приводят к несмещенным оценкам стандартных ошибок (SE). Но можно сказать, что то же самое можно получить с помощью кластеризованных стандартных ошибок в OLS. Действительно, если количество кластеров много (т.е. больше 20), кластерные SE в моделях OLS и многоуровневых моделях одинаково подходят для точных оценок эффектов на уровне группы. С другой стороны, если кластеров меньше 20, исследователям следует избегать использования кластерных SE и применять многоуровневое моделирование. Кроме того, если исследователи также заинтересованы в проверке того, являются ли коварианты на уровне группы умеренными эффектами на индивидуальном уровне, многоуровневые модели могут оказаться наиболее подходящим выбором (Arceneaux & Никерсон, 2009; Steenbergen & Джонс, 2002 г.).

Согласно Куржо (2003), в модельной структуре с одним уравнением, кажется, нет никакой связи между людьми и обществом, в котором они живут. В этом смысле использование уравнений уровня позволяет исследователю «перепрыгивать» от одной науки к другой: учащиеся и школы, семьи и районы, фирмы и страны. Игнорирование этой взаимосвязи означает разработку неправильного анализа поведения отдельных лиц и, в равной степени, поведения групп. Только признание этих взаимных влияний позволяет правильно анализировать явления..

Это соответствует тому, что Матье и Чен (2011) называют многоуровневой парадигмой, которая относится к способу мышления: рассмотрение феноменов управления в контексте и поиск управляющих переменных не только из центральной единицы анализа, но и из уровней выше. и ниже. Такой подход часто подразумевает развитие мультидисциплинарных теорий и исследований, что является духом, выраженным Хиттом, Бимишем, Джексоном и Матье (2007) при обсуждении построения теоретических и эмпирических мостов между уровнями посредством многоуровневого моделирования. Большинство современных многоуровневых исследований стремятся связать взаимосвязи между ближайшими слоями, такими как атрибуты команды и отношения членов или условия окружающей среды и переменная производительность..

Стремясь сделать многоуровневое моделирование более доступным, мы предоставляем синтаксис смешанных процедур в Stata для каждого шага и показываем, как тестировать и сравнивать эти конструкции в процессе построения модели. Предыдущие обсуждения, связанные с многоуровневыми данными, проиллюстрировали использование многоуровневого моделирования в таких программах, как MLn (Kreft & де Леу, 1998), R (Bliese & Ployhart, 2002), HLM (Рауденбуш, Брик, Чеонг, Конгдон, & Du Toit, 2004) и SAS (Littell, Milliken, Stroup, & Wolfinger, 2004; Певица, 1998 г.).

В этой статье мы сосредоточимся на иерархических линейных моделях (HLM), также известных как линейные смешанные модели (LMM). Согласно West, Welch, and Gałecki (2015), термин «линейные смешанные модели» происходит от того факта, что эти модели представляют линейную спецификацию, а объясняющие переменные включают сочетание фиксированных и случайных эффектов. То есть их можно вставлять в компоненты с фиксированными эффектами, а также в компоненты со случайными эффектами. В то время как оцененные параметры фиксированных эффектов указывают на взаимосвязь между независимыми переменными и метрической зависимой переменной, компоненты случайных эффектов могут быть представлены комбинацией объясняющих переменных и ненаблюдаемых случайных эффектов..

Наши основные цели:

познакомить с концепциями вложенных структур данных;

определить тип модели для оценки на основе характеристик данных;

оценивать параметры несколькими методами в Stata;

интерпретировать результаты, полученные с помощью нескольких типов существующих оценок для многоуровневых моделей; и.

определить наиболее подходящую оценку для диагностики и прогнозирования эффектов в каждом из изученных случаев.

2. Вложенные структуры данных.

Модели, которые учитывают наличие вложенных структур в данных, предлагают исследователям преимущества, поскольку они позволяют изучать источники дисперсии на разных уровнях переменной результата..

Рауденбуш и Брик (2002) обсуждают приложения многоуровневого моделирования на основе вложенных структур данных в различных областях знаний, особенно в образовании. В этой области работы Эйткина и Лонгфорда (1986), Рауденбуша и Брика (1986), Гарнера и Рауденбуша (1991), Рауденбуша (1993), Румбергера и Томаса (1993), О’Коннелла и МакКоача (2008) и Голдштейна. (2011) заслуживают упоминания.

Следовательно, модели многоуровневой регрессии позволяют нам формально исследовать поведение определенной зависимой переменной Y, которая представляет интересующий нас феномен, на основе поведения независимых переменных, изменения которых могут происходить для кластеризованных данных, между наблюдениями и между группами, чтобы которым принадлежат эти наблюдения, и для данных с повторными измерениями на протяжении времени. Другими словами, должны быть переменные с данными, которые изменяются между людьми, представляющими определенный уровень. Но эти переменные остаются неизменными для определенных групп людей, и эти группы представляют собой более высокий уровень..

Во-первых, представьте набор данных с данными о n лицах, и каждый человек i = 1,…, n принадлежит одной из групп j = 1,…, J, очевидно, n > Дж. Следовательно, этот набор данных может иметь определенные объясняющие переменные X 1,…, X Q, которые относятся к каждому отдельному i, и другие объясняющие переменные W 1,…, W S, которые относятся к каждой группе j; но они неизменны для индивидов определенной группы. В таблице I показана общая модель набора данных с двухуровневой кластерной / вложенной структурой данных (индивидуальной и групповой)..

Основываясь на таблице I, мы можем видеть, что X 1,…, XQ (столбцы с 4 по 6) являются переменными уровня 1 (изменение данных между людьми), а W 1,…, WS (столбцы с 7 по 9) являются переменными уровня 2. переменные (данные меняются между группами, но не для отдельных лиц в каждой группе). Кроме того, количество людей в группах 1, 2,…, J (столбец 2) равно, соответственно, n 1, n 2 — n 1,…, n — n J −1 (столбец 1). На рисунке 1 показано существующее вложение между единицами уровня 1 (отдельные лица) и единиц уровня 2 (группы), которое характеризует существование кластеризованных данных..

Представьте себе другой набор данных, в котором, помимо вложенности, представленной для кластеризованных данных, существует временная эволюция. То есть данные с повторными измерениями. Таким образом, помимо лиц, которые теперь будут принадлежать к уровню 2 и, следовательно, будут называться j = 1,…, J, вложенными в k = 1,…, K групп (которые теперь принадлежат к уровню 3), у нас также будет t = 1,…, T j периодов, в которые контролируется каждый j человек. Следовательно, этот новый набор данных может иметь те же объясняющие переменные X 1,…, X Q, которые относятся к каждому j индивиду. Но теперь они неизменны для каждого j индивидуума в периоды мониторинга. Более того, в наборе данных могут быть те же самые объясняющие переменные W 1,…, W S, которые относятся к каждой группе k. Но W 1,…, W S также неизменны во времени для каждой группы k. В таблице II представлена ​​логика для описания набора данных с трехуровневой вложенной структурой данных с повторяющимися измерениями (временными, индивидуальными и групповыми)..

Основываясь на таблице II, мы можем видеть, что переменная, соответствующая периоду, является независимой переменной уровня 1 (столбец 1), поскольку изменение данных происходит в каждой строке набора данных, и что X 1,…, XQ (столбцы С 5 по 7) становятся переменными уровня 2 (данные меняются между людьми, но не для одного и того же человека на протяжении всего времени), и что W 1,…, WS (столбцы с 8 по 10) становятся переменными уровня 3 (изменение данных между K группами (столбец 3), но не для одной и той же группы на протяжении всего времени). Кроме того, количество периодов, в течение которых наблюдаются лица 1, 2,…, J (столбец 2), равно, соответственно, T 1, T 2 — T 1,…, T J — T J −1 (столбец 1)..

Подобно тому, что было показано для случая с двумя уровнями, Рисунок 2 позволяет нам увидеть существующую вложенность между единицами уровня 1 (временная вариация), единицами уровня 2 (индивидуумы) и единицами уровня 3 (группами). , который характеризует структуру данных с повторяющимися измерениями.

В таблицах I и II, а также на соответствующих рисунках 1 и 2 мы видим, что структуры данных представляют собой абсолютную вложенность. То есть определенное наблюдение может быть вложено только в одну группу, а эта группа — только в другую группу более высокого уровня и т. Д..

В следующем разделе мы оценим многоуровневые модели с повторяющимися измерениями в Stata, эконометрическая разработка которых представлена ​​в Приложении 1. Приложение 2 предназначено для представления команд в Stata..

3. Оценка многоуровневых моделей с повторными измерениями в Stata..

Этот раздел дает исследователям возможность оценивать многоуровневые модели с помощью программного обеспечения Stata Statistical Software®. В нашем примере мы будем использовать повышающий стратегический многоуровневый анализ, предложенный Рауденбушем и Бриком (2002) и Снейдерсом и Боскером (2011). То есть сначала мы изучили разложение дисперсии из определения нулевой модели (безусловной модели), чтобы впоследствии можно было оценить модель случайных перехватов и модель случайных перехватов и наклонов. Наконец, исходя из определения случайной природы ошибок, мы оценили полную модель, включив в анализ переменные уровня 2. Таким образом, мы оцениваем трехуровневую иерархическую линейную модель, в которой вложенность данных будет характеризоваться наличием повторяющихся измерений. Таким образом, поведение зависимой переменной эволюционирует во времени..

3.1 Гипотезы и данные.

Набор данных был создан профессором, заинтересованным в мониторинге успеваемости учащихся в течение определенного периода времени, чтобы выяснить, есть ли различия в этой успеваемости во времени между учениками в одной школе и между учениками из разных школ. Кроме того, если да, существуют ли определенные характеристики учащихся и школ, которые объясняют эту изменчивость. Этот набор данных следует логике основополагающей работы, разработанной Рауденбушем, Роуэном и Кангом (1991)..

В общей сложности 15 школ вызвались предоставить данные об успеваемости своих учеников (от 0 до 100) за последние четыре года, всего 610 учеников. Кроме того, профессор также получил пол каждого ученика в наборе данных, чтобы проверить, есть ли различия в успеваемости в школе, связанные с этой переменной. В исследование также была включена переменная, касающаяся лет преподавательского опыта профессоров для каждой школы. Набор данных PerformanceTimeStudentSchool.dta можно найти в Fávero and Belfiore (2019)..

Важно отметить, что, хотя было показано, что традиционные методы оценки максимального правдоподобия для многоуровневого моделирования дают предвзятые оценки, когда количество кластеров меньше 30, такие методы, как оценка с ограниченным максимальным правдоподобием (REML), показали потенциал для хорошей работы с десятью. кластеры или меньше (McNeish & Стэплтон, 2016). В этой статье, как обсуждается ниже, мы оцениваем все модели через REML..

Во-первых, мы проверяем три фундаментальные гипотезы относительно характера успеваемости учащихся в школе с течением времени, следуя логике, предложенной Рауденбушем и Бриком (2002) и Шорт, Кетчен, Беннетт и Дю Туа (2006):

С течением времени успеваемость учащихся в школе значительно различается как внутри учащихся, так и в школах..

Успеваемость учащихся в школе имеет линейную тенденцию с течением времени.

Существует значительная разница в линейном тренде производительности.

Характеристики ученика и школы могут со временем влиять на успеваемость ученика. Таким образом, мы тестируем следующее:

Существует значительная взаимосвязь между характеристиками учащихся и успеваемостью учащихся в школе с течением времени..

Существует значительная взаимосвязь между характеристиками школы и успеваемостью ученика с течением времени..

У нас есть сбалансированная продольная структура данных, так как все 610 студентов находятся под наблюдением за четыре периода. Рисунок 3 позволяет нам проанализировать временную эволюцию успеваемости первых 50 учащихся в выборке. Из тенденций в линиях мы можем видеть, что временные изменения успеваемости в школе имеют разные точки пересечения и наклоны для разных учеников. Эти различные пересечения и уклоны оправдывают использование многоуровневого моделирования и дают основания для включения случайных эффектов пересечения и наклона в уровень 2 моделей, которые будут оцениваться..

На рисунке 4 показаны временные изменения средней успеваемости в школе. Возрастающая тенденция с течением времени дает дополнительное обоснование для оценки трехуровневой иерархической модели. На рисунке 4 также показана линейная корректировка поведения успеваемости в школе с течением времени для каждой школы с помощью OLS. Кроме того, рисунок позволяет нам отображать случайные эффекты пересечения и наклона на Уровне 3 моделей, которые будут оцениваться, поскольку временные изменения школьной успеваемости представляют разные точки пересечения и наклоны между школами..

3.2 Расширяющееся стратегическое многоуровневое моделирование.

Охарактеризовав временную вложенность учащихся из разных школ в данные с помощью повторных измерений, мы можем сначала оценить нулевую модель (безусловную модель), которая позволяет нам определить, есть ли различия в успеваемости учащихся из одной школы. и между представителями разных школ. Никакая объясняющая переменная не вводится в моделирование, которое учитывает только наличие одного пересечения и членов ошибки u 00 k, r 0 jk и e tjk, с отклонениями, соответственно, равными τ u 000, τ r 000 и σ². Оцениваемая модель имеет следующее выражение:

В верхней части рисунка 5 мы можем изначально продемонстрировать, что у нас есть сбалансированная продольная структура данных, поскольку для каждого студента у нас есть минимальное и максимальное количество периодов мониторинга, равное четырем, со средним значением, также равным четырем..

Что касается компонента фиксированных эффектов, мы можем видеть, что оценка параметра γ 000 равна 68,714, что соответствует средней ожидаемой годовой успеваемости учащихся в школе (горизонтальная линия, оцененная в нулевой модели, или общий отрезок). Кроме того, в нижней части рисунка 5 представлены оценки дисперсии членов ошибки τ u 000 = 180,194, τ r 000 = 325,799 и σ² = 41,649..

Таким образом, мы можем определить две внутриклассовые корреляции, учитывая наличие двух пропорций дисперсии. Первый относится к корреляции между данными переменной успеваемости в t и в t ′ (t ≠ t ′) определенного ученика j из определенной школы k (внутриклассовая корреляция уровня 2). Другой относится к корреляции между данными переменной успеваемости в t и в t ′ (t ≠ t ′) разных учеников j и j ′ (j ≠ j ′) из определенной школы k (внутриклассовая корреляция уровня 3). . Таким образом, мы имеем:

Уровень 2 внутриклассовая корреляция:

Уровень 3 внутриклассовая корреляция:

Следовательно, корреляция между годовой успеваемостью в школе равна 32,9% (школа rho) для той же школы, а корреляция между успеваемостью школы за год составляет 92,4% (учащийся rho | школа) для одного и того же ученика определенной школы. . Следовательно, для модели без объясняющих переменных, хотя годовая успеваемость в школе слабо коррелирована между школами, то же самое становится сильно коррелированным, когда расчет выполняется для одного и того же ученика из определенной школы. В этом последнем случае, по нашим оценкам, случайные эффекты учащихся и школ составляют примерно 92% от общей дисперсии остатков [2].

Что касается статистической значимости этих различий, то тот факт, что расчетные значения τ u 000, τ r 000 и σ² значительно выше, чем их соответствующие стандартные ошибки, предполагает, что существует значительная разница в годовой успеваемости в школе между учащимися и между школами..

Эта информация важна для обоснования выбора многоуровневого моделирования вместо простой и традиционной регрессионной модели через OLS. Внизу рисунка 5 мы можем проверить этот факт, проанализировав результат теста отношения правдоподобия. Учитывая Sig. χ ² = 0,000, мы можем отклонить нулевую гипотезу о том, что случайные точки пересечения равны нулю (H 0: u 00 k = r 0 jk = 0), что исключает оценку традиционной модели линейной регрессии для данных. с повторными мерами.

Несмотря на то, что исследователи часто игнорируют оценку нулевых моделей, анализ результатов может помочь отвергнуть исследовательские гипотезы или нет. Он может даже содержать корректировки по отношению к предлагаемым конструкциям. Что касается наших данных, результаты нулевой модели позволяют нам констатировать, что успеваемость в школе в течение четырех анализируемых лет существенно различается. Кроме того, существует значительная разница в успеваемости в школе с течением времени между учениками одной и той же школы, и существует значительная вариация в успеваемости со временем между учениками из разных школ..

Можно поддерживать H1, т. Е. Успеваемость учащегося в школе со временем значительно различается как среди учащихся, так и в школах. Поскольку наша основная цель состоит в том, чтобы проверить, существуют ли характеристики учащегося и школы, которые могли бы объяснить различия в успеваемости учащихся из одной школы и учащихся из разных школ, мы продолжим следующие шаги моделирования с учетом повышения стратегический многоуровневый анализ.

Давайте вставим в анализ год переменной уровня 1 с целью выяснить, имеет ли временная переменная связь с поведением учащихся в школе, и, более того, если школьная успеваемость имеет линейное поведение на протяжении всего времени..

Модель линейного тренда со случайными перехватами:

Похожие статьи