Анализ линейной регрессии в Stata Процедура вывода и интерпретация вывода с использованием относительной

Линейный регрессионный анализ с использованием Stata.

Введение.

Линейная регрессия, также известная как простая линейная регрессия или двумерная линейная регрессия, используется, когда мы хотим предсказать значение зависимой переменной на основе значения независимой переменной. Например, вы можете использовать линейную регрессию, чтобы понять, можно ли спрогнозировать результативность экзамена на основе времени пересмотра (т. Е. Ваша зависимая переменная будет "результативность экзамена", измеряется от 0 до 100 баллов, и ваша независимая переменная будет "время доработки", измеряется в часах). В качестве альтернативы вы можете использовать линейную регрессию, чтобы понять, можно ли спрогнозировать потребление сигарет на основе продолжительности курения (т. Е. Ваша зависимая переменная будет "потребление сигарет", измеряется количеством сигарет, потребляемых ежедневно, и ваша независимая переменная будет "продолжительность курения", измеряется в днях). Если у вас есть две или более независимых переменных, а не одна, вам нужно использовать множественную регрессию. В качестве альтернативы, если вы просто хотите установить, существует ли линейная связь, вы можете использовать корреляцию Пирсона..

Примечание. Зависимая переменная также называется переменной результата, цели или критерия, в то время как независимая переменная также называется переменной-предиктором, объясняющей или регрессионной переменной. В конце концов, какой бы термин вы ни использовали, лучше быть последовательным. В этом руководстве мы будем называть их зависимыми и независимыми переменными..

В этом руководстве мы покажем вам, как выполнить линейную регрессию с помощью Stata, а также интерпретировать и составить отчет о результатах этого теста. Однако, прежде чем мы познакомим вас с этой процедурой, вам необходимо понять различные допущения, которым должны соответствовать ваши данные, чтобы линейная регрессия дала вам достоверный результат. Мы обсудим эти предположения далее..

Stata.

Предположения.

Анализ линейной регрессии в Stata Процедура вывода и интерпретация вывода с использованием относительной анализ

Там семь "предположения" которые лежат в основе линейной регрессии. Если какое-либо из этих семи предположений не выполняется, вы не можете анализировать свои данные с помощью линейного метода, потому что вы не получите достоверного результата. Поскольку предположения №1 и №2 относятся к вашему выбору переменных, их нельзя проверить на предмет использования Stata. Однако вы должны решить, соответствует ли ваше исследование этим предположениям, прежде чем двигаться дальше..

Предположение №1: Ваша зависимая переменная должна измеряться на непрерывном уровне. Примеры таких непрерывных переменных включают рост (измеренный в футах и ​​дюймах), температуру (измеренную в o C), заработную плату (измеренную в долларах США), время проверки (измеренное в часах), интеллект (измеренный с использованием показателя IQ), время реакции ( измеряется в миллисекундах), производительности тестирования (измеряется от 0 до 100), продаж (измеряется в количестве транзакций в месяц) и т. д. Если вы не уверены, является ли ваша зависимая переменная непрерывной (т. Е. Измеряется на уровне интервала или отношения), см. Наше руководство по типам переменных. Предположение № 2: Ваша независимая переменная должна измеряться на непрерывном или категориальном уровне. Однако, если у вас есть категориальная независимая переменная, чаще используется независимый t-тест (для 2 групп) или односторонний дисперсионный анализ (для 3 групп или более). Если вы не уверены, примеры категориальных переменных включают пол (например, 2 группы: мужчины и женщины), этническую принадлежность (например, 3 группы: кавказцы, афроамериканцы и латиноамериканцы), уровень физической активности (например, 4 группы: сидячий образ жизни, низкий , средний и высокий) и профессии (например, 5 групп: хирург, врач, медсестра, стоматолог, терапевт). В этом руководстве мы покажем вам процедуру линейной регрессии и выходные данные Stata, когда как ваши зависимые, так и независимые переменные измерялись на непрерывном уровне..

К счастью, вы можете проверить предположения №3, №4, №5, №6 и №7 с помощью Stata. При переходе к предположениям №3, №4, №5, №6 и №7 мы предлагаем тестировать их в этом порядке, потому что он представляет собой порядок, в котором, если нарушение предположения невозможно исправить, вы больше не сможете использовать линейную регрессию. Фактически, не удивляйтесь, если ваши данные не соответствуют одному или нескольким из этих предположений, поскольку это довольно типично при работе с реальными данными, а не с примерами из учебников, которые часто показывают вам, как выполнить линейную регрессию, когда все идет хорошо. Однако не беспокойтесь, потому что даже если ваши данные не соответствуют определенным предположениям, часто есть решение, как это преодолеть (например, преобразование данных или использование вместо них другого статистического теста). Просто помните, что если вы не проверите, соответствуют ли ваши данные этим предположениям или вы неправильно их протестируете, результаты, которые вы получите при запуске линейной регрессии, могут быть недействительными..

Предположение № 3: между зависимыми и независимыми переменными должна быть линейная связь. Хотя существует несколько способов проверить, существует ли линейная связь между двумя вашими переменными, мы предлагаем создать диаграмму рассеяния с помощью Stata, где вы можете построить график зависимости зависимой переменной от вашей независимой переменной. Затем вы можете визуально проверить диаграмму рассеяния, чтобы проверить ее на линейность. Ваша диаграмма рассеяния может выглядеть примерно так:

На практике проверка предположений № 3, № 4, № 5, № 6 и № 7, вероятно, займет большую часть вашего времени при выполнении линейной регрессии. Однако это не сложная задача, и Stata предоставляет все необходимые инструменты для этого..

В разделе «Процедура» мы проиллюстрируем процедуру Stata, необходимую для выполнения линейной регрессии в предположении, что никакие предположения не были нарушены. Сначала мы приводим пример, который используем для объяснения процедуры линейной регрессии в Stata..

Stata.

Пример.

Исследования показывают, что упражнения помогают предотвратить сердечные заболевания. В разумных пределах, чем больше вы тренируетесь, тем меньше риск сердечных заболеваний. Один из способов, которым упражнения снижают риск сердечных заболеваний, — это уменьшение содержания жира в крови, называемого холестерином. Чем больше вы тренируетесь, тем ниже концентрация холестерина. Кроме того, недавно было показано, что количество времени, которое вы проводите перед телевизором — показатель малоподвижного образа жизни — может быть хорошим предиктором сердечных заболеваний (т. Е. Чем больше вы смотрите телевизор, тем выше риск сердечных заболеваний. болезнь).

Поэтому исследователь решил определить, связана ли концентрация холестерина со временем, проведенным за просмотром телевизора, у здоровых в остальном мужчин от 45 до 65 лет (категория людей из группы риска). Например, по мере того, как люди проводили больше времени перед телевизором, повышалась ли у них концентрация холестерина (положительная взаимосвязь); или случилось наоборот? Исследователь также хотел знать долю концентрации холестерина, которую можно объяснить просмотром телевизора, а также возможность предсказать концентрацию холестерина. Затем исследователь мог определить, были ли, например, люди, которые проводили восемь часов перед телевизором в день, опасно высокий уровень концентрации холестерина по сравнению с людьми, которые смотрели телевизор всего два часа..

Для проведения анализа исследователь набрал 100 здоровых участников мужского пола в возрасте от 45 до 65 лет. Время, проведенное за просмотром телевизора (т.е. независимая переменная time_tv) и концентрация холестерина (т.е. зависимая переменная, холестерин), были записаны для всех 100 участников. Выражаясь в различных терминах, исследователь хотел снизить уровень холестерина на time_tv. .

Примечание. Пример и данные, использованные в этом руководстве, являются вымышленными. Мы только что создали их для целей этого руководства..

Stata.

Настройка в Stata.

В Stata мы создали две переменные: (1) time_tv, то есть среднее ежедневное время, потраченное на просмотр телевизора в минутах (т. Е. Независимая переменная); и (2) холестерин, который представляет собой концентрацию холестерина в ммоль / л (т.е. зависимая переменная)..

Примечание: не имеет значения, создаете ли вы сначала зависимую или независимую переменную..

После создания этих двух переменных — time_tv и холестерина — мы ввели оценки для каждой в два столбца электронной таблицы редактора данных (Edit) (то есть время в часах, в течение которого участники смотрели телевизор, в левом столбце (то есть time_tv). , независимая переменная) и концентрация холестерина в ммоль / л участников в правом столбце (т.е. холестерин, зависимая переменная), как показано ниже:

Опубликовано с письменного разрешения StataCorp LP..

Stata.

Процедура тестирования в Stata.

В этом разделе мы покажем вам, как анализировать ваши данные с помощью линейной регрессии в Stata, когда не были нарушены шесть предположений из предыдущего раздела, Предположения. Вы можете выполнить линейную регрессию с помощью кода или графического интерфейса пользователя (GUI) Stata. После того, как вы выполнили свой анализ, мы покажем вам, как интерпретировать ваши результаты. Во-первых, выберите, хотите ли вы использовать код или графический интерфейс пользователя (GUI) Stata..

Код для выполнения линейной регрессии ваших данных имеет вид:

Анализ линейной регрессии в Stata Процедура вывода и интерпретация вывода с использованием относительной анализ

регресс зависимая переменная независимая переменная.

Этот код вводится в поле ниже:

Опубликовано с письменного разрешения StataCorp LP..

В нашем примере, где зависимой переменной является холестерин, а независимой переменной — time_tv, требуемый код будет:

регресс холестерина time_tv.

Примечание 1: вы должны быть точными при вводе кода в поле. Код "деликатный случай". Например, если вы ввели "Холестерин" где "C" это прописные буквы, а не строчные (т. е. маленький "c"), как и должно быть, вы получите следующее сообщение об ошибке:

Примечание 2: если вы все еще получаете сообщение об ошибке в примечании 2: выше, стоит проверить имя, которое вы дали своим двум переменным, в редакторе данных при настройке файла (т. Е. См. Экран редактора данных выше). В поле в правой части экрана редактора данных отображается способ написания переменных в разделе, а не раздел, который необходимо ввести в код (нашу зависимую переменную см. Ниже). Это может показаться очевидным, но иногда это ошибка, приводящая к ошибке, указанной в примечании 2 выше..

Поэтому введите код, уменьшите холестерин time_tv и нажмите кнопку "Возврат / Ввод" кнопка на клавиатуре.

Опубликовано с письменного разрешения StataCorp LP..

Вы можете увидеть вывод Stata, который будет создан здесь..

Графический интерфейс пользователя (GUI)

Три шага, необходимые для выполнения линейной регрессии в Stata 12 и 13, показаны ниже:

Нажмите Статистика > Линейные модели и связанные с ними > Линейная регрессия в главном меню, как показано ниже:

Опубликовано с письменного разрешения StataCorp LP..

Опубликовано с письменного разрешения StataCorp LP..

Опубликовано с письменного разрешения StataCorp LP..

Щелкните по кнопке. Это сгенерирует вывод.

Stata.

Вывод анализа линейной регрессии в Stata.

Если ваши данные соответствуют предположению № 3 (т. Е. Существует линейная связь между двумя вашими переменными), № 4 (т. Е. Не было значительных выбросов), предположению № 5 (т. Е. У вас была независимость наблюдений), предположению № 6 ( т.е. ваши данные показали гомоскедастичность) и допущение № 7 (т. е. остатки (ошибки) были приблизительно нормально распределены), которые мы объясняли ранее в разделе «Допущения», вам нужно будет только интерпретировать следующий вывод линейной регрессии в Stata:

Опубликовано с письменного разрешения StataCorp LP..

Вывод состоит из четырех важных частей информации: (а) значение R2 (" R-квадрат " строка) представляет собой долю вариации в зависимой переменной, которая может быть объяснена нашей независимой переменной (технически это доля вариации, учитываемая регрессионной моделью выше и выше средней модели). Однако R 2 основан на выборке и представляет собой положительно смещенную оценку доли дисперсии зависимой переменной, учитываемой регрессионной моделью (т.е. она слишком велика); (b) скорректированное значение R 2 (" Скорректированный R-квадрат " row), который исправляет положительное смещение, чтобы получить значение, которое можно было бы ожидать в генеральной совокупности; (в) значение F, степени свободы (" F (1, 98) ") и статистической значимости регрессионной модели (" Вероятно > F " строка); и (d) коэффициенты для постоянной и независимой переменных (" Коэф. " столбец), который представляет собой информацию, необходимую для прогнозирования зависимой переменной холестерина с помощью независимой переменной time_tv .

В этом примере R 2 = 0,151. Скорректированный R 2 = 0,143 (до 3 d.p.), что означает, что независимая переменная time_tv объясняет 14,3% изменчивости зависимой переменной холестерина в популяции. Скорректированный R 2 также является оценкой размера эффекта, который составляет 0,143 (14,3%), что указывает на средний размер эффекта согласно классификации Коэна (1988). Однако обычно в результатах указывается R 2, а не скорректированный R 2. В этом примере модель регрессии статистически значима, F (1, 98) = 17,47, p = 0,0001. Это указывает на то, что в целом применяемая модель может статистически значимо предсказать зависимую переменную, холестерин. .

Примечание. Мы представляем результаты анализа линейной регрессии выше. Однако, поскольку вы должны были протестировать свои данные на предмет допущений, которые мы объясняли ранее в разделе «Допущения», вам также потребуется интерпретировать выходные данные Stata, полученные при проверке этих предположений. Сюда входят: (а) диаграммы рассеяния, которые вы использовали для проверки наличия линейной зависимости между двумя вашими переменными (т. Е. Предположение № 3); (b) индивидуальная диагностика для проверки отсутствия значительных выбросов (т. е. предположение № 4); (c) результат статистики Дарбина-Ватсона для проверки независимости наблюдений (т. е. предположение № 5); (d) диаграмма рассеяния стандартизованных остатков регрессии по сравнению со стандартизованным прогнозируемым значением регрессии, чтобы определить, показали ли ваши данные гомоскедастичность (т. е. предположение № 6); а также гистограмму (с наложенной нормальной кривой) и нормальный график P-P, чтобы проверить, были ли остатки (ошибки) приблизительно нормально распределены (т. е. предположение № 7). Кроме того, помните, что если ваши данные не соответствуют одному из этих предположений, результат, который вы получите из процедуры линейной регрессии (то есть результат, который мы обсуждали выше), больше не будет иметь значения, и вам, возможно, придется выполнить другой статистический тест, чтобы анализировать ваши данные.

Stata.

Отчет о результатах анализа линейной регрессии.

Когда вы сообщаете о результатах своей линейной регрессии, рекомендуется включать: (а) введение в проведенный вами анализ; (б) информация о вашем образце, включая любые отсутствующие значения; (c) наблюдаемое F-значение, степени свободы и уровень значимости (т.е. p-значение); (d) процент изменчивости зависимой переменной, объясняемой независимой переменной (т. е. вашим Скорректированным R 2); и (e) уравнение регрессии для вашей модели. Основываясь на приведенных выше результатах, мы можем сообщить о результатах этого исследования следующим образом:

Общий.

Линейная регрессия установила, что ежедневное время, проведенное за просмотром телевизора, может статистически значимо предсказать концентрацию холестерина, F (1, 98) = 17,47, p = 0,0001, а время, проведенное за просмотром телевизора, составляет 14,3% объясненной вариабельности концентрации холестерина. Уравнение регрессии: прогнозируемая концентрация холестерина = -2,135 + 0,044 x (время, потраченное на просмотр телевизора)..

Помимо отчета о результатах, как указано выше, можно использовать диаграмму для визуального представления результатов. Например, вы могли бы сделать это, используя диаграмму рассеяния с доверительными интервалами и интервалами прогноза (хотя последнее не очень распространено). Это может помочь другим понять ваши результаты. Кроме того, вы можете использовать уравнение линейной регрессии для прогнозирования значения зависимой переменной на основе различных значений независимой переменной. Хотя Stata не производит эти значения как часть процедуры линейной регрессии, описанной выше, в Stata есть процедура, которую вы можете использовать для этого..

Похожие статьи