Множественная линейная регрессия MATLAB regress

регресс.

Множественная линейная регрессия.

Синтаксис.

Описание.

b = regress (y, X) возвращает вектор b оценок коэффициентов для множественной линейной регрессии ответов в векторе y на предикторы в матрице X. Чтобы вычислить оценки коэффициентов для модели с постоянным членом (точкой пересечения), включите столбец единиц в матрицу X .

[b, bint] = regress (y, X) также возвращает матричный интервал 95% доверительных интервалов для оценок коэффициентов..

[b, bint, r] = regress (y, X) также возвращает дополнительный вектор r остатков..

[b, bint, r, rint] = regress (y, X) также возвращает матричный набор интервалов, которые можно использовать для диагностики выбросов..

[b, bint, r, rint, stats] = regress (y, X) также возвращает вектор stats, который содержит статистику R2, F-статистику и ее p-значение, а также оценку дисперсии ошибки. Матрица X должна включать столбец единиц, чтобы программа могла правильно вычислить статистику модели..

[___] = regress (y, X, alpha) использует уровень достоверности 100 * (1-alpha)% для вычисления бинта и ринта. Укажите любую из комбинаций выходных аргументов в предыдущих синтаксисах.

Примеры.

Оцените коэффициенты множественной линейной регрессии.

Загрузите набор данных carsmall. Определите вес и мощность в качестве предикторов, а пробег — в качестве реакции..

Вычислить коэффициенты регрессии для линейной модели с элементом взаимодействия.

Постройте данные и модель.

Диагностика выбросов с помощью невязок.

Загрузите набор данных экзаменов.

Используйте последние оценки за экзамен в качестве данных ответа, а первые две оценки за экзамен в качестве данных для прогнозирования..

Выполните множественную линейную регрессию с альфа = 0,01.

Диагностируйте выбросы, находя остаточные интервалы rint, которые не содержат 0.

Наблюдения 53 и 54 являются возможными выбросами..

Создайте диаграмму рассеяния остатков. Заполните точки, соответствующие выбросам.

Определите значимость отношения линейной регрессии.

Загрузите набор данных hald. Используйте тепло в качестве переменной отклика и ингредиенты в качестве прогностических данных..

Выполните множественную линейную регрессию и сгенерируйте статистику модели.

Поскольку значение R 2 0,9824 близко к 1, а значение p 0,0000 меньше уровня значимости по умолчанию 0,05, между ответом y и предикторами в X существует значимая линейная регрессионная связь. .

Входные аргументы.

y — числовой вектор данных ответа.

Данные ответа, заданные как числовой вектор размером n: 1. Строки y соответствуют разным наблюдениям. y должен иметь такое же количество строк, что и X .

Типы данных: одиночный | двойной.

X — числовая матрица данных предиктора.

Данные предиктора, заданные как числовая матрица размером n x p. Строки X соответствуют наблюдениям, а столбцы — переменным-предикторам. X должен иметь то же количество строк, что и y .

Типы данных: одиночный | двойной.

альфа — уровень значимости 0,05 (по умолчанию) | положительный скаляр.

Уровень значимости, заданный как положительный скаляр. альфа должна быть от 0 до 1.

Типы данных: одиночный | двойной.

Выходные аргументы.

b — оценки коэффициентов для числового вектора множественной линейной регрессии.

Оценки коэффициентов для множественной линейной регрессии, возвращенные как числовой вектор. b — вектор размером p на 1, где p — количество предикторов в X. Если столбцы X линейно зависимы, регресс устанавливает максимальное количество элементов b равным нулю..

Типы данных: двойной.

bint — Нижняя и верхняя доверительные границы для числовой матрицы оценок коэффициентов.

Нижняя и верхняя доверительные границы для оценок коэффициентов, возвращенные в виде числовой матрицы. bint — это матрица размером p на 2, где p — количество предикторов в X. Первый столбец бинта содержит нижние доверительные границы для каждой из оценок коэффициентов; второй столбец содержит верхние доверительные границы. Если столбцы X линейно зависимы, регресс возвращает нули в элементах bint, соответствующих нулевым элементам b. .

Типы данных: двойной.

r — числовой вектор остатков.

Остатки, возвращенные как числовой вектор. r — вектор размером n на 1, где n — количество наблюдений или строк в X .

Типы данных: одиночный | двойной.

rint — Интервалы для диагностики числовой матрицы выбросов.

Интервалы для диагностики выбросов, возвращаемые в виде числовой матрицы. rint — это матрица размером n на 2, где n — количество наблюдений или строк в X. Если интервал rint (i, 🙂 для наблюдения i не содержит нуля, соответствующий остаток больше ожидаемого в 100 * (1-альфа)% новых наблюдений, что указывает на выброс. Для получения дополнительной информации см. Алгоритмы..

Типы данных: одиночный | двойной.

stats — числовой вектор статистики модели.

Статистика модели, возвращенная в виде числового вектора, включая статистику R2, F-статистику и ее p-значение, а также оценку дисперсии ошибки..

X должен включать столбец единиц, чтобы модель содержала постоянный член. F-статистика и ее p-значение вычисляются при этом предположении и не верны для моделей без константы..

F-статистика — это статистика F-теста регрессионной модели. F-тест ищет значимую линейную регрессионную связь между переменной ответа и переменными-предикторами..

Статистика R 2 может быть отрицательной для моделей без константы, что указывает на то, что модель не подходит для данных..

Типы данных: одиночный | двойной.

regress обрабатывает значения NaN в X или y как пропущенные значения. регресс не включает наблюдения с пропущенными значениями из регрессионного соответствия.

Алгоритмы.

Остаточные интервалы.

В линейной модели наблюдаемые значения y и их остатки являются случайными величинами. У остатков есть нормальные распределения с нулевым средним, но с разными дисперсиями при разных значениях предикторов. Чтобы поместить остатки в сопоставимую шкалу, регрессия «Студентизирует» остатки. То есть регресс делит остатки на оценку их стандартного отклонения, которая не зависит от их значения. Стьюдентизированные остатки имеют t -распределения с известными степенями свободы. Интервалы, возвращаемые в rint, представляют собой сдвиги доверительных интервалов 100 * (1-альфа)% этих t-распределений с центром в остатках.

Альтернативная функциональность.

regress полезен, когда вам просто нужны выходные аргументы функции и когда вы хотите повторить настройку модели несколько раз в цикле. Если вам необходимо дополнительно изучить подобранную регрессионную модель, создайте объект линейной регрессионной модели LinearModel с помощью fitlm или stepwiselm. Объект LinearModel предоставляет больше возможностей, чем регресс .

Используйте свойства LinearModel, чтобы исследовать подобранную модель линейной регрессии. Свойства объекта включают информацию об оценках коэффициентов, сводной статистике, методе подгонки и входных данных..

Используйте объектные функции LinearModel для прогнозирования ответов, а также для изменения, оценки и визуализации модели линейной регрессии..

В отличие от регресса, функция fitlm не требует столбца единиц во входных данных. Модель, созданная fitlm, всегда включает термин перехвата, если вы не укажете, чтобы он не включался с помощью аргумента пары имя-значение ‘Перехват’.

Вы можете найти информацию в выводе регрессии, используя свойства и объектные функции LinearModel. .

Вывод эквивалентных значений регрессии в LinearModel b См. Столбец «Оценка» свойства Coefficients. bint Используйте функцию coefCI. r См. столбец «Необработанные данные» свойства «Остатки». rint Не поддерживается. Вместо этого используйте стьюдентифицированные остатки (свойство Residuals) и диагностику наблюдения (свойство Diagnostics), чтобы найти выбросы. статистика См. отображение модели в командном окне. Вы можете найти статистику в свойствах модели (MSE и Rsquared) и с помощью функции anova..

использованная литература.

[1] Чаттерджи, С., и А.С. Хади. «Влиятельные наблюдения, точки высокого плеча и выбросы в линейной регрессии». Статистическая наука. Vol. 1. 1986, с. 379–416..

Похожие статьи