Как создать модель линейной регрессии в Excel

Создание модели линейной регрессии в Excel.

Что такое линейная регрессия?

Линейная регрессия — это график данных, который отображает линейную зависимость между независимой и зависимой переменной. Обычно он используется, чтобы наглядно показать силу взаимосвязи и разброс результатов — все с целью объяснения поведения зависимой переменной..

Допустим, мы хотели проверить зависимость между количеством съеденного мороженого и ожирением. Мы бы возьмем независимую переменную, количество мороженого, и свяжем ее с зависимой переменной, ожирением, чтобы увидеть, существует ли связь. Учитывая, что регрессия представляет собой графическое отображение этой взаимосвязи, чем меньше вариативность данных, тем сильнее взаимосвязь и тем точнее соответствие линии регрессии..

Ключевые выводы.

Линейная регрессия моделирует отношения между зависимой и независимой переменной (ами). Регрессионный анализ может быть проведен, если переменные независимы, нет гетероскедастичности и члены ошибок переменных не коррелированы. Моделирование линейной регрессии в Excel стало проще с помощью пакета Data Analysis ToolPak..

Важные соображения.

Есть несколько важных предположений о вашем наборе данных, которые должны быть верными, чтобы продолжить регрессионный анализ:

Переменные должны быть действительно независимыми (с использованием критерия хи-квадрат). Данные не должны иметь различную дисперсию ошибок (это называется гетероскедастичностью (также обозначается как гетероскедастичность)). Члены ошибки каждой переменной не должны коррелироваться. Если нет, это означает, что переменные последовательно коррелированы..

Если эти три вещи кажутся сложными, так и есть. Но следствием того, что одно из этих соображений не соответствует действительности, является необъективная оценка. По сути, вы искажаете отношения, которые измеряете..

Вывод регрессии в Excel.

Первый шаг в выполнении регрессионного анализа в Excel — это еще раз проверить, установлен ли бесплатный плагин для Excel Data Analysis ToolPak. Этот плагин упрощает вычисление ряда статистических данных. Не требуется строить график линии линейной регрессии, но это упрощает создание таблиц статистики. Чтобы проверить, установлен ли, выберите "Данные" с панели инструментов. Если "Анализ данных" является опцией, функция установлена ​​и готова к использованию. Если не установлен, вы можете запросить эту опцию, нажав кнопку Office и выбрав "Параметры Excel".

Используя Data Analysis ToolPak, создать результат регрессии можно всего за несколько щелчков мышью..

Независимая переменная находится в диапазоне X.

Учитывая S&P 500 возвращается, скажем, мы хотим знать, можем ли мы оценить силу и взаимосвязь доходности акций Visa (V). Данные по возврату акций Visa (V) заполняют столбец 1 как зависимую переменную. S&P 500 возвращает данные, заполняет столбец 2 как независимую переменную..

Выбирать "Данные" с панели инструментов. В "Данные" отображается меню. Выбирать "Анализ данных". Откроется диалоговое окно Анализ данных — Инструменты анализа. В меню выберите "Регресс" и нажмите "В ПОРЯДКЕ". В диалоговом окне «Регрессия» щелкните значок "Входной диапазон Y" и выберите данные зависимой переменной (доходность акций Visa (V)). Щелкните значок "Вход X Диапазон" поле и выберите данные независимых переменных (S&P 500 возвращается). Нажмите "В ПОРЯДКЕ" запустить результаты.

[Примечание: если таблица кажется маленькой, щелкните изображение правой кнопкой мыши и откройте новую вкладку для более высокого разрешения.]

Интерпретируйте результаты.

Используя эти данные (те же, что и в нашей статье о R-квадрате), мы получаем следующую таблицу:

Значение R 2, также известное как коэффициент детерминации, измеряет долю вариации в зависимой переменной, объясняемую независимой переменной, или насколько хорошо регрессионная модель соответствует данным. Значение R 2 находится в диапазоне от 0 до 1, и более высокое значение указывает на лучшее соответствие. Значение p или значение вероятности также находится в диапазоне от 0 до 1 и указывает, является ли тест значимым. В отличие от значения R 2, меньшее значение p является благоприятным, поскольку оно указывает на корреляцию между зависимыми и независимыми переменными..

Построение графика регрессии в Excel.

Мы можем построить график регрессии в Excel, выделив данные и отобразив их как диаграмму рассеяния. Чтобы добавить линию регрессии, выберите "Макет" из "Инструменты для диаграмм" меню. В диалоговом окне выберите "Линия тренда" а потом "Линейный тренд". Чтобы добавить значение R 2, выберите "Дополнительные параметры линии тренда" из "Меню линии тренда. Наконец, выберите "Отображение значения R-квадрата на графике". Визуальный результат суммирует силу отношений, хотя и за счет отсутствия таких подробностей, как в таблице выше..

Похожие статьи