Оглавление:-

· ПРОСТАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ :-
· Геометрическая интуиция :-
· Функция стоимости :-
Реализация :-
· НЕСКОЛЬКО ЛИНЕЙНАЯ РЕГРЕССИЯ :-
· Геометрическая интуиция :-
· Функция стоимости :-
Реализация :-
· ПОЛИНОМИАЛЬНАЯ РЕГРЕССИЯ :-
· Геометрическая интуиция :-
Реализация :-

ПРОСТАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ:-

Простая линейная регрессия — это метод контролируемого машинного обучения, используемый, когда у вас есть один входной столбец и один выходной столбец.

Пример 1) :- Набор данных содержит CGPA (входные данные) и пакет (выходные данные) для студентов прошлого года. Целью использования простой линейной регрессии в этом сценарии было бы понять взаимосвязь между CGPA учащихся и пакетом, который они получили, и, возможно, сделать прогнозы относительно пакетов будущих студентов на основе их CGPA.

Пример 2) :-

В приведенном выше наборе данных «вес» считается независимой характеристикой, а «рост» — зависимой характеристикой. Это означает, что вес является входной переменной, и мы хотим предсказать или понять, как он влияет на зависимую переменную, рост.

Геометрическая интуиция:-

Простая линейная регрессия предполагает линейную связь между входными и выходными переменными. Он находит наиболее подходящую линию, представляющую это отношение, путем минимизации суммы квадратов разностей между прогнозируемыми и фактическими значениями.

Цель. В простой линейной регрессии наша цель — найти наиболее подходящую линию, и для этого ошибка должна быть минимальной.

Ошибка = фактическое значение - прогнозируемое значение

Линия наилучшего соответствия может быть представлена ​​уравнением: -

ŷ = mx + c или ŷ = θ₀ + θ₁x; где

ŷ = прогнозируемая точка

m = наклон/коэффициент (увеличение x на 1 единицу приводит к тому, на сколько единиц увеличивается значение y)

c = Пересечение (если значение «x» равно нулю, где находится наилучшая линия, пересекающая «y»)

x = точки данных

Чтобы найти значения m и c, существует два распространенных подхода: –

  1. Решение в закрытой форме (Обычные наименьшие квадраты, OLS):- Этот подход включает использование прямой формулы для вычисления значений m и b на основе заданного набора данных. Формулы: -

Где,

ȳ = среднее (среднее) значений зависимой переменной

= среднее значение независимых переменных

Σ = сумма по всем точкам данных в наборе данных.

2. Решение в незамкнутой форме. При работе с большими наборами данных или более сложными моделями решение в закрытой форме может оказаться невозможным. В таких случаях алгоритмы оптимизации, такие как градиентный спуск, используются для итеративного обновления значений m и b до тех пор, пока не будет достигнута сходимость.

Функция стоимости :-

Уравнение прямой может быть и в другом виде:

h(θx) = θ₀ + θ₁x

В линейной регрессии начальным шагом является инициализация значений параметров θ₀ и θ₁ случайными значениями до тех пор, пока мы не получим линию наилучшего соответствия. Этот процесс называется «оптимизация».

поскольку нам нужно выполнить оптимизацию, нам нужно вывести нашу функцию стоимости

Формула:- J(θ₀, θ₁) = (1/2m) * ∑(h(θxᵢ) — yᵢ)²

Здесь h(θxᵢ) представляет прогнозируемое значение для i-й точки данных, yᵢ — фактическое значение, а суммирование выполняется по всем точкам данных. Цель состоит в том, чтобы минимизировать эту функцию стоимости.

Эта функция стоимости также называется среднеквадратичной ошибкой (MSE).

Цель состоит в том, чтобы получить линию наилучшего соответствия путем минимизации этой функции стоимости. Чтобы оптимизировать/минимизировать функцию стоимости, мы обычно используем такой алгоритм, как градиентный спуск.

Реализация:-



МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ:-

В множественной линейной регрессии у нас есть несколько входных столбцов и один выходной столбец. Каждый входной столбец представляет другую функцию

Пример 1) :- Входные столбцы — это CGPA, пол, 12-я отметка и штат, а выходной столбец — пакет.

Пример 2). Набор данных «Цена дома» состоит из трех характеристик: количества комнат, размера комнат и цены дома. Количество комнат и размер комнат являются независимыми признаками или предикторами, тогда как цена дома является зависимой характеристикой или целевой переменной.

Геометрическая интуиция:-

Множественная линейная регрессия предполагает линейную связь между входными и выходными переменными. Он находит наиболее подходящую плоскость, представляющую это отношение, путем минимизации суммы квадратов разностей между прогнозируемыми и фактическими значениями.

Цель: - В множественной линейной регрессии наша цель - найти наиболее подходящую плоскость, и для этого ошибка должна быть минимальной.

Ошибка = фактическое значение - прогнозируемое значение

Наиболее подходящая плоскость для множественной линейной регрессии может быть представлена ​​уравнением:

ŷ= θ₀ + θ₁x₁ + θ₂x₂ + θ₃x₃ + … + θₙxₙ ; где

ŷ = прогнозируемая точка

θ₁= наклон/коэффициент (увеличение x на 1 единицу приводит к тому, на сколько единиц увеличивается значение y)

θ₀= Пересечение (если значение «x» равно нулю, где находится наилучшая линия, пересекающая «y»)

x = точки данных

Функция стоимости: -

Уравнение прямой плоскости для множественной линейной регрессии: -

h(θx) = θ₀ + θ₁x₁ + θ₂x₂ + θ₃x₃ + … + θₙxₙ

В линейной регрессии начальным шагом является инициализация значений параметров θ₀ и θ₁ случайными значениями до тех пор, пока мы не получим линию наилучшего соответствия. Этот процесс называется «оптимизация».

поскольку нам нужно выполнить оптимизацию, нам нужно вывести нашу функцию стоимости

Формула:- J(θ₀, θ₁) = (1/2m) * ∑(h(θxᵢ) — yᵢ)²

Здесь h(θxᵢ) представляет прогнозируемое значение для i-й точки данных, yᵢ — фактическое значение, а суммирование выполняется по всем точкам данных. Цель состоит в том, чтобы минимизировать эту функцию стоимости.

Эта функция стоимости также называется среднеквадратичной ошибкой (MSE).

Цель состоит в том, чтобы получить линию наилучшего соответствия путем минимизации этой функции стоимости. Чтобы оптимизировать/минимизировать функцию стоимости, мы обычно используем такой алгоритм, как градиентный спуск.

Реализация:-



ПОЛИНОМИАЛЬНАЯ РЕГРЕССИЯ:-

Полиномиальная регрессия особенно полезна, когда связь между независимой переменной (переменными) и зависимой переменной нелинейна. Если вы попытаетесь подогнать прямую линию (линейную регрессию) к данным, демонстрирующим нелинейный паттерн, результирующая модель, скорее всего, будет иметь высокую ошибку или плохое соответствие.

В таких случаях можно использовать полиномиальную регрессию, чтобы уловить нелинейную зависимость, введя в модель полиномиальные степени.

Когда степень полинома равна нулю:-

  1. модель полиномиальной регрессии упрощается до постоянного члена или точки пересечения y. Уравнение для функции гипотезы принимает вид:
  2. h(θ, x) = θ₀ + 0
  3. Упрощенное уравнение можно записать так:
  4. h(θ, x) = θ₀ * 1 ~ h(θ, x) = θ₀ * x₁⁰

Когда степень полинома равна единице:Для полиномиальной регрессии степени 1 уравнение для функции гипотезы выглядит следующим образом:

h(θ, x) = θ₀ + θ₁x₁

Когда степень полинома равна двум:-

Для полиномиальной регрессии степени 2 уравнение для функции гипотезы:

h(θ, x) = θ₀ + θ₁x₁ + θ₂x₁²

Когда степень полинома становится слишком большой в полиномиальной регрессии, существует риск переобучения данных.

Полиномиальная регрессия называется «линейной регрессией», потому что она следует тем же принципам, что и линейная регрессия. Термин «линейный» в данном контексте относится к линейности связи между параметрами модели (коэффициентами) и зависимой переменной.

Геометрическая интуиция:-

Реализация:-



Я надеюсь, что это путешествие в область регрессии было поучительным и пробудило ваше желание глубже погрузиться в область анализа данных и машинного обучения. Желаю вам продолжать исследовать, открывать и применять эти методы, чтобы открывать новые идеи и решать интересные проблемы.

Спасибо, что присоединились ко мне в этом приключении. Вот, чтобы охватить красоту регрессии и использовать ее потенциал для обнаружения скрытых сокровищ в наших данных. Удачного анализа!