Оглавление:-
· ПРОСТАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ :-
· Геометрическая интуиция :-
· Функция стоимости :-
∘ Реализация :-
· НЕСКОЛЬКО ЛИНЕЙНАЯ РЕГРЕССИЯ :-
· Геометрическая интуиция :-
· Функция стоимости :-
∘ Реализация :-
· ПОЛИНОМИАЛЬНАЯ РЕГРЕССИЯ :-
· Геометрическая интуиция :-
∘ Реализация :-
ПРОСТАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ:-
Простая линейная регрессия — это метод контролируемого машинного обучения, используемый, когда у вас есть один входной столбец и один выходной столбец.
Пример 1) :- Набор данных содержит CGPA (входные данные) и пакет (выходные данные) для студентов прошлого года. Целью использования простой линейной регрессии в этом сценарии было бы понять взаимосвязь между CGPA учащихся и пакетом, который они получили, и, возможно, сделать прогнозы относительно пакетов будущих студентов на основе их CGPA.
Пример 2) :-
В приведенном выше наборе данных «вес» считается независимой характеристикой, а «рост» — зависимой характеристикой. Это означает, что вес является входной переменной, и мы хотим предсказать или понять, как он влияет на зависимую переменную, рост.
Геометрическая интуиция:-
Простая линейная регрессия предполагает линейную связь между входными и выходными переменными. Он находит наиболее подходящую линию, представляющую это отношение, путем минимизации суммы квадратов разностей между прогнозируемыми и фактическими значениями.
Цель. В простой линейной регрессии наша цель — найти наиболее подходящую линию, и для этого ошибка должна быть минимальной.
Ошибка = фактическое значение - прогнозируемое значение
Линия наилучшего соответствия может быть представлена уравнением: -
ŷ = mx + c или ŷ = θ₀ + θ₁x; где
ŷ = прогнозируемая точка
m = наклон/коэффициент (увеличение x на 1 единицу приводит к тому, на сколько единиц увеличивается значение y)
c = Пересечение (если значение «x» равно нулю, где находится наилучшая линия, пересекающая «y»)
x = точки данных
Чтобы найти значения m и c, существует два распространенных подхода: –
- Решение в закрытой форме (Обычные наименьшие квадраты, OLS):- Этот подход включает использование прямой формулы для вычисления значений m и b на основе заданного набора данных. Формулы: -
Где,
ȳ = среднее (среднее) значений зависимой переменной
x̄ = среднее значение независимых переменных
Σ = сумма по всем точкам данных в наборе данных.
2. Решение в незамкнутой форме. При работе с большими наборами данных или более сложными моделями решение в закрытой форме может оказаться невозможным. В таких случаях алгоритмы оптимизации, такие как градиентный спуск, используются для итеративного обновления значений m и b до тех пор, пока не будет достигнута сходимость.
Функция стоимости :-
Уравнение прямой может быть и в другом виде:
h(θx) = θ₀ + θ₁x
В линейной регрессии начальным шагом является инициализация значений параметров θ₀ и θ₁ случайными значениями до тех пор, пока мы не получим линию наилучшего соответствия. Этот процесс называется «оптимизация».
поскольку нам нужно выполнить оптимизацию, нам нужно вывести нашу функцию стоимости
Формула:- J(θ₀, θ₁) = (1/2m) * ∑(h(θxᵢ) — yᵢ)²
Здесь h(θxᵢ) представляет прогнозируемое значение для i-й точки данных, yᵢ — фактическое значение, а суммирование выполняется по всем точкам данных. Цель состоит в том, чтобы минимизировать эту функцию стоимости.
Эта функция стоимости также называется среднеквадратичной ошибкой (MSE).
Цель состоит в том, чтобы получить линию наилучшего соответствия путем минимизации этой функции стоимости. Чтобы оптимизировать/минимизировать функцию стоимости, мы обычно используем такой алгоритм, как градиентный спуск.
Реализация:-
МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ:-
В множественной линейной регрессии у нас есть несколько входных столбцов и один выходной столбец. Каждый входной столбец представляет другую функцию
Пример 1) :- Входные столбцы — это CGPA, пол, 12-я отметка и штат, а выходной столбец — пакет.
Пример 2). Набор данных «Цена дома» состоит из трех характеристик: количества комнат, размера комнат и цены дома. Количество комнат и размер комнат являются независимыми признаками или предикторами, тогда как цена дома является зависимой характеристикой или целевой переменной.
Геометрическая интуиция:-
Множественная линейная регрессия предполагает линейную связь между входными и выходными переменными. Он находит наиболее подходящую плоскость, представляющую это отношение, путем минимизации суммы квадратов разностей между прогнозируемыми и фактическими значениями.
Цель: - В множественной линейной регрессии наша цель - найти наиболее подходящую плоскость, и для этого ошибка должна быть минимальной.
Ошибка = фактическое значение - прогнозируемое значение
Наиболее подходящая плоскость для множественной линейной регрессии может быть представлена уравнением:
ŷ= θ₀ + θ₁x₁ + θ₂x₂ + θ₃x₃ + … + θₙxₙ ; где
ŷ = прогнозируемая точка
θ₁= наклон/коэффициент (увеличение x на 1 единицу приводит к тому, на сколько единиц увеличивается значение y)
θ₀= Пересечение (если значение «x» равно нулю, где находится наилучшая линия, пересекающая «y»)
x = точки данных
Функция стоимости: -
Уравнение прямой плоскости для множественной линейной регрессии: -
h(θx) = θ₀ + θ₁x₁ + θ₂x₂ + θ₃x₃ + … + θₙxₙ
В линейной регрессии начальным шагом является инициализация значений параметров θ₀ и θ₁ случайными значениями до тех пор, пока мы не получим линию наилучшего соответствия. Этот процесс называется «оптимизация».
поскольку нам нужно выполнить оптимизацию, нам нужно вывести нашу функцию стоимости
Формула:- J(θ₀, θ₁) = (1/2m) * ∑(h(θxᵢ) — yᵢ)²
Здесь h(θxᵢ) представляет прогнозируемое значение для i-й точки данных, yᵢ — фактическое значение, а суммирование выполняется по всем точкам данных. Цель состоит в том, чтобы минимизировать эту функцию стоимости.
Эта функция стоимости также называется среднеквадратичной ошибкой (MSE).
Цель состоит в том, чтобы получить линию наилучшего соответствия путем минимизации этой функции стоимости. Чтобы оптимизировать/минимизировать функцию стоимости, мы обычно используем такой алгоритм, как градиентный спуск.
Реализация:-
ПОЛИНОМИАЛЬНАЯ РЕГРЕССИЯ:-
Полиномиальная регрессия особенно полезна, когда связь между независимой переменной (переменными) и зависимой переменной нелинейна. Если вы попытаетесь подогнать прямую линию (линейную регрессию) к данным, демонстрирующим нелинейный паттерн, результирующая модель, скорее всего, будет иметь высокую ошибку или плохое соответствие.
В таких случаях можно использовать полиномиальную регрессию, чтобы уловить нелинейную зависимость, введя в модель полиномиальные степени.
Когда степень полинома равна нулю:-
- модель полиномиальной регрессии упрощается до постоянного члена или точки пересечения y. Уравнение для функции гипотезы принимает вид:
- h(θ, x) = θ₀ + 0
- Упрощенное уравнение можно записать так:
- h(θ, x) = θ₀ * 1 ~ h(θ, x) = θ₀ * x₁⁰
Когда степень полинома равна единице:Для полиномиальной регрессии степени 1 уравнение для функции гипотезы выглядит следующим образом:
h(θ, x) = θ₀ + θ₁x₁
Когда степень полинома равна двум:-
Для полиномиальной регрессии степени 2 уравнение для функции гипотезы:
h(θ, x) = θ₀ + θ₁x₁ + θ₂x₁²
Когда степень полинома становится слишком большой в полиномиальной регрессии, существует риск переобучения данных.
Полиномиальная регрессия называется «линейной регрессией», потому что она следует тем же принципам, что и линейная регрессия. Термин «линейный» в данном контексте относится к линейности связи между параметрами модели (коэффициентами) и зависимой переменной.
Геометрическая интуиция:-
Реализация:-
Я надеюсь, что это путешествие в область регрессии было поучительным и пробудило ваше желание глубже погрузиться в область анализа данных и машинного обучения. Желаю вам продолжать исследовать, открывать и применять эти методы, чтобы открывать новые идеи и решать интересные проблемы.
Спасибо, что присоединились ко мне в этом приключении. Вот, чтобы охватить красоту регрессии и использовать ее потенциал для обнаружения скрытых сокровищ в наших данных. Удачного анализа!