Методы ансамбля дерева решений

Одно дерево решений редко хорошо обобщается на данные, на которых оно не было обучено. Однако мы можем комбинировать прогнозы большого количества деревьев решений, чтобы делать очень точные прогнозы. С математической точки зрения дерево решений имеет низкую систематическую ошибку и высокую дисперсию. Усреднение результата множества деревьев решений снижает дисперсию, сохраняя при этом низкую погрешность. Объединение деревьев известно как «метод ансамбля». В этой статье я расскажу о трех наиболее распространенных ансамблевых методах.

Бэггинг, сокращенно от начального агрегирования, - это общий метод комбинирования прогнозов многих моделей. Хотя его можно использовать для агрегирования выходных данных любого типа регрессионной или классификационной модели, пакетирование обычно применяется к деревьям решений. Компонент «начальной загрузки» упаковки просто означает, что вы подгоняете каждое отдельное дерево к набору наблюдений, которые были отобраны случайным образом с заменой исходных данных обучения. Вы строите сколько угодно этих деревьев, а затем объединяете их. Для задач классификации ваши агрегированные прогнозы будут генерироваться большинством голосов всех деревьев в вашей модели. Для задач регрессии ваш прогноз будет просто средним результатом деревьев.

Случайные леса - одни из самых эффективных моделей, используемых сегодня. Подгонка деревьев решений к загруженным данным служит для их небольшого декоррелирования. Однако, поскольку каждый узел жадно выбирает, какую функцию разделить, ваши деревья все равно могут оказаться очень коррелированными друг с другом. Случайные леса добавляют дополнительный шаг для декорреляции отдельных деревьев решений. Когда алгоритм CART выбирает оптимальное разбиение для каждого узла, случайный лес выберет случайное подмножество ваших функций и будет рассматривать только те, которые предназначены для разбиения. Из этого случайного подмножества функций алгоритм по-прежнему будет выбирать оптимальную функцию и разбивать ее на каждом узле.

Чрезвычайно рандомизированные деревья, сокращенно называемые ExtraTrees в Sklearn, добавляют еще один шаг рандомизации к алгоритму случайного леса. Случайные леса вычисляют оптимальное разбиение для охвата объекта в случайно выбранном подмножестве, а затем выбирают лучший объект для разбиения. ExtraTrees вместо этого выберет случайное разделение для каждой функции в этом случайном подмножестве, а затем выберет лучшую функцию для разделения, сравнивая эти случайно выбранные разделения. Чрезвычайно рандомизированные деревья гораздо более эффективны с точки зрения вычислений, чем случайные леса, и их производительность почти всегда сравнима. В некоторых случаях они могут даже работать лучше!

смотрите также:

Новые материалы

10 основных команд PIP, которые вы не должны знать

1) pip install ‹имя-пакета› pip install pandas ^ эта команда указывает pip установить библиотеку pandas из индекса пакетов Python (PyPI) — в основном где-то в Интернете. Эта команда..

Упрощение управления графическими процессорами для специалистов по обработке и анализу данных с помощью Genv

Пошаговое руководство о том, как получить максимальную отдачу от ваших графических процессоров Управление ресурсами графического процессора так же важно, как и управление средой Python,..

Объединить перекрывающиеся интервалы | Ржавчина

Напишите функцию, которая принимает массив произвольных интервалов, объединяет любые перекрывающиеся интервалы и возвращает новые интервалы в произвольном порядке. Каждый интервал состоит из..

Рисование снежинки Коха на Java

Что такое снежинка Коха? Возьмем отрезок единичной длины и назовем его E(1). Если мы удалим среднюю треть, заменив ее двумя другими сторонами равностороннего треугольника на основе..

Понимание стека MEAN — Часть 2: Express JS

В моем предыдущем блоге мы установили, что Node JS на самом деле является не веб-сервером, а платформой, на которой вы строите свой веб-сервер. Express JS — это настоящий модуль веб-сервера...

Усовершенствуйте свои электронные таблицы с помощью ChatGPT

Пересмотрите способ работы с электронными таблицами. Растущее количество подключаемых модулей высветило мощь ChatGPT или других LLM. Эти подключаемые модули позволяют интегрировать API..

Понимание наследования классов с помощью POCO

Цель: дальнейшая организация и создание более масштабируемого кода с помощью наследования классов. В ООП наследование позволяет новым объектам приобретать свойства существующих объектов. Давайте..

Machine Learning JavaScript Data Science Artificial Intelligence Python Software Development Coding Web Development Deep Learning AI Software Engineering React Nodejs Typescript Java Data Algorithms NLP Development Front End Development CSS Tech Computer Science Productivity ChatGPT HTML Reactjs API Neural Networks Python Programming Programming Languages Tutorial Startup AWS Angular Computer Vision Reinforcement Learning Statistics