Оптимизация случайного леса с настройкой и перекрестной проверкой

Я работаю с большим набором данных, поэтому надеюсь удалить лишние переменные и настроить оптимальные m переменных для каждой ветки. В R есть два метода, rfcv и tuneRF, которые помогают с этими двумя задачами. Я пытаюсь объединить их для оптимизации параметров.

rfcv работает примерно так:

create random forest and extract each variable's importance;
while (nvar > 1) {
    remove the k (or k%) least important variables;
    run random forest with remaining variables, reporting cverror and predictions
}

В настоящее время я перекодировал rfcv для работы следующим образом:

create random forest and extract each variable's importance;
while (nvar > 1) {
    remove the k (or k%) least important variables;
    tune for the best m for reduced variable set;
    run random forest with remaining variables, reporting cverror and predictions;
}

Это, конечно, увеличивает время работы на порядок. Мой вопрос заключается в том, насколько это необходимо (было трудно понять, используя игрушечные наборы данных), и можно ли ожидать, что какой-либо другой способ будет работать примерно так же хорошо за гораздо меньшее время.

r machine-learning random-forest data-mining

13.08.2012

Ответы:

Как всегда, ответ зависит от данных. С одной стороны, если нет никаких нерелевантных функций, вы можете просто полностью пропустить удаление функций. Процесс построения дерева в реализации случайного леса уже пытается выбрать прогностические функции, что дает вам некоторую защиту от нерелевантных.

Лео Брейман выступил с докладом, в котором он ввел 1000 нерелевантных признаков в какую-то задачу медицинского прогнозирования, в которой было лишь несколько реальных признаков из входной области. Когда он исключил 90% признаков, используя единственный фильтр по важности переменных, следующая итерация случайного леса не выбрала никаких нерелевантных признаков в качестве предикторов в своих деревьях.

13.08.2012

Новые материалы

Угловая структура архитектуры

Обратите внимание, что эта статья устарела, я решил создать новую с лучшей структурой и с учетом автономных компонентов: https://medium.com/@marekpanti/angular-standalone-architecture-b645edd0d54a..

«Данные, которые большинство людей используют для обучения своих моделей искусственного интеллекта, поставляются со встроенным…

Первоначально опубликовано HalkTalks: https://hacktown.com.br/blog/blog/os-dados-que-a-maioria-das-pessoas-usa-para-treinar-seus-modelos-de-inteligencia-artificial- ja-vem-com-um-vies-embutido/..

Сильный ИИ против слабого ИИ: различия парадигм искусственного интеллекта

В последние годы изучению и развитию искусственного интеллекта (ИИ) уделяется большое внимание и прогресс. Сильный ИИ и Слабый ИИ — две основные парадигмы в области искусственного интеллекта...

Правильный способ добавить Firebase в ваш проект React с помощью React Hooks

React + Firebase - это мощная комбинация для быстрого и безопасного создания приложений, от проверки концепции до массового производства. Раньше (знаете, несколько месяцев назад) добавление..

Создайте API с помощью Python FastAPI

Создание API с помощью Python становится очень простым при использовании пакета FastAPI. После установки и импорта вы можете создать приложение FastAPI и указать несколько конечных точек. Каждой..

Веселье с прокси-сервером JavaScript

Прокси-серверы JavaScript — это чистый сахар, если вы хотите создать некоторую общую логику в своих приложениях, чтобы облегчить себе жизнь. Вот один пример: Связь клиент-сервер Мы..

Получить бесплатный хостинг для разработчиков | Разместите свой сайт за несколько шагов 🔥

Статические веб-сайты — это веб-страницы с фиксированным содержанием и его постоянным содержанием. Но теперь статические сайты также обрабатывают динамические данные с помощью API и запросов...

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Typescript Front End Development Java NLP Computer Science Tech Data CSS Algorithms Development Productivity ChatGPT Programming Languages HTML Neural Networks Tutorial Reactjs Angular Javascript Tips Mathematics API Javascript Development Startup Automation Python Programming