Squeak.ru - шаблоны программирования

Оптимизация случайного леса с настройкой и перекрестной проверкой

Я работаю с большим набором данных, поэтому надеюсь удалить лишние переменные и настроить оптимальные m переменных для каждой ветки. В R есть два метода, rfcv и tuneRF, которые помогают с этими двумя задачами. Я пытаюсь объединить их для оптимизации параметров.

rfcv работает примерно так:

create random forest and extract each variable's importance;
while (nvar > 1) {
    remove the k (or k%) least important variables;
    run random forest with remaining variables, reporting cverror and predictions
}

В настоящее время я перекодировал rfcv для работы следующим образом:

create random forest and extract each variable's importance;
while (nvar > 1) {
    remove the k (or k%) least important variables;
    tune for the best m for reduced variable set;
    run random forest with remaining variables, reporting cverror and predictions;
}

Это, конечно, увеличивает время работы на порядок. Мой вопрос заключается в том, насколько это необходимо (было трудно понять, используя игрушечные наборы данных), и можно ли ожидать, что какой-либо другой способ будет работать примерно так же хорошо за гораздо меньшее время.


Ответы:


1

Как всегда, ответ зависит от данных. С одной стороны, если нет никаких нерелевантных функций, вы можете просто полностью пропустить удаление функций. Процесс построения дерева в реализации случайного леса уже пытается выбрать прогностические функции, что дает вам некоторую защиту от нерелевантных.

Лео Брейман выступил с докладом, в котором он ввел 1000 нерелевантных признаков в какую-то задачу медицинского прогнозирования, в которой было лишь несколько реальных признаков из входной области. Когда он исключил 90% признаков, используя единственный фильтр по важности переменных, следующая итерация случайного леса не выбрала никаких нерелевантных признаков в качестве предикторов в своих деревьях.

13.08.2012
Новые материалы

Угловая структура архитектуры
Обратите внимание, что эта статья устарела, я решил создать новую с лучшей структурой и с учетом автономных компонентов: https://medium.com/@marekpanti/angular-standalone-architecture-b645edd0d54a..

«Данные, которые большинство людей используют для обучения своих моделей искусственного интеллекта, поставляются со встроенным…
Первоначально опубликовано HalkTalks: https://hacktown.com.br/blog/blog/os-dados-que-a-maioria-das-pessoas-usa-para-treinar-seus-modelos-de-inteligencia-artificial- ja-vem-com-um-vies-embutido/..

Сильный ИИ против слабого ИИ: различия парадигм искусственного интеллекта
В последние годы изучению и развитию искусственного интеллекта (ИИ) уделяется большое внимание и прогресс. Сильный ИИ и Слабый ИИ — две основные парадигмы в области искусственного интеллекта...

Правильный способ добавить Firebase в ваш проект React с помощью React Hooks
React + Firebase - это мощная комбинация для быстрого и безопасного создания приложений, от проверки концепции до массового производства. Раньше (знаете, несколько месяцев назад) добавление..

Создайте API с помощью Python FastAPI
Создание API с помощью Python становится очень простым при использовании пакета FastAPI. После установки и импорта вы можете создать приложение FastAPI и указать несколько конечных точек. Каждой..

Веселье с прокси-сервером JavaScript
Прокси-серверы JavaScript — это чистый сахар, если вы хотите создать некоторую общую логику в своих приложениях, чтобы облегчить себе жизнь. Вот один пример: Связь клиент-сервер Мы..

Получить бесплатный хостинг для разработчиков | Разместите свой сайт за несколько шагов 🔥
Статические веб-сайты — это веб-страницы с фиксированным содержанием и его постоянным содержанием. Но теперь статические сайты также обрабатывают динамические данные с помощью API и запросов...