Я работаю с большим набором данных, поэтому надеюсь удалить лишние переменные и настроить оптимальные m переменных для каждой ветки. В R есть два метода, rfcv и tuneRF, которые помогают с этими двумя задачами. Я пытаюсь объединить их для оптимизации параметров.
rfcv работает примерно так:
create random forest and extract each variable's importance;
while (nvar > 1) {
remove the k (or k%) least important variables;
run random forest with remaining variables, reporting cverror and predictions
}
В настоящее время я перекодировал rfcv для работы следующим образом:
create random forest and extract each variable's importance;
while (nvar > 1) {
remove the k (or k%) least important variables;
tune for the best m for reduced variable set;
run random forest with remaining variables, reporting cverror and predictions;
}
Это, конечно, увеличивает время работы на порядок. Мой вопрос заключается в том, насколько это необходимо (было трудно понять, используя игрушечные наборы данных), и можно ли ожидать, что какой-либо другой способ будет работать примерно так же хорошо за гораздо меньшее время.