fastTrees: fastTrees

Статья
05/23/2023

Создает список, содержащий имя функции и аргументы, для обучения модели FastTrees с rxEnsemble.

Использование

  fastTrees(numTrees = 100, numLeaves = 20, learningRate = 0.2,
    minSplit = 10, exampleFraction = 0.7, featureFraction = 1,
    splitFraction = 1, numBins = 255, firstUsePenalty = 0,
    gainConfLevel = 0, unbalancedSets = FALSE, trainThreads = 8,
    randomSeed = NULL, ...)

Аргументы

`numTrees`

Указывает общее число создаваемых в совокупности деревьев принятия решений. Создавая больше деревьев принятия решений, можно расширить покрытие, но время на обучение при этом увеличится. По умолчанию используется значение 100.

`numLeaves`

Максимальное число листовых узлов (терминальных узлов), которые могут быть созданы в любом дереве. Более высокие значения потенциально увеличивают размер дерева и обеспечивают повышенную точность, но при этом возникает риск лжевзаимосвязи и требуется больше времени на обучение. Значение по умолчанию — 20.

`learningRate`

Определяет размер шага, выполняемого в направлении градиента в каждом шаге процесса обучения. Определяет, насколько быстро или медленно выполняется схождение на оптимальном решении. Если размер шага слишком велик, вы можете выйти за пределы оптимального решения. Если размер шага слишком мал, обучение займет больше времени, чтобы прийти к наилучшему решению.

`minSplit`

Минимальное число обучающих экземпляров, необходимых для формирования листового узла. То есть минимальное число документов, разрешенных на листовом узле дерева регрессии, из данных подвыборки. Часть split означает, что признаки на каждом уровне дерева (узла) распределяются случайным образом. Значение по умолчанию — 10. Учитывается только число экземпляров, даже если они имеют разный вес.

`exampleFraction`

Доля случайно выбранных экземпляров, используемых для каждого дерева. Значение по умолчанию — 0,7.

`featureFraction`

Доля случайно выбранных признаков, используемых для каждого дерева. Значение по умолчанию — 1.

`splitFraction`

Доля случайно выбранных признаков, используемых для каждого разбиения. Значение по умолчанию — 1.

`numBins`

Максимальное число уникальных значений (интервалов) на признак. Если число значений признака меньше указанного числа, каждое значение помещается в собственный интервал. Если число значений больше этого числа, алгоритм создает numBins интервалов.

`firstUsePenalty`

Признак, который первым использует штрафной коэффициент. Это форма регуляризации, которая получает штраф за использование новой функции при создании дерева. Увеличьте это значение, чтобы создать деревья, которые не используют большое число признаков. Значение по умолчанию — 0.

`gainConfLevel`

Соответствие дерева требованию к степени надежности (должно находиться в диапазоне [0, 1)). Значение по умолчанию — 0.

`unbalancedSets`

Если TRUE, используются производные, оптимизированные для несбалансированных наборов. Применимо, только если значение type равно "binary". Значение по умолчанию — FALSE.

`trainThreads`

Число потоков для использования при обучении. Значение по умолчанию: 8.

`randomSeed`

Задает случайное начальное значение. Значение по умолчанию — NULL.

`...`

Дополнительные аргументы.