rxLogisticRegression: логистическая регрессия

Машинное обучение: логистическая регрессия

Использование

  rxLogisticRegression(formula = NULL, data, type = c("binary", "multiClass"),
    l2Weight = 1, l1Weight = 1, optTol = 1e-07, memorySize = 20,
    initWtsScale = 0, maxIterations = 2147483647, showTrainingStats = FALSE,
    sgdInitTol = 0, trainThreads = NULL, denseOptimizer = FALSE,
    normalize = "auto", mlTransforms = NULL, mlTransformVars = NULL,
    rowSelection = NULL, transforms = NULL, transformObjects = NULL,
    transformFunc = NULL, transformVars = NULL, transformPackages = NULL,
    transformEnvir = NULL, blocksPerRead = rxGetOption("blocksPerRead"),
    reportProgress = rxGetOption("reportProgress"), verbose = 1,
    computeContext = rxGetOption("computeContext"),
    ensemble = ensembleControl(), ...)

Аргументы

formula

Формула, описанная в статье, посвященной rxFormula. Условия взаимодействия и F() в настоящее время не поддерживаются в MicrosoftML.

data

Объект источника данных или символьная строка, указывающая файл .xdf или объект кадра данных.

type

Символьная строка, указывающая тип логистической регрессии: "binary" для логистической регрессии двоичной классификации по умолчанию или "multi" для полиномиальной логистической регрессии.

l2Weight

Весовой коэффициент регуляризации L2. Его значение должно быть больше или равно 0, а по умолчанию задано значение 1.

l1Weight

Весовой коэффициент регуляризации L1. Его значение должно быть больше или равно 0, а по умолчанию задано значение 1.

optTol

Пороговое значение для схождения оптимизатора. Если улучшение между итерациями меньше, чем пороговое значение, алгоритм прекращает работу и возвращает текущую модель. Чем меньше значение, тем алгоритм медленнее, но точнее. Значение по умолчанию — 1e-07.

memorySize

Размер памяти для алгоритма L-BFGS, указывающий число сохраняемых последних позиций и градиентов для вычисления следующего шага. Этот параметр оптимизации ограничивает объем памяти, используемый для вычисления величины и направления следующего шага. Если указано меньшее количество памяти, обучение проходит быстрее, но является менее точным. Значение должно быть больше или равно 1. Значение по умолчанию — 20.

initWtsScale

Задает диаметр начальных весовых коэффициентов, который определяет диапазон, из которого берутся значения для первоначальных весовых коэффициентов. Такие весовые коэффициенты инициализируются случайным образом из этого диапазона. Например, если задан диаметр d, весовые коэффициенты равномерно распределяются между -d/2 и d/2. По умолчанию ему задано значение 0. Это значит, что все весовые коэффициенты инициализируются со значением 0.

maxIterations

Задает максимальное число итераций. После этого числа шагов алгоритм останавливает работу, даже если критерии схождения не выполнены.

showTrainingStats

Укажите TRUE, чтобы отображать статистику по данным обучения и обученной модели. Если это не нужно, задайте FALSE. Значение по умолчанию — FALSE. Дополнительные сведения о статистике модели см. в статье, посвященной summary.mlModel.

sgdInitTol

Задайте число больше 0, чтобы использовать стохастический градиентный спуск (SGD) для поиска первоначальных параметров. Ненулевое значение указывает допуск, который используется SGD для определения схождения. Значение по умолчанию — 0 (указывает, что SGD не используется).

trainThreads

Число потоков для использования при обучении модели. Должно быть равно числу ядер на компьютере. Обратите внимание, что многопоточный алгоритм L-BFGS пытается загрузить набор данных в память. При возникновении проблем с нехваткой памяти задайте для trainThreads значение 1, чтобы отключить многопоточность. Если указано значение NULL, число используемых потоков будет определяться внутренне. По умолчанию используется значение NULL.

denseOptimizer

Если значение равно TRUE, включается принудительное уплотнение внутренних векторов оптимизации. Если значение равно FALSE, оптимизатор логистической регрессии может при необходимости использовать разреженные или уплотненные внутренние состояния. Если для denseOptimizer задать значение TRUE, внутреннему оптимизатору потребуется использовать уплотненное внутреннее состояние, что может снизить нагрузку на сборщик мусора при решении более крупных проблем.

normalize

Указывает тип используемой автоматической нормализации:

  • "auto": если требуется нормализация, она выполняется автоматически. Это значение по умолчанию.
  • "no": нормализация не выполняется.
  • "yes": нормализация выполняется.
  • "warn": если требуется нормализация, отображается предупреждение, но нормализация не выполняется.
    Нормализация подгоняет разрозненные диапазоны данных к стандартному масштабу. Масштабирование признаков гарантирует, что расстояния между точками данных пропорциональны, и включает различные методы оптимизации (например, градиентный спуск) для ускоренного схождения. Если нормализация выполняется, используется нормализатор MaxMin. Он нормализует значения в интервале [a, b], где -1 <= a <= 0, 0 <= b <= 1 и b - a = 1. Этот нормализатор сохраняет степень незаполненности, сопоставляя ноль с нолем.

mlTransforms

Указывает список преобразований MicrosoftML, которые необходимо выполнить до обучения, или значение NULL, если преобразования выполнять не нужно. Сведения о поддерживаемых преобразованиях см. на страницах о функциях featurizeText, categorical и categoricalHash. Эти преобразования выполняются после любых заданных преобразований R. Значение по умолчанию — NULL.

mlTransformVars

Указывает символьный вектор имен переменных, используемых в mlTransforms, или значение NULL, если их не нужно использовать. Значение по умолчанию — NULL.

rowSelection

Указывает записи (наблюдения) из набора данных, которые будут использоваться моделью с именем логической переменной из набора данных (в кавычках) или логическим выражением с указанием переменных в наборе данных. Например, rowSelection = "old" будет использовать только те наблюдения, в которых значение переменной old равно TRUE. rowSelection = (age > 20) & (age < 65) & (log(income) > 10) использует только те наблюдения, в которых значение переменной age находится в диапазоне от 20 до 65, а значение log переменной income больше 10. Выбор записей осуществляется после обработки всех преобразований данных (см. аргументы transforms или transformFunc). Как и все выражения, rowSelection можно определить вне вызова функции с помощью функции выражения.

transforms

Выражение формы list(name = expression, ``...), представляющее первый цикл преобразования переменных. Как и все выражения, transforms (или rowSelection) можно определить за пределами вызова функции с помощью функции выражения.

transformObjects

Именованный список с объектами, на которые можно ссылаться с помощью transforms, transformsFunc и rowSelection.

transformFunc

Функция преобразования переменной. Дополнительные сведения см. на странице, посвященной rxTransform.

transformVars

Символьный вектор для переменных входного набора данных, требуемый для функции преобразования. Дополнительные сведения см. на странице, посвященной rxTransform.

transformPackages

Символьный вектор, определяющий дополнительные пакеты R (за исключением пакетов, указанных в rxGetOption("transformPackages")), которые будут доступны и предварительно загружены для использования в функциях преобразования переменных. Например, пакеты, явно определенные в функциях RevoScaleR через аргументы transforms и transformFunc или неявно определенные через аргументы formula или rowSelection. Аргумент transformPackages также может иметь значение NULL, указывающее на то, что пакеты, указанные за пределами rxGetOption("transformPackages"), не будут предварительно загружаться.

transformEnvir

Определяемая пользователем среда, выступающая в роли родительской среды для всех разработанных внутренних сред и используемая для преобразования данных переменных. Если указано значение transformEnvir = NULL, используется новая среда hash с родительской средой baseenv().

blocksPerRead

Указывает количество считываемых блоков для каждого фрагмента данных, считываемого из источника данных.

reportProgress

Целочисленное значение, указывающее уровень информирования по ходу обработки строки:

  • 0 — информирование не осуществляется.
  • 1 — выводится и обновляется число обработанных записей.
  • 2 — выводятся данные об обработанных записях и времени обработки.
  • 3 — выводятся данные об обработанных записях и все данные о времени обработки.

verbose

Целочисленное значение, указывающее требуемый объем выходных данных. Если задано значение 0, при вычислениях подробные выходные данные не выводятся. Целочисленные значения из диапазона от 1 до 4 позволяют увеличить объем информации.

computeContext

Задает контекст, в котором выполняются вычисления, указанные с помощью допустимого значения RxComputeContext. Сейчас поддерживаются локальные контексты и контексты вычислений RxInSqlServer.

ensemble

Параметры управления для сборки.

...

Дополнительные аргументы, передаваемые непосредственно в Microsoft Compute Engine.

Сведения

Логистическая регрессия — это метод классификации, используемый для прогнозирования значения категориальной зависимой переменной на основе связи с одной или несколькими независимыми переменными, которые предположительно имеют логистическое распределение. Если зависимое значение имеет только два возможных значения (успех или неудача), логистическая регрессия будет двоичной. Если зависимая переменная имеет более двух возможных значений (группа крови по результатам диагностического теста), логистическая регрессия будет полиномиальной.

Метод оптимизации, используемый для rxLogisticRegression, — метод Бройдена — Флетчера — Голдфарба — Шэнно (L-BFGS). Как L-BFGS, так и обычные алгоритмы BFGS используют квазиньютоновские методы для оценки вычислительно ресурсоемкой матрицы Гессе в уравнении, используемом в методе Ньютона для вычисления шагов. Но приближение L-BFGS использует только ограниченный объем памяти, чтобы вычислить направление следующего шага, поэтому его оптимально использовать для проблем с большим числом переменных. Параметр memorySize указывает число хранимых прошлых позиций и градиентов для использования в вычислении следующего шага.

Этот обучаемый объект может использовать регуляризацию эластичной сети — линейное сочетание регуляризаций L1 (lasso) и L2 (ridge). Регуляризация — это метод, который может сделать некорректно поставленную проблему более разрешимой. Он задает ограничения, которые предоставляют сведения, дополняющие данные, и предотвращающие лжевзаимосвязи путем накладывания штрафов на модели с экстремальными значениями коэффициентов. Такой подход позволяет улучшить обобщение модели, реализованное с помощью выбора оптимальной сложности в компромиссной частоте исключений. Регуляризация предполагает добавление штрафа, связанного со значениями коэффициентов, к погрешности гипотезы. К точной модели с предельными коэффициентами будет применен больший штраф. При этом для менее точной модели с более приемлемыми значениями штраф будет меньше. Регуляризации L1 и L2 дают разные результаты и сценарии использования. В некоторых аспектах они дополняют друг друга.

l1Weight: можно применять к разреженным моделям при работе с многомерными данными. При этом извлекаются небольшие признаки, связанные с весовыми коэффициентами, которые относительно маловажны по отношению к 0.

l2Weight: предпочтительно используется для данных без разреженности. При этом извлекаются крупные весовые коэффициенты к нулю.

Добавление штрафа ridge к регуляризации позволяет обойти некоторые ограничения
lasso. Это позволяет повысить точность прогнозирования, например в тех случаях, когда число предикторов больше размера выборки. Если x = l1Weight и y = l2Weight, ax + by = c определяет линейный диапазон членов регуляризации. Значения x и y по умолчанию: 1. Агрессивная регуляризация может ухудшить возможности прогнозирования из-за исключения из модели важных переменных. Поэтому выбор оптимальных значений параметров регуляризации важен для производительности модели логистической регрессии.

Значение

rxLogisticRegression — объект rxLogisticRegression с обученной моделью.

LogisticReg: объект спецификации обучения класса maml для модуля обучения логистической регрессии.

Примечания

Этот алгоритм всегда будет пытаться загрузить весь набор данных в память, если trainThreads > 1 (многопоточность включена).

Авторы

Корпорация Майкрософт Microsoft Technical Support

Ссылки

Wikipedia: L-BFGS

regression

Training of L1-Regularized Log-Linear Models

and L2 Regularization for Machine Learning

См. также раздел

rxFastTrees, rxFastForest, rxFastLinear, rxNeuralNet, rxOneClassSvm, featurizeText, categorical, categoricalHash, rxPredict.mlModel.

Примеры


 # Estimate a logistic regression model
 logitModel <- rxLogisticRegression(isCase ~ age + parity + education + spontaneous + induced,
                   transforms = list(isCase = case == 1),
                   data = infert)
 # Print a summary of the model
 summary(logitModel)

 # Score to a data frame
 scoreDF <- rxPredict(logitModel, data = infert, 
     extraVarsToWrite = "isCase")

 # Compute and plot the Radio Operator Curve and AUC
 roc1 <- rxRoc(actualVarName = "isCase", predVarNames = "Probability", data = scoreDF) 
 plot(roc1)
 rxAuc(roc1)

 #######################################################################################
 # Multi-class logistic regression  
 testObs <- rnorm(nrow(iris)) > 0
 testIris <- iris[testObs,]
 trainIris <- iris[!testObs,]
 multiLogit <- rxLogisticRegression(
     formula = Species~Sepal.Length + Sepal.Width + Petal.Length + Petal.Width,
     type = "multiClass", data = trainIris)

 # Score the model
 scoreMultiDF <- rxPredict(multiLogit, data = testIris, 
     extraVarsToWrite = "Species")    
 # Print the first rows of the data frame with scores
 head(scoreMultiDF)
 # Look at confusion matrix
 table(scoreMultiDF$Species, scoreMultiDF$PredictedLabel)

 # Look at the observations with incorrect predictions
 badPrediction = scoreMultiDF$Species != scoreMultiDF$PredictedLabel
 scoreMultiDF[badPrediction,]