SdcaLogisticRegressionBinaryTrainer Clase

Definición

para IEstimator<TTransformer> entrenar un modelo de clasificación de regresión logística binaria mediante el método de ascenso de coordenada dual estocástico. El modelo entrenado se calibra y puede producir probabilidad al alimentar el valor de salida de la función lineal a .PlattCalibrator

public sealed class SdcaLogisticRegressionBinaryTrainer : Microsoft.ML.Trainers.SdcaBinaryTrainerBase<Microsoft.ML.Calibrators.CalibratedModelParametersBase<Microsoft.ML.Trainers.LinearBinaryModelParameters,Microsoft.ML.Calibrators.PlattCalibrator>>
type SdcaLogisticRegressionBinaryTrainer = class
    inherit SdcaBinaryTrainerBase<CalibratedModelParametersBase<LinearBinaryModelParameters, PlattCalibrator>>
Public NotInheritable Class SdcaLogisticRegressionBinaryTrainer
Inherits SdcaBinaryTrainerBase(Of CalibratedModelParametersBase(Of LinearBinaryModelParameters, PlattCalibrator))
Herencia

Comentarios

Para crear este instructor, use SdcaLogisticRegression o SdcaLogisticRegression(Options).

Columnas de entrada y salida

Los datos de la columna de etiquetas de entrada deben ser Boolean. Los datos de columna de las características de entrada deben ser un vector de tamaño conocido de Single.

Este instructor genera las siguientes columnas:

Nombre de columna de salida Tipo de columna Descripción
Score Single Puntuación sin enlazar calculada por el modelo.
PredictedLabel Boolean Etiqueta de predicción, según el signo de la puntuación. Una puntuación negativa se asigna a false y una positiva a true.
Probability Single Probabilidad calculada mediante la calibración de la puntuación de tener true como etiqueta. El valor de probabilidad está en el intervalo [0, 1].

Características del entrenador

Tarea de Machine Learning Clasificación binaria
¿Se requiere normalización?
¿Se requiere el almacenamiento en caché? No
NuGet necesario además de Microsoft.ML None
Exportable a ONNX

Detalles del algoritmo de entrenamiento

Este instructor se basa en el método de ascenso de coordenadas duales estocásticas (SDCA), una técnica de optimización de última generación para funciones objetivas convexas. El algoritmo se puede escalar porque es un algoritmo de entrenamiento de streaming, tal y como se describe en un documento mejor de KDD.

La convergencia se subscribe mediante la aplicación periódica de la sincronización entre las variables primal y dual en un subproceso independiente. También se proporcionan varias opciones de funciones de pérdida, como la pérdida de bisagra y la pérdida logística. En función de la pérdida usada, el modelo entrenado puede ser, por ejemplo, admitir la máquina vectorial o la regresión logística. El método SDCA combina varias de las mejores propiedades, como la capacidad de realizar el aprendizaje de streaming (sin ajustar todo el conjunto de datos en la memoria), alcanzando un resultado razonable con algunos exámenes de todo el conjunto de datos (por ejemplo, vea experimentos en este documento) y no gasta ningún cálculo en ceros en conjuntos de datos dispersos.

Tenga en cuenta que SDCA es un algoritmo de optimización estocástico y de streaming. El resultado depende del orden de los datos de entrenamiento porque la tolerancia de detención no es lo suficientemente ajustada. En optimización fuertemente convexa, la solución óptima es única y, por lo tanto, todos llegan al mismo lugar. Incluso en casos no fuertemente convexas, obtendrá soluciones igualmente buenas de ejecutar para ejecutarse. Para los resultados reproducibles, se recomienda establecer "Shuffle" en False y "NumThreads" en 1.

Esta clase usa la minimización de riesgos empíricas (es decir, ERM) para formular el problema de optimización basado en los datos recopilados. Tenga en cuenta que el riesgo empírica se mide normalmente aplicando una función de pérdida en las predicciones del modelo en los puntos de datos recopilados. Si los datos de entrenamiento no contienen suficientes puntos de datos (por ejemplo, para entrenar un modelo lineal en $n espacio dimensional, necesitamos al menos $n$ puntos de datos), el sobreajuste puede ocurrir para que el modelo generado por ERM sea bueno para describir los datos de entrenamiento, pero puede no predecir los resultados correctos en eventos no vistos. La regularización es una técnica común para aliviar este fenómeno penalizando la magnitud (normalmente medida por la función norm) de los parámetros del modelo. Este instructor admite la regularización de red elástica, que penaliza una combinación lineal de L1-norm (LASSO), $|| \textbf{w}_c || _1$, y L2-norm (ridge), $|| \textbf{w}_c || _2^2$ regularizaciones para $c=1,\dots,m$. Las regularizaciones L1-norm y L2-norm tienen diferentes efectos y usos que son complementarios en ciertos aspectos.

Junto con el algoritmo de optimización implementado, la regularización L1-norm puede aumentar la dispersión de los pesos del modelo, $\textbf{w}_1,\dots,\textbf{w}_m$. En el caso de los conjuntos de datos dispersos y dimensionales, si los usuarios seleccionan cuidadosamente el coeficiente de la norma L1, es posible lograr una buena calidad de predicción con un modelo que tenga solo unos pocos pesos distintos de cero (por ejemplo, el 1 % de los pesos totales del modelo) sin afectar a su potencia de predicción. Por el contrario, la norma L2 no puede aumentar la dispersidad del modelo entrenado, pero puede evitar el sobreajuste evitando valores de parámetros grandes. A veces, el uso de la norma L2 conduce a una mejor calidad de predicción, por lo que es posible que los usuarios quieran probarlo y ajustar los coeficientes de la norma L1 y la norma L2. Tenga en cuenta que, conceptualmente, el uso de la norma L1 implica que la distribución de todos los parámetros del modelo es una distribución de Laplace , mientras que la norma L2 implica una distribución gaussiana para ellos.

Una regularización agresiva (es decir, asignar coeficientes grandes a los términos de regularización L1-norm o L2-norm) puede dañar la capacidad predictiva excluyendo variables importantes del modelo. Por ejemplo, un coeficiente L1-norm muy grande puede forzar que todos los parámetros sean ceros y dar lugar a un modelo trivial. Por lo tanto, elegir los coeficientes de regularización correctos es importante en la práctica.

Para más información, consulte:

Consulte la sección Consulte también los vínculos a ejemplos de uso.

Campos

FeatureColumn

Columna de características que espera el instructor.

(Heredado de TrainerEstimatorBase<TTransformer,TModel>)
LabelColumn

Columna de etiqueta que espera el instructor. Puede ser null, que indica que la etiqueta no se usa para el entrenamiento.

(Heredado de TrainerEstimatorBase<TTransformer,TModel>)
WeightColumn

Columna de peso que espera el entrenador. Puede ser null, lo que indica que el peso no se usa para el entrenamiento.

(Heredado de TrainerEstimatorBase<TTransformer,TModel>)

Propiedades

Info

para IEstimator<TTransformer> entrenar un modelo de clasificación de regresión logística binaria mediante el método de ascenso de coordenada dual estocástico. El modelo entrenado se calibra y puede producir probabilidad al alimentar el valor de salida de la función lineal a .PlattCalibrator

(Heredado de SdcaBinaryTrainerBase<TModelParameters>)

Métodos

Fit(IDataView)

Entrena y devuelve un ITransformer.

(Heredado de TrainerEstimatorBase<TTransformer,TModel>)
GetOutputSchema(SchemaShape)

para IEstimator<TTransformer> entrenar un modelo de clasificación de regresión logística binaria mediante el método de ascenso de coordenada dual estocástico. El modelo entrenado se calibra y puede producir probabilidad al alimentar el valor de salida de la función lineal a .PlattCalibrator

(Heredado de TrainerEstimatorBase<TTransformer,TModel>)

Métodos de extensión

AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment)

Anexe un "punto de control de almacenamiento en caché" a la cadena del estimador. Esto garantizará que los estimadores de nivel inferior se entrenarán con los datos almacenados en caché. Resulta útil tener un punto de control de almacenamiento en caché antes de que los instructores tomen varios pases de datos.

WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>)

Dado un estimador, devuelva un objeto de ajuste que llamará a un delegado una vez Fit(IDataView) que se llame. A menudo, es importante que un estimador devuelva información sobre lo que cabe, por lo que el Fit(IDataView) método devuelve un objeto con tipo específico, en lugar de simplemente un general ITransformer. Sin embargo, al mismo tiempo, IEstimator<TTransformer> a menudo se forman en canalizaciones con muchos objetos, por lo que es posible que tengamos que crear una cadena de estimadores a través EstimatorChain<TLastTransformer> de donde el estimador para el que queremos obtener el transformador está enterrado en algún lugar de esta cadena. En ese escenario, podemos a través de este método adjuntar un delegado al que se llamará una vez que se llame a fit.

Se aplica a

Consulte también