Glosario sobre aprendizaje automático de términos importantes

Artículo
05/10/2023

La lista siguiente es una compilación de los términos importantes sobre aprendizaje automático que resultan de utilidad al crear los modelos personalizados en ML.NET.

Precisión

En clasificación, la exactitud es el número de elementos correctamente clasificados dividido entre el número total de elementos en el conjunto de pruebas. Va desde 0 (el menos preciso) a 1 (el más preciso). La exactitud es una de las métricas de evaluación del rendimiento del modelo. Trátela junto con el valor de precisión, el de recuperación y la puntuación F.

Área bajo la curva (AUC)

En clasificación binaria, una métrica de evaluación que es el valor del área bajo la curva que traza la tasa de verdaderos positivos (en el eje y) en relación con la tasa de falsos positivos (en el eje x). Va de 0,5 (el peor) a 1 (el mejor). También conocida como el área bajo la curva ROC; es decir, la curva característica operativa del receptor. Para obtener más información, consulte el artículo de Wikipedia Curva ROC.

Clasificación binaria

Un caso de clasificación donde la etiqueta es solo una de dos clases. Para obtener más información, vea la sección Clasificación binaria del tema Tareas de aprendizaje automático.

Calibración

Calibración es el proceso de asignar una puntuación sin procesar en una pertenencia de la clase, para la clasificación binaria y multiclase. Algunos instructores de ML.NET tienen un sufijo NonCalibrated. Estos algoritmos generan una puntuación sin procesar que luego se debe asignar a una probabilidad de la clase.

Catálogo

En ML.NET, un catálogo es una colección de funciones de extensión, agrupadas con un objetivo común.

Por ejemplo, cada tarea de aprendizaje automático (clasificación binaria, regresión, clasificación, etcétera) tiene un catálogo de algoritmos de aprendizaje automático disponibles (instructores). El catálogo para los instructores de clasificación binaria es: BinaryClassificationCatalog.BinaryClassificationTrainers.

clasificación

Cuando los datos se usan para predecir una categoría, la tarea de aprendizaje automático supervisado se llama clasificación. La clasificación binaria hace referencia a la predicción de únicamente dos categorías (por ejemplo, clasificar una imagen como la foto de un "gato" o un "perro"). La clasificación multiclase hace referencia a la predicción de varias categorías (por ejemplo, clasificar una imagen como la foto de una raza específica de perro).

Coeficiente de determinación

En regresión, una métrica de evaluación que indica en qué grado los datos se ajustan a un modelo. Va de 0 a 1. Un valor de 0 significa que los datos son aleatorios o no pueden ajustarse al modelo. Un valor de 1 significa que el modelo coincide exactamente con los datos. Esto se conoce a menudo como r², R², o r cuadrado.

data

Los datos son esenciales en cualquier aplicación de aprendizaje automático. En ML.NET, los datos se representan mediante objetos IDataView. Objetos de vista de datos:

están formados por filas y columnas
se evalúan de forma diferida, es decir, solo cargan datos cuando una operación lo requiere
contienen un esquema que define el tipo, el formato y la longitud de cada columna

Estimador

Clase de ML.NET que implementa la interfaz IEstimator<TTransformer>.

Se trata de una especificación de una transformación (tanto la transformación de la preparación de datos como la transformación de entrenamiento de modelos de aprendizaje automático). Los estimadores pueden encadenarse en una canalización de transformaciones. Los parámetros de un estimador o una canalización de estimadores se aprenden al llamar a Fit. El resultado de Fit es un transformador.

Método de extensión

Método de .NET que forma parte de una clase, pero se define fuera de la clase. El primer parámetro de un método de extensión es una referencia this estática a la clase a la que pertenece el método de extensión.

Los métodos de extensión se usan ampliamente en ML.NET para construir instancias de estimadores.

Característica

Una propiedad medible del fenómeno que se mide, generalmente un valor numérico (doble). Las características múltiples se conocen como vector de características y generalmente se almacenan como double[]. Las características definen los elementos importantes del fenómeno que se mide. Para obtener más información, vea el artículo Feature (Característica) en Wikipedia.

Ingeniería de características

La ingeniería de características es el proceso que implica la definición de un conjunto de características y el desarrollo de software que produce vectores de características a partir de los datos de fenómenos disponibles, es decir, la extracción de características. Para obtener más información, vea el artículo Feature engineering (Ingeniería de características) en Wikipedia.

Puntuación F

En clasificación, una métrica de evaluación que equilibra precisión y recuperación.

Hiperparámetro

Un parámetro de un algoritmo de aprendizaje automático. Algunos ejemplos son el número de árboles para aprender en un bosque de decisión o el tamaño de paso en un algoritmo de gradiente descendente. Los valores de los hiperparámetros se establecen antes de entrenar el modelo y rigen el proceso de búsqueda de los parámetros de la función de predicción; por ejemplo, los puntos de comparación en un árbol de decisión o las ponderaciones en un modelo de regresión lineal. Para obtener más información, vea el artículo Hyperparameter (Hiperparámetro) en Wikipedia.

Etiqueta

El elemento que se va a predecir con el modelo de aprendizaje automático. Por ejemplo, una raza de perro o el precio futuro de unas acciones.

Pérdida de registro

En clasificación, una métrica de evaluación que caracteriza la precisión de un clasificador. Cuanto menor sea la pérdida de registro, más preciso será un clasificador.

Función de pérdida

Una función de pérdida es la diferencia entre los valores de etiqueta de entrenamiento y la predicción realizada por el modelo. Los parámetros del modelo se calculan minimizando la función de pérdida.

Pueden configurarse distintos instructores con distintas funciones de pérdida.

Error de media absoluto

En regresión, una métrica de evaluación que es el promedio de todos los errores del modelo, donde el error del modelo es la distancia entre el valor de la etiqueta predicho y el valor de la etiqueta correcto.

Modelo

Tradicionalmente, los parámetros de la función de predicción. Por ejemplo, las ponderaciones en un modelo de regresión lineal o los puntos de división en un árbol de decisión. En ML.NET, un modelo contiene toda la información necesaria para predecir la etiqueta de un objeto de dominio (por ejemplo, imagen o texto). Esto significa que los modelos de ML.NET incluyen los pasos de caracterización necesarios, así como los parámetros para la función de predicción.

Clasificación multiclase

Un caso de clasificación donde la etiqueta es una de tres o más clases. Para obtener más información, vea la sección Clasificación multiclase del tema Tareas de aprendizaje automático.

N-grama

Un esquema de extracción de características para datos de texto: cualquier secuencia de N palabras se convierte en un valor de característica.

Normalización

La normalización es el proceso de escalar datos de número de punto flotante a valores entre 0 y 1. Muchos de los algoritmos de aprendizaje usados en ML.NET requieren la normalización de los datos de las características de entrada. ML.NET proporciona una serie de transformaciones para la normalización

Vector de características numérico

Un vector de características que se compone únicamente de valores numéricos. Esto es similar a double[].

Canalización

Todas las operaciones necesarias para ajustar un modelo a un conjunto de datos. Una canalización consta de pasos de importación, transformación, caracterización y aprendizaje de datos. Una vez que una canalización está entrenada, se convierte en un modelo.

Precision

En clasificación, la precisión de una clase es el número de elementos con una predicción correcta en cuando a pertenencia a esa clase dividido entre el número total de elementos cuya predicción señalaba la pertenencia a esa clase.

Recuperación

En clasificación, la recuperación de una clase es el número de elementos con una predicción correcta en cuando a pertenencia a esa clase dividido entre el número total de elementos que efectivamente pertenecen a la clase.

Regularización

La regularización penaliza a un modelo lineal por ser demasiado complicado. Hay dos tipos de regularización:

La regularización $L_1$ pone a cero las ponderaciones por características insignificantes. El tamaño del modelo guardado puede ser menor después de este tipo de regularización.
La regularización $L_2$ minimiza el rango de ponderación para las características insignificantes. Este es un proceso más general y menos sensible a valores atípicos.

Regresión

Una tarea de aprendizaje automático supervisada donde el resultado es un valor real, por ejemplo, doble. Por ejemplo, la predicción de los precios de las acciones. Para obtener más información, vea la sección Regresión del tema Tareas de aprendizaje automático.

Error absoluto relativo

En regresión, una métrica de evaluación que es la suma de todos los errores absolutos dividida entre la suma de las distancias entre los valores de etiqueta correctos y el promedio de todos los valores de etiqueta correctos.

Error cuadrático relativo

En regresión, una métrica de evaluación que es la suma de todos los errores absolutos cuadráticos dividida entre la suma de las distancias cuadráticas existente entre los valores de etiqueta correctos y el promedio de todos los valores de etiqueta correctos.

Raíz cuadrada del error cuadrático medio

En regresión, una métrica de evaluación que es la raíz cuadrada del promedio de los cuadrados de los errores.

Puntuaciones

La puntuación es el proceso de aplicar nuevos datos a un modelo de Machine Learning entrenado y generar predicciones. La puntuación también se conoce como inferencia. Según el tipo de modelo, la puntuación puede ser un valor sin procesar, una probabilidad o una categoría.

Aprendizaje automático supervisado

Una subclase de aprendizaje automático en la que un modelo deseado predice la etiqueta de datos aún no vistos. Algunos ejemplos son la clasificación, la regresión y la predicción estructurada. Para obtener más información, vea el artículo Aprendizaje supervisado en Wikipedia.

Cursos

El proceso de identificación de un modelo para un conjunto de datos de entrenamiento determinado. Para un modelo lineal, esto significa buscar las ponderaciones. Para un árbol, implica la identificación de los puntos de división.

Transformer

Clase de ML.NET que implementa la interfaz ITransformer.

Un transformador convierte un IDataView en otro. Un transformador se crea entrenando un estimador o una canalización de estimadores.

Aprendizaje automático no supervisado

Una subclase de aprendizaje automático en la que un modelo deseado encuentra una estructura oculta (o latente) en los datos. Algunos ejemplos son la agrupación en clústeres, el modelado de temas y la reducción de la dimensionalidad. Para obtener más información, vea el artículo Aprendizaje no supervisado en Wikipedia.