Evaluación del rendimiento de un modelo en Azure Machine Learning Studio (clásico)Evaluate model performance in Azure Machine Learning Studio (classic)

SE APLICA A: Se aplica a.Machine Learning Studio (clásico) No se aplica a.Azure Machine LearningAPPLIES TO: Applies to.Machine Learning Studio (classic) Does not apply to.Azure Machine Learning

En este artículo, puede obtener información sobre las métricas que puede usar para supervisar el rendimiento de un modelo en Azure Machine Learning Studio (clásico).In this article, you can learn about the metrics you can use to monitor model performance in Azure Machine Learning Studio (classic). La evaluación del rendimiento de un modelo es una de las fases principales en el proceso de ciencia de datos.Evaluating the performance of a model is one of the core stages in the data science process. Indica el nivel de acierto de las puntuaciones (predicciones) de un conjunto de datos mediante un modelo entrenado.It indicates how successful the scoring (predictions) of a dataset has been by a trained model. Azure Machine Learning Studio (clásico) admite la evaluación de modelos a través de dos de sus módulos principales de aprendizaje automático:Azure Machine Learning Studio (classic) supports model evaluation through two of its main machine learning modules:

Estos módulos permiten ver el rendimiento del modelo como un número de métricas que se usan habitualmente en estadísticas y aprendizaje automático.These modules allow you to see how your model performs in terms of a number of metrics that are commonly used in machine learning and statistics.

Los modelos de evaluación deben tenerse en cuenta junto con:Evaluating models should be considered along with:

Se presentan tres escenarios comunes de aprendizaje supervisado:Three common supervised learning scenarios are presented:

  • regresiónregression
  • clasificación binariabinary classification
  • clasificación multiclasemulticlass classification

Evaluación frente a Validación cruzadaEvaluation vs. Cross Validation

La evaluación y la validación cruzada son métodos estándares para medir el rendimiento de un modelo.Evaluation and cross validation are standard ways to measure the performance of your model. Ambos generan métricas de evaluación que puede inspeccionar o comparar con las de otros modelos.They both generate evaluation metrics that you can inspect or compare against those of other models.

El módulo Evaluar modelo espera un conjunto de datos puntuado como entrada (o dos en caso de que quiera comparar el rendimiento de dos modelos distintos).Evaluate Model expects a scored dataset as input (or two in case you would like to compare the performance of two different models). Por lo tanto, debe entrenar el modelo mediante el módulo Entrenar modelo y realizar predicciones sobre algún conjunto de datos con el módulo Puntuar modelo, antes de poder evaluar los resultados.Therefore, you need to train your model using the Train Model module and make predictions on some dataset using the Score Model module before you can evaluate the results. La evaluación se basa en las etiquetas y probabilidades puntuadas junto con las etiquetas verdaderas, las cuales son el resultado del módulo Puntuar modelo.The evaluation is based on the scored labels/probabilities along with the true labels, all of which are output by the Score Model module.

De forma alternativa, es posible usar la validación cruzada para realizar automáticamente varias operaciones de entrenamiento, puntuación y evaluación (10 subconjuntos) en distintos subconjuntos de los datos de entrada.Alternatively, you can use cross validation to perform a number of train-score-evaluate operations (10 folds) automatically on different subsets of the input data. Los datos de entrada se dividen en 10 partes, donde una se reserva para las pruebas y las otras 9 para el entrenamiento.The input data is split into 10 parts, where one is reserved for testing, and the other 9 for training. Este proceso se repite 10 veces y se calcula el promedio de las métricas de evaluación.This process is repeated 10 times and the evaluation metrics are averaged. Esto ayuda a determinar el nivel al que un modelo se podría generalizar para nuevos conjuntos de datos.This helps in determining how well a model would generalize to new datasets. El módulo Validar modelo de forma cruzada toma un modelo sin entrenar y algunos conjuntos de datos con etiquetas y genera los resultados de la evaluación de cada uno de los 10 subconjuntos, además de los resultados promediados.The Cross-Validate Model module takes in an untrained model and some labeled dataset and outputs the evaluation results of each of the 10 folds, in addition to the averaged results.

En las siguientes secciones, se crearán modelos de clasificación y regresión simples, y se evaluará su rendimiento con los módulos Evaluar modelo y Validar modelo de forma cruzada.In the following sections, we will build simple regression and classification models and evaluate their performance, using both the Evaluate Model and the Cross-Validate Model modules.

Evaluación de un modelo de regresiónEvaluating a Regression Model

Supongamos que quiere predecir el precio de un automóvil mediante características, como sus dimensiones, caballos de potencia, especificaciones del motor, etc.Assume we want to predict a car's price using features such as dimensions, horsepower, engine specs, and so on. Se trata de un problema de regresión típico, donde la variable objetivo (price) es un valor numérico continuo.This is a typical regression problem, where the target variable (price) is a continuous numeric value. Podemos generar un modelo de regresión lineal que, dados los valores de las características de un automóvil determinado, pueda predecir el precio de ese automóvil.We can fit a linear regression model that, given the feature values of a certain car, can predict the price of that car. Este modelo de regresión se puede usar para puntuar el mismo conjunto de datos con que se entrenó.This regression model can be used to score the same dataset we trained on. Cuando se tienen los precios predichos del automóvil, se puede evaluar el rendimiento con una comparación de cuánto se desvían en promedio las predicciones de los precios reales.Once we have the predicted car prices, we can evaluate the model performance by looking at how much the predictions deviate from the actual prices on average. Para ilustrar esto, se usa el conjunto de datos Información sobre los precios de los automóviles (datos sin procesar) disponible en la sección Conjuntos de datos almacenados en Machine Learning Studio (clásico).To illustrate this, we use the Automobile price data (Raw) dataset available in the Saved Datasets section in Machine Learning Studio (classic).

Creación del experimentoCreating the Experiment

Agregue los módulos siguientes al área de trabajo en Azure Machine Learning Studio (clásico):Add the following modules to your workspace in Azure Machine Learning Studio (classic):

Conecte los puertos, tal y como se muestra en la Ilustración 1 y establezca la columna de etiqueta del módulo Entrenar modelo en price.Connect the ports as shown below in Figure 1 and set the Label column of the Train Model module to price.

Evaluación de un modelo de regresión

Figura 1.Figure 1. Evaluación de un modelo de regresión.Evaluating a Regression Model.

Inspección de los resultados de la evaluaciónInspecting the Evaluation Results

Después de ejecutar el experimento, puede hacer clic en el puerto de salida del módulo Evaluar modelo y seleccionar Visualizar para ver los resultados de la evaluación.After running the experiment, you can click on the output port of the Evaluate Model module and select Visualize to see the evaluation results. Las métricas de evaluación disponibles para los modelos de regresión son: Mean Absolute Error, Root Mean Absolute Error, Relative Absolute Error, Relative Squared Error y Coefficient of Determination.The evaluation metrics available for regression models are: Mean Absolute Error, Root Mean Absolute Error, Relative Absolute Error, Relative Squared Error, and the Coefficient of Determination.

El término "error" representa aquí la diferencia entre el valor predicho y el valor verdadero.The term "error" here represents the difference between the predicted value and the true value. Normalmente, se calcula el valor absoluto o el cuadrado de esta diferencia para capturar la magnitud total de errores en todas las instancias, dado que la diferencia entre el valor real y el predicho puede ser negativa en algunos casos.The absolute value or the square of this difference is usually computed to capture the total magnitude of error across all instances, as the difference between the predicted and true value could be negative in some cases. Las métricas de error miden el rendimiento de predicción de un modelo de regresión en cuanto a la desviación media de sus predicciones a partir de los valores reales.The error metrics measure the predictive performance of a regression model in terms of the mean deviation of its predictions from the true values. Los valores de error más bajos implican que el modelo es más preciso a la hora de realizar predicciones.Lower error values mean the model is more accurate in making predictions. Una métrica de error general de cero significa que el modelo se ajusta a los datos perfectamente.An overall error metric of zero means that the model fits the data perfectly.

El coeficiente de determinación, que también se conoce como R cuadrado, es también una manera estándar de medir cuánto se adapta el modelo a los datos.The coefficient of determination, which is also known as R squared, is also a standard way of measuring how well the model fits the data. Se puede interpretar como la proporción de la variación que explica el modelo.It can be interpreted as the proportion of variation explained by the model. Una mayor proporción es mejor en este caso, donde 1 indica un ajuste perfecto.A higher proportion is better in this case, where 1 indicates a perfect fit.

Métricas de evaluación de regresión lineal

Ilustración 2.Figure 2. Métricas de evaluación de regresión lineal.Linear Regression Evaluation Metrics.

Uso de la validación cruzadaUsing Cross Validation

Tal como se mencionó anteriormente, puede realizar procesos de entrenamiento, puntuación y evaluación de forma repetida y automática mediante el módulo Validar modelo de forma cruzada.As mentioned earlier, you can perform repeated training, scoring, and evaluations automatically using the Cross-Validate Model module. Lo único que necesita en este caso es un conjunto de datos, un modelo sin entrenar y un módulo Validar modelo de forma cruzada (consulte la ilustración siguiente).All you need in this case is a dataset, an untrained model, and a Cross-Validate Model module (see figure below). Debe establecer la columna de etiqueta en price en las propiedades del módulo Cross-Validate Model (Modelo de validación cruzada).You need to set the label column to price in the Cross-Validate Model module's properties.

Validación cruzada de un modelo de regresión

Figura 3.Figure 3. Validación cruzada de un modelo de regresión.Cross-Validating a Regression Model.

Después de ejecutar el experimento, puede inspeccionar los resultados de la evaluación haciendo clic en el puerto de salida derecho del módulo Validar modelo de forma cruzada.After running the experiment, you can inspect the evaluation results by clicking on the right output port of the Cross-Validate Model module. Esto proporcionará una vista detallada de las métricas de cada iteración (subconjunto) y los resultados promediados de cada una de las métricas (Figura 4).This will provide a detailed view of the metrics for each iteration (fold), and the averaged results of each of the metrics (Figure 4).

Resultados de la validación cruzada de un modelo de regresión

Figura 4.Figure 4. Resultados de la validación cruzada de un modelo de regresión.Cross-Validation Results of a Regression Model.

Evaluación de un modelo de clasificación binariaEvaluating a Binary Classification Model

En un escenario de clasificación binaria, la variable objetivo tiene solo dos resultados posibles, por ejemplo: {0, 1} o {false, true}, {negative, positive}.In a binary classification scenario, the target variable has only two possible outcomes, for example: {0, 1} or {false, true}, {negative, positive}. Suponga que tiene un conjunto de datos de empleados adultos con algunas variables demográficas y de empleo, y se le pide que prediga el nivel de ingresos, una variable binaria con los valores {"<=50 K", ">50 K"}.Assume you are given a dataset of adult employees with some demographic and employment variables, and that you are asked to predict the income level, a binary variable with the values {"<=50 K", ">50 K"}. En otras palabras, la clase negativa representa a los empleados que tienen un sueldo menor o igual a 50 000 al año y la clase positiva representa a los demás empleados.In other words, the negative class represents the employees who make less than or equal to 50 K per year, and the positive class represents all other employees. Al igual que en el escenario de regresión, se entrenaría un modelo, se puntuarían algunos datos y se evaluarían los resultados.As in the regression scenario, we would train a model, score some data, and evaluate the results. La principal diferencia es la elección de las métricas que Azure Machine Learning Studio (clásico) calcula y da como resultado.The main difference here is the choice of metrics Azure Machine Learning Studio (classic) computes and outputs. Para ilustrar el escenario de predicción del nivel de ingresos, se usará el conjunto de datos Adult para crear un experimento de Studio (clásico) y evaluar el rendimiento de un modelo de regresión logística de dos clases, un clasificador binario que se usa con frecuencia.To illustrate the income level prediction scenario, we will use the Adult dataset to create a Studio (classic) experiment and evaluate the performance of a two-class logistic regression model, a commonly used binary classifier.

Creación del experimentoCreating the Experiment

Agregue los módulos siguientes al área de trabajo en Azure Machine Learning Studio (clásico):Add the following modules to your workspace in Azure Machine Learning Studio (classic):

Conecte los puertos tal y como se muestra en la Ilustración 5 y establezca la columna de etiqueta del módulo Entrenar modelo en income.Connect the ports as shown below in Figure 5 and set the Label column of the Train Model module to income.

Evaluación de un modelo de clasificación binaria

Figura 5.Figure 5. Evaluación de un modelo de clasificación binaria.Evaluating a Binary Classification Model.

Inspección de los resultados de la evaluaciónInspecting the Evaluation Results

Después de ejecutar el experimento, puede hacer clic en el puerto de salida del módulo Evaluar modelo y seleccionar Visualizar para ver los resultados de la evaluación (ilustración 7).After running the experiment, you can click on the output port of the Evaluate Model module and select Visualize to see the evaluation results (Figure 7). Las métricas de evaluación disponibles para los modelos de clasificación binaria son: Accuracy, Precision, Recall, F1 Score y AUC.The evaluation metrics available for binary classification models are: Accuracy, Precision, Recall, F1 Score, and AUC. Además, el módulo genera una matriz de confusión que muestra el número de positivos verdaderos, falsos negativos, falsos positivos y negativos verdaderos, así como curvas ROC, Precision/Recall y Lift.In addition, the module outputs a confusion matrix showing the number of true positives, false negatives, false positives, and true negatives, as well as ROC, Precision/Recall, and Lift curves.

La precisión es simplemente la proporción de instancias clasificadas correctamente.Accuracy is simply the proportion of correctly classified instances. Suele ser la primera métrica que se comprueba al evaluar un clasificador.It is usually the first metric you look at when evaluating a classifier. Sin embargo, si los datos de prueba están descompensados (en el caso en que la mayoría de las instancias pertenezcan a una de las clases) o está más interesado en el rendimiento de una de las clases, la precisión no captura realmente la eficacia de un clasificador.However, when the test data is unbalanced (where most of the instances belong to one of the classes), or you are more interested in the performance on either one of the classes, accuracy doesn't really capture the effectiveness of a classifier. En el escenario de clasificación del nivel de ingresos, suponga que está realizando pruebas en datos donde el 99 % de las instancias representan personas con un sueldo menor o igual a 50.000 al año.In the income level classification scenario, assume you are testing on some data where 99% of the instances represent people who earn less than or equal to 50K per year. Es posible conseguir una precisión de 0,99 al predecir la clase "<=50 K" para todas las instancias.It is possible to achieve a 0.99 accuracy by predicting the class "<=50K" for all instances. En este caso, el clasificador parece hacer un buen trabajo global, pero en realidad no clasifica correctamente ninguno de las personas con ingresos elevados (1 %) correctamente.The classifier in this case appears to be doing a good job overall, but in reality, it fails to classify any of the high-income individuals (the 1%) correctly.

Por ese motivo, es útil calcular métricas adicionales que capturen aspectos más específicos de la evaluación.For that reason, it is helpful to compute additional metrics that capture more specific aspects of the evaluation. Antes de entrar a los detalles de dichas métricas, es importante comprender la matriz de confusión de una evaluación de clasificación binaria.Before going into the details of such metrics, it is important to understand the confusion matrix of a binary classification evaluation. Las etiquetas de clase en el conjunto de entrenamiento pueden tomar solo dos valores posibles, a los que normalmente podemos referirnos como positivo o negativo.The class labels in the training set can take on only two possible values, which we usually refer to as positive or negative. Las instancias positivas y negativas que un clasificador predice correctamente se denominan positivos verdaderos (TP) y negativos verdaderos (TN), respectivamente.The positive and negative instances that a classifier predicts correctly are called true positives (TP) and true negatives (TN), respectively. De forma similar, las instancias clasificadas incorrectamente se denominan falsos positivos (FP) y falsos negativos (FN).Similarly, the incorrectly classified instances are called false positives (FP) and false negatives (FN). La matriz de confusión es simplemente una tabla que muestra el número de instancias que se encuentran bajo cada una de estas cuatro categorías.The confusion matrix is simply a table showing the number of instances that fall under each of these four categories. Azure Machine Learning Studio (clásico) decide automáticamente cuál de las dos clases en el conjunto de datos es la clase positiva.Azure Machine Learning Studio (classic) automatically decides which of the two classes in the dataset is the positive class. Si las etiquetas de clase son valores booleanos o enteros, se asignan las instancias etiquetadas como "true" o "1" a la clase positiva.If the class labels are Boolean or integers, then the 'true' or '1' labeled instances are assigned the positive class. Si las etiquetas son cadenas, como en el conjunto de datos de ingresos, las etiquetas se ordenan alfabéticamente y se elige que el primer nivel sea la clase negativa, mientras que el segundo nivel es la clase positiva.If the labels are strings, such as with the income dataset, the labels are sorted alphabetically and the first level is chosen to be the negative class while the second level is the positive class.

Matriz de confusión de la clasificación binaria

Figura 6.Figure 6. Matriz de confusión de la clasificación binaria.Binary Classification Confusion Matrix.

Volviendo al problema de clasificación de ingresos, existen varias preguntas de evaluación que querríamos preguntar para ayudarnos a comprender el rendimiento del clasificador utilizado.Going back to the income classification problem, we would want to ask several evaluation questions that help us understand the performance of the classifier used. Una pregunta natural es: "De las personas que el modelo predijo que ganan >50 000 (TP+FP), ¿cuántos se han clasificado correctamente (TP)?".A natural question is: 'Out of the individuals whom the model predicted to be earning >50 K (TP+FP), how many were classified correctly (TP)?' Puede responder esta pregunta observando la precisión del modelo, que es la proporción de positivos que se han clasificado correctamente: TP/(TP+FP).This question can be answered by looking at the Precision of the model, which is the proportion of positives that are classified correctly: TP/(TP+FP). Otra pregunta común es "De todos los empleados con ingresos >50 000 (TP+FN), ¿cuántos predijo el clasificador correctamente (TP)?".Another common question is "Out of all the high earning employees with income >50k (TP+FN), how many did the classifier classify correctly (TP)". Esto es en realidad la recuperación o la tasa de positivos verdaderos: TP/(TP+FN) del clasificador.This is actually the Recall, or the true positive rate: TP/(TP+FN) of the classifier. Observará que hay una evidente compensación entre la precisión y la recuperación.You might notice that there is an obvious trade-off between precision and recall. Por ejemplo, dado un conjunto de datos relativamente equilibrado, un clasificador que prediga principalmente instancias positivas tendría una recuperación alta, pero una precisión más baja, ya que muchas de las instancias negativas se clasificarían incorrectamente y se produciría un número mayor de falsos positivos.For example, given a relatively balanced dataset, a classifier that predicts mostly positive instances, would have a high recall, but a rather low precision as many of the negative instances would be misclassified resulting in a large number of false positives. Para ver un gráfico de cómo varían estas dos métricas, haga clic en la curva de PRECISIÓN/RECUPERACIÓN en la página de salida de resultados de evaluación (parte superior izquierda de la Figura 7).To see a plot of how these two metrics vary, you can click on the PRECISION/RECALL curve in the evaluation result output page (top-left part of Figure 7).

Resultados de la evaluación de clasificación binaria

Ilustración 7.Figure 7. Resultados de la evaluación de clasificación binaria.Binary Classification Evaluation Results.

Otra métrica relacionada que se usa con frecuencia es F1 Score, que tiene en cuenta la precisión y la recuperación.Another related metric that is often used is the F1 Score, which takes both precision and recall into consideration. Es la media armónica de estas dos métricas y se calcula como tal: F1 = 2 (precisión x recuperación) / (precisión + recuperación).It is the harmonic mean of these two metrics and is computed as such: F1 = 2 (precision x recall) / (precision + recall). La puntuación de F1 es una buena forma de resumir la evaluación en un número único, pero siempre es recomendable comprobar la precisión y la recuperación juntas para comprender mejor cómo se comporta un clasificador.The F1 score is a good way to summarize the evaluation in a single number, but it's always a good practice to look at both precision and recall together to better understand how a classifier behaves.

Además, es posible inspeccionar la tasa de positivos verdaderos frente a la de falsos positivos en la curva Característica operativa del receptor (ROC) y el valor del área bajo la curva (AUC) correspondiente.In addition, one can inspect the true positive rate vs. the false positive rate in the Receiver Operating Characteristic (ROC) curve and the corresponding Area Under the Curve (AUC) value. Cuanto más se acerque esta curva a la esquina superior izquierda, mejor será el rendimiento del clasificador (es decir, se maximiza la tasa de positivos verdaderos a la vez que se minimiza la de falsos positivos).The closer this curve is to the upper left corner, the better the classifier's performance is (that is maximizing the true positive rate while minimizing the false positive rate). Las curvas que están cerca de la diagonal del gráfico son el resultado de los clasificadores que tienden a realizar predicciones que se acercan a una estimación aleatoria.Curves that are close to the diagonal of the plot, result from classifiers that tend to make predictions that are close to random guessing.

Uso de la validación cruzadaUsing Cross Validation

Como en el ejemplo de regresión, podemos realizar una validación cruzada para entrenar, puntuar y evaluar de forma repetida y automática diferentes subconjuntos de datos.As in the regression example, we can perform cross validation to repeatedly train, score, and evaluate different subsets of the data automatically. De manera similar, es posible usar el módulo Validar modelo de forma cruzada, un modelo de regresión logística sin entrenar y un conjunto de datos.Similarly, we can use the Cross-Validate Model module, an untrained logistic regression model, and a dataset. La columna de etiqueta debe establecerse en income en las propiedades del módulo Cross-Validate Model (Modelo de validación cruzada).The label column must be set to income in the Cross-Validate Model module's properties. Después de ejecutar el experimento y hacer clic en el puerto de la salida derecha del módulo Validar modelo de forma cruzada, es posible ver los valores de métricas de clasificación binaria de cada subconjunto, además de las desviaciones media y estándar de cada uno.After running the experiment and clicking on the right output port of the Cross-Validate Model module, we can see the binary classification metric values for each fold, in addition to the mean and standard deviation of each.

Validación cruzada de un modelo de clasificación binaria

Figura 8.Figure 8. Validación cruzada de un modelo de clasificación binaria.Cross-Validating a Binary Classification Model.

Resultados de la validación cruzada de un clasificador binario

<span data-ttu-id="53109-241">Figura 9.Figure 9. Resultados de la validación cruzada de un clasificador binario.Cross-Validation Results of a Binary Classifier.

Evaluación de un modelo de clasificación multiclaseEvaluating a Multiclass Classification Model

En este experimento se usará el conocido conjunto de datos [Iris](https://archive.ics.uci.edu/ml/datasets/Iris "Iris"), que contiene las instancias de tres tipos (clases) distintos de la planta iris.In this experiment, we will use the popular Iris dataset, which contains instances of three different types (classes) of the iris plant. Hay cuatro valores de características (longitud y ancho del sépalo y del pétalo) para cada instancia.There are four feature values (sepal length/width and petal length/width) for each instance. En los experimentos anteriores se entrenaron y probaron los modelos con los mismos conjuntos de datos.In the previous experiments, we trained and tested the models using the same datasets. Aquí usaremos el módulo Dividir datos para crear dos subconjuntos de los datos, con el fin de entrenar en el primero y puntuar y evaluar en el segundo.Here, we will use the Split Data module to create two subsets of the data, train on the first, and score and evaluate on the second. El conjunto de datos Iris está disponible públicamente en UCI Machine Learning Repository (Repositorio de aprendizaje automático de UCI) y se puede descargar mediante un módulo Importar datos.The Iris dataset is publicly available on the UCI Machine Learning Repository, and can be downloaded using an Import Data module.

Creación del experimentoCreating the Experiment

Agregue los módulos siguientes al área de trabajo en Azure Machine Learning Studio (clásico):Add the following modules to your workspace in Azure Machine Learning Studio (classic):

Conecte los puertos tal como se muestra a continuación en la Figura 10.Connect the ports as shown below in Figure 10.

Establezca el índice de la columna de etiqueta del módulo Entrenar modelo en 5.Set the Label column index of the Train Model module to 5. El conjunto de datos no tiene fila de encabezado, pero se sabe que las etiquetas de clase están en la quinta columna.The dataset has no header row but we know that the class labels are in the fifth column.

Haga clic en el módulo Importar datos y establezca la propiedad Origen de datos en la dirección URL web a través de HTTP y la dirección URL en http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data.Click on the Import Data module and set the Data source property to Web URL via HTTP, and the URL to http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data.

Establezca la fracción de instancias que se usará para el entrenamiento en el módulo Dividir datos (por ejemplo, 0,7).Set the fraction of instances to be used for training in the Split Data module (0.7 for example).

Evaluar un clasificador multiclase

Figura 10.Figure 10. Evaluar un clasificador multiclaseEvaluating a Multiclass Classifier

Inspección de los resultados de la evaluaciónInspecting the Evaluation Results

Ejecute el experimento y haga clic en el puerto de salida de Evaluar modelo.Run the experiment and click on the output port of Evaluate Model. En este caso, los resultados de la evaluación se presentan en forma de una matriz de confusión.The evaluation results are presented in the form of a confusion matrix, in this case. La matriz muestra las instancias reales frente a las predichas para las tres clases.The matrix shows the actual vs. predicted instances for all three classes.

Resultados de la evaluación de clasificación multiclase

Figura 11.Figure 11. Resultados de la evaluación de clasificación multiclase.Multiclass Classification Evaluation Results.

Uso de la validación cruzadaUsing Cross Validation

Tal como se mencionó anteriormente, puede realizar procesos de entrenamiento, puntuación y evaluación de forma repetida y automática mediante el módulo Validar modelo de forma cruzada.As mentioned earlier, you can perform repeated training, scoring, and evaluations automatically using the Cross-Validate Model module. Necesitaría un conjunto de datos, un modelo sin entrenar y un módulo Validar modelo de forma cruzada (consulte la ilustración siguiente).You would need a dataset, an untrained model, and a Cross-Validate Model module (see figure below). De nuevo, debe establecer la columna de etiqueta del módulo Evaluar modelo de forma cruzada (en este caso, índice 5 de columna).Again you need to set the label column of the Cross-Validate Model module (column index 5 in this case). Después de ejecutar el experimento y hacer clic en el puerto de salida derecho de Validar modelo de forma cruzada, puede inspeccionar los valores de métricas de cada subconjunto, así como las desviaciones media y estándar.After running the experiment and clicking the right output port of the Cross-Validate Model, you can inspect the metric values for each fold as well as the mean and standard deviation. Las métricas que se muestran aquí son similares a las descritas en el caso de clasificación binaria.The metrics displayed here are the similar to the ones discussed in the binary classification case. Sin embargo, en la clasificación multiclase, se realiza el cálculo de los positivos y negativos verdaderos, y de los falsos positivos y negativos con un recuento por clase, ya que no existe ninguna clase general positiva o negativa.However, in multiclass classification, computing the true positives/negatives and false positives/negatives is done by counting on a per-class basis, as there is no overall positive or negative class. Por ejemplo, al calcular la precisión o la recuperación de la clase 'Iris-setosa', se supone que se trata de la clase positiva y que todas las demás son negativas.For example, when computing the precision or recall of the 'Iris-setosa' class, it is assumed that this is the positive class and all others as negative.

Validación cruzada de un modelo de clasificación multiclase

Ilustración 12.Figure 12. Validación cruzada de un modelo de clasificación multiclase.Cross-Validating a Multiclass Classification Model.

Resultados de una validación cruzada de un modelo de clasificación multiclase

Ilustración 13.Figure 13. Resultados de una validación cruzada de un modelo de clasificación multiclase.Cross-Validation Results of a Multiclass Classification Model.