Asignación de datos a clústeres

Artículo
05/06/2019

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
Más información sobre Azure Machine Learning.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Asigna datos a clústeres usando un modelo de agrupación en clústeres entrenado existente

Categoría: Puntuación

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo Asignar datos a clústeres en Machine Learning Studio (clásico) para generar predicciones mediante un modelo de agrupación en clústeres entrenado con el algoritmo de agrupación en clústeres K-Means.

El módulo devuelve un conjunto de datos que contiene las asignaciones probables para cada nuevo punto de datos. También crea un gráfico pca (análisis de componentes principales) para ayudarle a visualizar la dimensionalidad de los clústeres.

Advertencia

Este módulo reemplaza el módulo Asignar a clústeres (en desuso), que solo está disponible para admitir experimentos anteriores.

Cómo utilizar Asignación de datos a clústeres

En Machine Learning Studio (clásico), busque un modelo de agrupación en clústeres previamente entrenado. Puede crear y entrenar un modelo de agrupación en clústeres mediante cualquiera de estos métodos:
- Configure el algoritmo K-means mediante el módulo de agrupación en clústeres K-Means y, a continuación, entrena el modelo mediante un conjunto de datos y el módulo Train Clustering Model (Entrenar modelo de agrupación en clústeres).
- Configure un intervalo de opciones para el algoritmo K-means mediante la agrupación en clústeres K-Means y, a continuación, entrena el modelo mediante el módulo Barrido de clústeres .
También puede agregar un modelo de agrupación en clústeres entrenado existente desde el grupo Modelos guardados en el área de trabajo.
Adjunte el modelo entrenado al puerto de entrada izquierdo de Asignación de datos a clústeres.
Adjunte un conjunto de datos nuevo como entrada. En este conjunto de datos, las etiquetas son opcionales. Por lo general, la agrupación en clústeres es un método de aprendizaje no supervisado, por lo que no se espera que conozca las categorías de antemano.

Sin embargo, las columnas de entrada deben ser iguales que las columnas que se usan para entrenar el modelo de agrupación en clústeres; de lo contrario, se produce un error.

Sugerencia

Para reducir el número de columnas que se muestran a partir de predicciones de clúster, use Seleccionar columnas en el conjunto de datos y seleccione un subconjunto de las columnas.
Deje seleccionada la opción Comprobar anexar o Desactivar solo resultado si desea que los resultados contengan el conjunto de datos de entrada completo, junto con una columna que indique los resultados (asignaciones de clúster).

Si anula la selección de esta opción, solo se obtienen los resultados. Esto puede ser útil al crear predicciones como parte de un servicio web.
Ejecute el experimento.

Results

El módulo Asignar datos a clústeres devuelve dos tipos de resultados en la salida del conjunto de datos Resultados :

Para ver la separación de clústeres en el modelo, haga clic en la salida del módulo y seleccione Visualizar.

Este comando muestra un gráfico de análisis de componentes principales (PCA) que asigna la colección de valores de cada clúster a dos ejes de componente.
- El primer eje de componente es el conjunto combinado de características que captura la mayor varianza del modelo. Se traza en el eje X (componente principal 1).
- El siguiente eje de componentes representa un conjunto combinado de características que es ortogonal para el primer componente y que agrega la siguiente información al gráfico. Se traza en el eje Y (componente principal 2).
En el gráfico, puede ver la separación entre los clústeres y cómo se distribuyen los clústeres a lo largo de los ejes que representan los componentes principales.

Para ver la tabla de resultados de cada caso en los datos de entrada, adjunte el módulo Convertir en conjunto de datos y visualice los resultados en Studio (clásico).

Este conjunto de datos contiene las asignaciones de clúster para cada caso y una métrica de distancia que proporciona alguna indicación de la proximidad de este caso concreto al centro del clúster.

Nombre de la columna de salida	Descripción
Assignments	Índice basado en 0 que indica a qué clúster se asignó el punto de datos.
DistancesToClusterCenter no. n	Para cada punto de datos, este valor indica la distancia desde el punto de datos hasta el centro del clúster asignado y la distancia a otros clústeres. La métrica utilizada para calcular la distancia se determina al configurar el modelo de agrupación en clústeres K-means.

Entradas esperadas

Nombre	Tipo	Descripción
Modelo entrenado	Interfaz ICluster	Modelo de agrupación en clústeres entrenado
Dataset	Tabla de datos	Origen de datos de entrada

Parámetros del módulo

Nombre	Tipo	Intervalo	Opcional	Valor predeterminado	Descripción
Anexar o solo resultado			Obligatorio	true	Indique si el conjunto de datos de salida debe contener el conjunto de datos de entrada, así como los resultados, o solo los resultados.
Especificar el modo de barrido de parámetros	Métodos de barrido	Lista:Toda la cuadrícula\| Barrido aleatorio	Obligatorio	Barrido aleatorio	Barrer la cuadrícula completa en el espacio de parámetros o barrer usando un número limitado de ejecuciones de ejemplo

Salidas

Nombre	Tipo	Descripción
Conjunto de datos de resultados	Tabla de datos	Conjunto de datos de entrada anexado por columna de datos de asignaciones o solo columna de asignaciones

Excepciones

Excepción	Descripción
Error 0003	Se produce una excepción si una o varias de las entradas son NULL o están vacías.

Consulte también

Agrupación en clústeres K-Means
Puntuación