Asignación de datos a clústeres

Asigna datos a clústeres usando un modelo de agrupación en clústeres entrenado existente

Categoría: puntuación

Nota

Se aplica a: machine learning Studio (clásico)

Este contenido solo pertenece a Studio (clásico). Se han agregado módulos similares de arrastrar y colocar al diseñador de Azure Machine Learning. Obtenga más información en este artículo comparativa de las dos versiones.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo asignar datos a clústeres de Azure machine learning Studio (clásico) para generar predicciones mediante un modelo de agrupación en clústeres entrenado con el algoritmo de agrupación en clústeres K-means.

El módulo devuelve un conjunto de datos que contiene las asignaciones probables para cada nuevo punto de datos. También crea un gráfico PCA (análisis de componentes principales) para ayudarle a visualizar la dimensionalidad de los clústeres.

Advertencia

Este módulo reemplaza el módulo asignar a clústeres (en desuso), que solo está disponible para la compatibilidad con experimentos más antiguos.

Cómo utilizar Asignación de datos a clústeres

  1. En Azure Machine Learning Studio (clásico), busque un modelo de agrupación en clústeres entrenado previamente. Puede crear y entrenar un modelo de agrupación en clústeres con cualquiera de estos métodos:

    También puede agregar un modelo de agrupación en clústeres entrenado existente desde el grupo Modelos guardados en el área de trabajo.

  2. Adjunte el modelo entrenado al puerto de entrada izquierdo de Asignación de datos a clústeres.

  3. Adjunte un conjunto de datos nuevo como entrada. En este conjunto de datos, las etiquetas son opcionales. Por lo general, la agrupación en clústeres es un método de aprendizaje sin supervisión, por lo que no se espera que conozca las categorías de antemano.

    Sin embargo, las columnas de entrada deben ser iguales que las columnas que se usan para entrenar el modelo de agrupación en clústeres; de lo contrario, se produce un error.

    Sugerencia

    Para reducir el número de columnas de salida de las predicciones de clúster, use seleccionar columnas en el conjuntode resultados y seleccione un subconjunto de las columnas.

  4. Deje la opción Buscar anexar o desactivar solo el resultado seleccionado si desea que los resultados contengan el conjunto de datos de entrada completo, junto con una columna que indica los resultados (asignaciones de clúster).

    Si anula la selección de esta opción, obtendrá solo los resultados. Esto puede resultar útil al crear predicciones como parte de un servicio Web.

  5. Ejecute el experimento.

Results

El módulo asignar datos a clústeres devuelve dos tipos de resultados en la salida del conjunto de datos de resultados :

  • Para ver la separación de los clústeres en el modelo, haga clic en la salida del módulo y seleccione visualizar .

    Este comando muestra un gráfico de análisis de componentes principales (PCA) que asigna la colección de valores de cada clúster a dos ejes de componentes.

    • El primer eje de componentes es el conjunto combinado de características que capturan la mayor parte del modelo. Se traza en el eje x (componente principal 1).
    • El siguiente eje de componentes representa un conjunto combinado de características que es ortogonal al primer componente y que agrega la información siguiente al gráfico. Se traza en el eje y (componente principal 2).

    En el gráfico, puede ver la separación entre los clústeres y cómo se distribuyen los clústeres a lo largo de los ejes que representan los componentes principales.

  • Para ver la tabla de resultados de cada caso en los datos de entrada, adjunte el módulo convertir en conjunto de datos y visualice los resultados en Studio (clásico).

    Este conjunto de datos contiene las asignaciones de clúster para cada caso y una métrica de distancia que le da una indicación de la proximidad de este caso concreto al centro del clúster.

    Nombre de la columna de salida Descripción
    Assignments Índice de base cero que indica a qué clúster se ha asignado el punto de datos.
    DistancesToClusterCenter no. n Para cada punto de datos, este valor indica la distancia desde el punto de datos hasta el centro del clúster asignado y la distancia a otros clústeres.

    La métrica que se usa para calcular la distancia se determina cuando se configura el modelo de agrupación en clústeres K-means.

Entradas esperadas

Nombre Tipo Descripción
Modelo entrenado Interfaz ICluster Modelo de agrupación en clústeres entrenado
Dataset Tabla de datos Origen de datos de entrada

Parámetros del módulo

Nombre Tipo Intervalo Opcional Valor predeterminado Descripción
Solo anexar o resultado Obligatorio true Indicar si el conjunto de datos de salida debe contener el conjunto de datos de entrada, así como los resultados, o solo los resultados
Especificar el modo de barrido de parámetros Métodos de barrido Lista: toda la cuadrícula|barrido aleatorio Obligatorio Barrido aleatorio Barrer la cuadrícula completa en el espacio de parámetros o barrer usando un número limitado de ejecuciones de ejemplo

Salidas

Nombre Tipo Descripción
Conjunto de datos de resultados Tabla de datos Conjunto de datos de entrada anexado por columna de datos de asignaciones o solo columna de asignaciones

Excepciones

Excepción Descripción
Error 0003 Se produce una excepción si una o varias de las entradas son NULL o están vacías.

Consulte también

Agrupación en clústeres K-means
Puntuación