Atribuir dados a clusters

Artigo
05/06/2019

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
Saiba mais sobre o Azure Machine Learning.

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Atribui dados aos clusters que usam um modelo de clustering treinado existente

Categoria: Pontuação

Observação

Aplica-se a: Machine Learning Studio (clássico) somente

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

Este artigo descreve como usar o módulo Atribuir Dados a Clusters no Machine Learning Studio (clássico) para gerar previsões usando um modelo de clustering treinado usando o algoritmo de cluster K-Means.

O módulo retorna um conjuntos de dados que contém as atribuições prováveis para cada novo ponto de dados. Ele também cria um grafo PCA (Análise de Componente Principal) para ajudá-lo a visualizar a dimensionalidade dos clusters.

Aviso

Este módulo substitui o módulo Atribuir a Clusters (preterido), que está disponível apenas para suporte a experimentos mais antigos.

Como usar a atribuição de dados a clusters

No Machine Learning Studio (clássico), localize um modelo de clustering treinado anteriormente. Você pode criar e treinar um modelo de clustering usando um destes métodos:
- Configure o algoritmo K-means usando o módulo Clustering K-Means e treine o modelo usando um conjunto de dados e o módulo Treinar Modelo de Clustering .
- Configure uma variedade de opções para o algoritmo K-means usando Clustering K-Means e, em seguida, treine o modelo usando o módulo Clustering de Varredura.
Você também pode adicionar um modelo de clustering treinado existente do grupo modelos salvos em seu espaço de trabalho.
Anexe o modelo treinado à porta de entrada à esquerda de atribuir dados a clusters.
Anexe um novo conjunto de dados como entrada. Nesse conjunto de DataSet, os rótulos são opcionais. Em geral, o clustering é um método de aprendizado não supervisionado, portanto, não é esperado que você conheça as categorias com antecedência.

No entanto, as colunas de entrada devem ser iguais às colunas usadas no treinamento do modelo de clustering ou ocorre um erro.

Dica

Para reduzir o número de colunas de saída de previsões de cluster, use Selecionar Colunas no Conjunto de Dados e selecione um subconjunto das colunas.
Deixe a opção Verificar Anexar ou Desmarcar Somente Resultado selecionada se você quiser que os resultados contenham o conjunto de dados de entrada completo, junto com uma coluna que indica os resultados (atribuições de cluster).

Se você desmarcar essa opção, obterá apenas os resultados. Isso pode ser útil ao criar previsões como parte de um serviço Web.
Execute o experimento.

Resultados

O módulo Atribuir Dados a Clusters retorna dois tipos de resultados na saída do conjunto de dados Resultados :

Para ver a separação de clusters no modelo, clique na saída do módulo e selecione Visualizar

Esse comando exibe um grafo PCA (Análise de Componente Principal) que mapeia a coleção de valores em cada cluster para dois eixos de componente.
- O primeiro eixo do componente é o conjunto combinado de recursos que captura a maior variação no modelo. Ele é plotado no eixo x (Componente Principal 1).
- O próximo eixo de componente representa algum conjunto combinado de recursos que é ortogonal para o primeiro componente e que adiciona a próxima maioria das informações ao gráfico. Ele é plotado no eixo y (Componente Principal 2).
No grafo, você pode ver a separação entre os clusters e como os clusters são distribuídos ao longo dos eixos que representam os componentes principais.

Para exibir a tabela de resultados de cada caso nos dados de entrada, anexe o módulo Converter em Conjuntos de Dados e visualize os resultados no Studio (clássico).

Esse conjunto de dados contém as atribuições de cluster para cada caso e uma métrica de distância que fornece alguma indicação de como esse caso específico é próximo ao centro do cluster.

Nome da coluna de saída	Descrição
Atribuições	Um índice baseado em 0 que indica a qual cluster o ponto de dados foi atribuído.
DistancesToClusterCenter n. n	Para cada ponto de dados, esse valor indica a distância do ponto de dados até o centro do cluster atribuído e a distância para outros clusters. A métrica usada para calcular a distância é determinada quando você configura o modelo de clustering K-means.

Entradas esperadas

Nome	Tipo	Descrição
Modelo treinado	Interface ICluster	Modelo de clustering treinado
Dataset	Tabela de Dados	Fonte de dados de entrada

Parâmetros do módulo

Nome	Tipo	Intervalo	Opcional	Padrão	Descrição
Somente anexar ou resultado			Obrigatório	TRUE	Indique se o conjuntos de dados de saída deve conter o conjuntos de dados de entrada, bem como os resultados, ou apenas os resultados
Especifique o modo de varredura de parâmetro	Métodos de limpeza	Lista:grade inteira\| Limpeza aleatória	Necessária	Varredura aleatória	Varre toda a grade no espaço de parâmetro ou varre usando um número limitado de execuções de exemplo

Saídas

Nome	Tipo	Descrição
Conjunto de dados de resultados	Tabela de Dados	Conjunto de dados de entrada anexado por coluna de dados de atribuições ou somente coluna de atribuições

Exceções

Exceção	Descrição
Erro 0003	Ocorrerá uma exceção se uma ou mais das entradas for nula ou estiver vazia.

Confira também

Cluster K-Means
Pontuação