Análise de componente principal

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Computar um conjunto de recursos com dimensionalidade reducisa para aprendizado mais eficiente

Categoria: Transformação de Dados/Exemplo e Divisão

Observação

Aplica-se a: Machine Learning Studio (clássico) somente

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

Este artigo descreve como usar o módulo Análise de Componente Principal no Machine Learning Studio (clássico) para reduzir a dimensionalidade dos dados de treinamento. O módulo analisa seus dados e cria um conjunto de recursos reduzido que captura todas as informações contidas no conjunto de dados, mas em um número menor de recursos.

O móduo também cria uma transformação que você pode aplicar aos novos dados, para alcançar uma redução semelhante na dimensionalidade e compressão de recursos, sem a necessidade de treinamento adicional.

Mais informações sobre Análise de Componente Principal

A PCA (Análise de Componente Principal) é uma técnica popular no aprendizado de máquina. Ele se baseia no fato de que muitos tipos de dados de espaço de vetor são compactados e que a compactação pode ser alcançada com mais eficiência pela amostragem.

Os benefícios adicionais da PCA são a visualização de dados aprimorada e a otimização do uso de recursos pelo algoritmo de aprendizado.

O módulo Análise de Componente Principal no Machine Learning Studio (clássico) pega um conjunto de colunas de recursos no conjunto de dados fornecido e cria uma projeção do espaço de recursos que tem menor dimensionalidade. O algoritmo usa técnicas de randomização para identificar um subespaço de recurso que captura a maioria das informações na matriz de recursos completa. Portanto, as matrizes de dados transformadas capturam a variação nos dados originais, reduzindo o efeito do ruído e minimizando o risco de sobreajuste.

Para obter informações gerais sobre a PCA (análise de componente principal), consulte este artigo da Wikipédia. Para obter informações sobre as abordagens PCA usadas neste módulo, consulte estes artigos:

Como configurar a análise de componente principal

  1. Adicione o módulo Análise de Componente Principal ao seu experimento. Você pode encontrá-lo em Em Transformação de Dados, na categoria Escala e Redução.

  2. Conexão o conjuntos de dados que você deseja transformar e escolha as colunas de recurso a analisar.

    Se ainda não estiver claro quais colunas são recursos e quais são rótulos, recomendamos que você use o módulo Editar Metadados para marcar as colunas com antecedência.

  3. Número de dimensões a reduzir: digite o número desejado de colunas na saída final. Cada coluna representa uma dimensão capturando parte das informações nas colunas de entrada.

    Por exemplo, se o conjuntos de dados de origem tiver oito colunas 3e você digitar , três novas colunas serão retornadas que capturam as informações das oito colunas selecionadas. As colunas são denominadas Col1, Col2e Col3. Essas colunas não são mapeado diretamente para as colunas de origem; em vez disso, as colunas contêm uma aproximação do espaço de recurso descrito pelas colunas originais de 1 a 8.

    Dica

    O algoritmo funciona de forma ideal quando o número de dimensões reduzidas é muito menor do que as dimensões originais.

  4. Normalizar o conjuntos de dados densos para uma média zero: selecione essa opção se o conjuntos de dados for denso, o que significa que ele contém alguns valores ausentes. Se selecionado, o módulo normaliza os valores nas colunas para uma média de zero antes de qualquer outro processamento.

    Para conjuntos de dados esparsos, essa opção não deve ser selecionada. Se um conjuntos de dados esparso for detectado, o parâmetro será substituído.

  5. Execute o experimento.

Resultados

O módulo gera um conjunto reduzido de colunas que você pode usar na criação de um modelo. Você pode salvar a saída como um novo conjuntos de dados ou usá-la em seu experimento.

Opcionalmente, você pode salvar o processo de análise como uma transformação salva para aplicar a outro conjuntos de dados usando Aplicar Transformação.

O conjuntos de dados a que você aplica a transformação deve ter o mesmo esquema que o conjuntos de dados original.

Exemplos

Para exemplos de como a Análise de Componente Principal é usada no aprendizado de máquina, consulte o Galeria de IA do Azure:

  • Clustering: encontrar empresas semelhantes: usa a Análise de Componente Principal para reduzir o número de valores de mineração de texto para um número gerenciável de recursos.

    Embora neste exemplo o PCA seja aplicado usando um script R personalizado, ele ilustra como o PCA normalmente é usado.

Observações técnicas

Há dois estágios para a computação dos componentes tridimensionais.

  • A primeira é construir um subespaço de baixa dimensão que captura a ação da matriz.
  • A segunda é restringir a matriz ao subespaço e, em seguida, calcular uma fatorização padrão da matriz reduzida.

Entradas esperadas

Nome Tipo Descrição
Dataset Tabela de Dados Conjunto de dados cujas dimensões devem ser reduzidas

Parâmetros do módulo

Nome Tipo Intervalo Opcional Descrição Padrão
Colunas Selecionadas ColumnSelection Obrigatório Colunas selecionadas para aplicar o PCA
Número de dimensões para reduzir Inteiro >=1 Necessária O número de dimensões desejado no conjunto de dados menor
Normalizar conjunto de dados denso para média zero Boolean Obrigatório true Indicar se as colunas de entrada serão médias normalizadas para conjuntos de dados condensados (para parâmetro de dados esparsos é ignorado)

Saídas

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Conjunto de dados com dimensões reduzidas
Transformação do PCA Interface ITransform Transformação que quando aplicada ao conjunto de dados fornecerá dimensões reduzidas ao novo conjunto de dados

Exceções

Exceção Descrição
Erro 0001 Ocorrerá uma exceção se uma ou mais das colunas especificadas do conjunto de dados não puder ser encontrada.
Erro 0003 Ocorrerá uma exceção se uma ou mais das entradas for nula ou estiver vazia.
Erro 0004 Ocorrerá uma exceção se o parâmetro for inferior ou igual ao valor específico.

para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.

para obter uma lista de exceções de api, consulte Machine Learning códigos de erro da api REST.

Confira também

Exemplo e divisão
Seleção de recursos