Análise principal de componentes

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Calcula um conjunto de funcionalidades com dimensionalidade reduzida para uma aprendizagem mais eficiente

Categoria: Transformação de Dados / Amostra e Divisão

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

Visão geral do módulo

Este artigo descreve como usar o módulo principal de análise de componentes em Machine Learning Studio (clássico) para reduzir a dimensionalidade dos seus dados de treino. O módulo analisa os seus dados e cria um conjunto de recursos reduzido que captura todas as informações contidas no conjunto de dados, mas num número menor de funcionalidades.

O módulo também cria uma transformação que pode aplicar a novos dados, para alcançar uma redução semelhante na dimensionalidade e compressão de funcionalidades, sem necessidade de formação adicional.

Mais sobre a Análise principal de Componentes

A Análise Principal de Componentes (APC) é uma técnica popular em machine learning. Baseia-se no facto de muitos tipos de dados do espaço vetorial serem compressíveis, e que a compressão pode ser alcançada de forma mais eficiente através da amostragem.

Os benefícios adicionais do APC são a visualização melhorada dos dados e a otimização do uso de recursos pelo algoritmo de aprendizagem.

O módulo principal de análise de componentes em Machine Learning Studio (clássico) pega num conjunto de colunas de funcionalidades no conjunto de dados fornecido, e cria uma projeção do espaço de funcionalidades que tem uma menor dimensionalidade. O algoritmo utiliza técnicas de aleatoriedade para identificar um subespaço de recurso que captura a maior parte da informação na matriz completa da funcionalidade. Assim, as matrizes de dados transformadas captam a variação nos dados originais, reduzindo o efeito do ruído e minimizando o risco de sobremontagem.

Para obter informações gerais sobre a análise principal de componentes (APC) consulte este artigo da Wikipédia. Para obter informações sobre as abordagens do APC utilizadas neste módulo, consulte estes artigos:

Como configurar a Análise principal de Componentes

  1. Adicione o módulo principal de análise de componentes à sua experiência. Pode encontrá-lo em transformação de dados, na categoria Escala e Redução .

  2. Ligação o conjunto de dados que pretende transformar e escolha as colunas de funcionalidades para analisar.

    Se ainda não estiver claro quais as colunas que são características e quais são as etiquetas, recomendamos que utilize o módulo editar metadados para marcar as colunas com antecedência.

  3. Número de dimensões a reduzir para: Digite o número desejado de colunas na saída final. Cada coluna representa uma dimensão que captura parte da informação nas colunas de entrada.

    Por exemplo, se o conjunto de dados de origem tiver oito colunas e escrever 3, são devolvidas três novas colunas que capturam a informação das oito colunas selecionadas. As colunas são chamadas Col1, Col2e Col3. Estas colunas não mapeiam diretamente para as colunas de origem; em vez disso, as colunas contêm uma aproximação do espaço de características descrito pelas colunas originais 1-8.

    Dica

    O algoritmo funciona perfeitamente quando o número de dimensões reduzidas é muito menor do que as dimensões originais.

  4. Normalize o conjunto de dados denso para zero: Selecione esta opção se o conjunto de dados for denso, o que significa que contém poucos valores em falta. Se selecionado, o módulo normaliza os valores nas colunas para uma média de zero antes de qualquer outro processamento.

    Para conjuntos de dados escassos, esta opção não deve ser selecionada. Se for detetado um conjunto de dados escasso, o parâmetro é ultrapassado.

  5. Execute a experimentação.

Resultados

O módulo produz um conjunto reduzido de colunas que pode utilizar na criação de um modelo. Pode guardar a saída como um novo conjunto de dados ou usá-la na sua experiência.

Opcionalmente, pode guardar o processo de análise como uma transformação guardada, para aplicar a outro conjunto de dados usando a Apply Transformation.

O conjunto de dados a que aplica a transformação deve ter o mesmo esquema que o conjunto de dados original.

Exemplos

Por exemplo, como a Análise principal de Componentes é utilizada na aprendizagem automática, consulte a Galeria Azure AI:

  • Agrupamento: Localizar Empresas Similares: Utiliza a Análise principal de Componentes para reduzir o número de valores da mineração de texto para um número manejável de funcionalidades.

    Embora nesta amostra o PCA seja aplicado usando um script R personalizado, ele ilustra como o PCA é normalmente usado.

Notas técnicas

Há duas fases para calcular os componentes de baixo dimensional.

  • A primeira é construir um subespaço de baixa dimensão que captura a ação da matriz.
  • A segunda é restringir a matriz ao subespaço e, em seguida, calcular uma factorização padrão da matriz reduzida.

Entradas esperadas

Nome Tipo Description
Conjunto de dados Tabela de Dados Conjunto de dados cujas dimensões devem ser reduzidas

Parâmetros do módulo

Nome Tipo Intervalo Opcional Descrição Predefinição
Colunas selecionadas Seleção de Colunas Necessário Colunas selecionadas para aplicar PCA a
Número de dimensões a reduzir para Número inteiro >=1 Necessário O número de dimensões desejadas no conjunto de dados reduzido
Normalizar conjunto de dados denso para zero significa Booleano Necessário true Indicar se as colunas de entrada serão normalizadas para conjuntos de dados densos (para o parâmetro de dados escassos é ignorado)

Saídas

Nome Tipo Description
Conjunto de dados de resultados Tabela de Dados Conjunto de dados com dimensões reduzidas
Transformação do PCA Interface ITransform Transformação que quando aplicada ao conjunto de dados dará um novo conjunto de dados com dimensões reduzidas

Exceções

Exceção Description
Erro 0001 A exceção ocorre se uma ou mais colunas especificadas de conjunto de dados não puderem ser encontradas.
Erro 0003 A exceção ocorre se uma ou mais entradas forem nulas ou vazias.
Erro 0004 A exceção ocorre se o parâmetro for inferior ou igual ao valor específico.

Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte Machine Learning Códigos de Erro.

Para obter uma lista de exceções da API, consulte Machine Learning CÓDIGOs de Erro da API REST.

Ver também

Amostra e Divisão
Seleção de Recursos