Análisis de componentes principales

Artículo
05/06/2019

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
Más información sobre Azure Machine Learning.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Calcula un conjunto de características con dimensionalidad reducida para un aprendizaje más eficaz

Categoría: Transformación de datos/ Muestra y división

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo Análisis de componentes principales en Machine Learning Studio (clásico) para reducir la dimensionalidad de los datos de entrenamiento. El módulo analiza los datos y crea un conjunto de características reducido que captura toda la información contenida en el conjunto de datos, pero en un número menor de características.

El módulo también crea una transformación que se puede aplicar a los datos nuevos, para lograr una reducción similar en las características de dimensionalidad y compresión sin necesidad de un entrenamiento adicional.

Más información acerca del análisis de componentes principales

El análisis de componentes principales (PCA) es una técnica popular en el aprendizaje automático. Se basa en el hecho de que muchos tipos de datos de espacio vectorial se pueden comprimir y que la compresión se puede lograr de forma más eficaz mediante el muestreo.

Las ventajas agregadas de PCA son la visualización de datos mejorada y la optimización del uso de recursos por parte del algoritmo de aprendizaje.

El módulo Análisis de componentes principales de Machine Learning Studio (clásico) toma un conjunto de columnas de características en el conjunto de datos proporcionado y crea una proyección del espacio de características que tiene una dimensionalidad inferior. El algoritmo usa técnicas de selección aleatoria para identificar un subespacio de características que captura la mayor parte de la información de la matriz de características completa. Por lo tanto, las matrices de datos transformados capturan la varianza en los datos originales a la vez que reducen el efecto del ruido y minimizan el riesgo de sobreajuste.

Para obtener información general sobre el análisis de componentes principales (PCA), consulte este artículo de Wikipedia. Para obtener información sobre los enfoques de PCA usados en este módulo, consulte estos artículos:

Buscar estructura con aleatoriedad: algoritmos probabilísticos para construir descomposicións de matriz aproximadas. Hanko, Martinsson y Tropp, 2010.
Combinación de aleatoriedad estructurada y no estructurada en PCA a gran escala Combinar aleatoriedad estructurada y no estructurada en PCA a gran escala. Wampatziakis y Minepersonal, 2013.

Configuración del análisis de componentes de entidad de seguridad

Agregue el módulo Análisis de componentes principales al experimento. Puede encontrarlo en en Transformación de datos, en la categoría Escala y reducción.
Conectar el conjunto de datos que desea transformar y elija las columnas de características que desea analizar.

Si aún no está claro qué columnas son características y cuáles son etiquetas, se recomienda usar el módulo Editar metadatos para marcar las columnas de antemano.
Número de dimensiones a las que reducir: escriba el número deseado de columnas en la salida final. Cada columna representa una dimensión que captura parte de la información de las columnas de entrada.

Por ejemplo, si el conjunto de datos de origen 3tiene ocho columnas y escribe , se devuelven tres columnas nuevas que capturan la información de las ocho columnas seleccionadas. Las columnas se denominan Col1, Col2y Col3. Estas columnas no se asignan directamente a las columnas de origen; en su lugar, las columnas contienen una aproximación del espacio de características descrito por las columnas originales 1 a 8.

Sugerencia

El algoritmo funciona de forma óptima cuando el número de dimensiones reducidas es mucho menor que las dimensiones originales.
Normalizar el conjunto de datos denso a cero media: seleccione esta opción si el conjunto de datos es denso, lo que significa que contiene pocos valores que faltan. Si se selecciona, el módulo normaliza los valores de las columnas a una media de cero antes de cualquier otro procesamiento.

En el caso de los conjuntos de datos dispersos, no se debe seleccionar esta opción. Si se detecta un conjunto de datos disperso, se invalida el parámetro .
Ejecute el experimento.

Results

El módulo genera un conjunto reducido de columnas que puede usar para crear un modelo. Puede guardar la salida como un nuevo conjunto de datos o usarla en el experimento.

Opcionalmente, puede guardar el proceso de análisis como una transformación guardada para aplicarlo a otro conjunto de datos mediante Aplicar transformación.

El conjunto de datos al que aplica la transformación debe tener el mismo esquema que el conjunto de datos original.

Ejemplos

Para obtener ejemplos de cómo se usa el análisis de componentes principales en el aprendizaje automático, consulte el Azure AI Gallery:

Agrupación en clústeres: buscar compañías similares: usa el análisis de componentes principales para reducir el número de valores de la minería de texto a un número administrable de características.

Aunque en este PCA de ejemplo se aplica mediante un script de R personalizado, muestra cómo se suele usar PCA.

Notas técnicas

Hay dos fases para el cálculo de los componentes dimensionales inferiores.

La primera es construir un subespacio de baja dimensionalidad que capture la acción de la matriz.
La segunda es restringir la matriz al subespacio y, a continuación, calcular una factorización estándar de la matriz reducida.

Entradas esperadas

Nombre	Tipo	Descripción
Dataset	Tabla de datos	Conjunto de datos cuyas dimensiones van a reducirse

Parámetros del módulo

Nombre	Tipo	Intervalo	Opcional	Descripción	Valor predeterminado
Columnas seleccionadas	ColumnSelection		Obligatorio		Columnas seleccionadas a las que se va a aplicar el PCA
Número de dimensiones al que se va a reducir	Entero	>=1	Obligatorio		Número de dimensiones deseadas en el conjunto de datos reducido
Normalizar el conjunto de datos denso a la media cero	Boolean		Obligatorio	true	Indique si las columnas de entrada se normalizarán con respecto a la media para los conjuntos de datos densos (para el parámetro de datos dispersos se omite)

Salidas

Nombre	Tipo	Descripción
Conjunto de datos de resultados	Tabla de datos	Conjunto de datos con dimensiones reducidas
Transformación del PCA	Interfaz ITransform	Transformación que, al aplicarse al conjunto de datos, proporcionará un nuevo conjunto de datos con dimensiones reducidas

Excepciones

Excepción	Descripción
Error 0001	Se produce una excepción si no se encontraron una o más columnas especificadas del conjunto de datos.
Error 0003	Se produce una excepción si una o varias de las entradas son NULL o están vacías.
Error 0004	Se produce una excepción si el parámetro es menor o igual que el valor especificado.

Para obtener una lista de errores específicos de los módulos de Studio (clásico), consulte Machine Learning códigos de error.

Para obtener una lista de excepciones de API, consulte Machine Learning códigos de error de la API REST.

Consulte también

Muestrear y dividir
Selección de características