Identificación de escenarios y planeamiento del procesamiento analítico avanzado de datos
¿Qué recursos son necesarios para crear un entorno que pueda realizar el procesamiento de análisis avanzado en un conjunto de datos? En este artículo se sugiere una serie de preguntas que le pueden ayudar a identificar las tareas y los recursos pertinentes para su escenario.
Para aprender sobre el orden de los pasos de alto nivel para el análisis predictivo, consulte ¿Qué es el Proceso de ciencia de datos en equipo (TDSP)?. Cada paso requiere recursos específicos para las tareas pertinentes para su escenario concreto.
Responder preguntas clave en las áreas siguientes para identificar su escenario:
- logística de datos
- características de datos
- calidad del conjunto de datos
- herramientas y lenguajes preferidos
Cuestiones de logística: movimiento y ubicaciones de los datos
Las cuestiones logísticas tratan los siguientes elementos:
- ubicación de origen de datos
- destino de destino en Azure
- requisitos para mover los datos, incluida la programación, la cantidad y los recursos que están involucrados
Es posible que tenga que mover los datos varias veces durante el proceso de análisis. Un escenario común es mover datos locales a algún tipo de almacenamiento en Azure y, a continuación, en Machine Learning Studio.
¿Cuál es el origen de los datos?
¿Están los datos en local o en la nube? Entre las posibles ubicaciones se incluyen:
- una dirección HTTP disponible públicamente
- una ubicación de archivo local o de red
- una base de datos de SQL Server
- un contenedor de Azure Storage
¿Cuál es el destino en Azure?
¿Dónde tienen que estar los datos para procesarse o modelarse?
- Azure Blob Storage
- Bases de datos SQL Azure
- SQL Server en máquina virtual de Azure
- HDInsight (Hadoop en Azure) o tablas de Hive
- Azure Machine Learning
- Discos duros virtuales de Azure que se pueden montar
¿Cómo va a mover los datos?
Para los procedimientos y los recursos para ingerir o cargar datos en una variedad de entornos de almacenamiento y procesamiento diferentes, consulte:
- Carga de datos en entornos de almacenamiento para el análisis
- Importación de datos de entrenamiento en Azure Machine Learning Studio (clásico) desde varios orígenes de datos
¿Necesitan moverse los datos siguiendo una programación regular o modificarse durante la migración?
Considere el uso de Azure Data Factory (ADF) cuando los datos deban migrarse continuamente. ADF puede ser útil para:
- un escenario híbrido que implique recursos locales y en la nube
- un escenario donde los datos se transfieran, modifiquen o cambien por lógica de negocios mientras se migran
Para más información, consulte Movimiento de datos desde una base de datos de SQL Server hasta SQL Azure con Azure Data Factory.
¿Qué cantidad de datos se va a mover a Azure?
Los conjuntos de datos grandes pueden superar la capacidad de almacenamiento de ciertos entornos. Para ver un ejemplo, consulte la explicación de los límites de tamaño para Machine Learning Studio (clásico) en la sección siguiente. En tales casos, podría usarse una muestra de los datos durante el análisis. Para obtener más información sobre cómo reducir la muestra de un conjunto de datos en diversos entornos de Azure, consulte Muestreo de datos del proceso de ciencia de datos en equipos.
Cuestiones sobre las características de los datos: tipo, formato y tamaño
Estas cuestiones son clave para planear los entornos de almacenamiento y procesamiento. Le ayudarán a elegir el escenario adecuado para su tipo de datos y conocer todas las restricciones.
¿Cuáles son los tipos de datos?
- Numérico
- Categorías
- Cadenas
- Binary
¿Qué formato tienen los datos?
- Archivos sin formato separados por comas (CSV) o separados por tabulaciones (TSV)
- Comprimidos o sin comprimir
- Blobs de Azure
- Tablas de Hadoop Hive
- Tablas de SQL Server
¿Qué tamaño tienen los datos?
- Pequeño: menos de 2 GB
- Media: más de 2 GB y menos de 10 GB
- Grande: más de 10 GB
Veamos por ejemplo Azure Machine Learning Studio (clásico):
- Para obtener una lista de los formatos de datos y los tipos admitidos por Azure Machine Learning Studio, consulte la sección Tipos y formatos de datos admitidos .
- Para obtener más información sobre las limitaciones de otros servicios de Azure usados en el proceso de análisis, consulte Límites, cuotas y restricciones de suscripción y servicios de Microsoft Azure.
Cuestiones sobre la calidad de los datos: exploración y procesamiento previo
¿Qué sabe acerca de los datos?
Comprenda las características básicas de los datos:
- Qué patrones o tendencias muestran
- Qué valores atípicos tienen
- Cuántos valores faltan
Este paso es importante para ayudarle a:
- Determinar cuánto procesamiento previo es necesario
- Formular hipótesis que sugieren las características o el tipo de análisis más adecuado
- Formular planes para recopilar datos adicionales
Entre las técnicas útiles para la inspección de datos podemos citar el cálculo de estadísticas descriptivas y los trazados de visualizaciones. Para obtener más información sobre cómo explorar un conjunto de datos en diversos entornos de Azure, consulte Exploración de datos en el proceso de ciencia de datos en equipos.
¿Los datos requieren un procesamiento previo o una limpieza?
Es posible que deba preprocesar y limpiar los datos antes de poder usar eficazmente el conjunto de datos para el aprendizaje automático. Los datos sin procesar suelen ser ruidosos y no confiables. Les podrían faltar valores. El uso de estos datos para el modelado puede producir resultados engañosos. Para ver una descripción, consulte Tareas para preparar los datos para el aprendizaje automático mejorado.
Cuestiones sobre herramientas y lenguajes
Hay muchas opciones para lenguajes, entornos de desarrollo y herramientas. Sea consiente de sus necesidades y preferencias.
¿Qué lenguajes prefiere usar para el análisis?
- R
- Python
- SQL
¿Qué herramientas debe usar para analizar los datos?
- Microsoft Azure PowerShell: un lenguaje de script que se usa para administrar los recursos de Azure en un lenguaje de script
- Azure Machine Learning Studio
- Revolution Analytics
- RStudio
- Herramientas de Python para Visual Studio
- Anaconda
- Jupyter Notebooks
- Microsoft Power BI
Identificación del escenario de análisis avanzado
Después de haber respondido a las preguntas de la sección anterior, estará listo para determinar qué escenario se adapta mejor a su caso. Los escenarios de ejemplo que se describen en Escenarios para análisis avanzado en Azure Machine Learning.