Elección de una tecnología de análisis de datos en Azure
El objetivo de la mayoría de soluciones de macrodatos consiste en proporcionar información sobre los datos a través de análisis e informes. Esto puede incluir los informes preconfigurados y las visualizaciones, o la exploración de datos interactivos.
¿Cuáles son las opciones a la hora de elegir una tecnología de análisis de datos?
Hay varias opciones de generación de análisis, visualizaciones e informes en Azure dependiendo de sus necesidades:
Power BI
Power BI es un conjunto de herramientas de análisis de negocios. Puede conectarse a cientos de orígenes de datos y se puede usar para el análisis ad-hoc. Consulte esta lista de los orígenes de datos disponibles actualmente. Use Power BI Embedded para integrar Power BI dentro de sus propias aplicaciones sin necesidad de ninguna licencia adicional.
Las organizaciones pueden usar Power BI para generar informes y publicarlos en la organización. Todos los usuarios pueden crear paneles personalizados, con gobernanza y seguridad integradas. Power BI usa Azure Active Directory (Azure AD) para autenticar a los usuarios que inician sesión en el servicio Power BI, y utiliza las credenciales de inicio de sesión de Power BI cada vez que un usuario intenta acceder a los recursos que requieren autenticación.
Cuadernos de Jupyter Notebook
Jupyter Notebooks proporciona un shell basado en el explorador que permite a los científicos de datos crear archivos de cuaderno que contienen código Python, Scala o R, y texto Markdown, lo cual lo convierte en una herramienta eficaz de colaboración a través del uso compartido y la documentación del código y los resultados en un único documento.
La mayoría de las variedades de clústeres de HDInsight, como Spark o Hadoop, ya vienen preconfiguradas con Jupyter Notebooks para interactuar con datos y enviar trabajos para su procesamiento. Según el tipo de clúster de HDInsight que use, se proporcionarán uno o varios kernels para interpretar y ejecutar el código. Por ejemplo, los clústeres de Spark en HDInsight proporcionan kernels relacionados con Spark entre los que puede seleccionar para ejecutar código Python o Scala con el motor de Spark.
Jupyter Notebooks proporciona un entorno estupendo para analizar, visualizar y procesar los datos antes de generar visualizaciones más avanzadas con una herramienta de inteligencia empresarial o de informes como Power BI.
Zeppelin Notebooks
Zeppelin Notebooks es otra opción de un shell basado en el explorador parecida a la funcionalidad de Jupyter. Algunos clústeres de HDInsight vienen preconfigurados con Zeppelin Notebooks. Sin embargo, si usa un clúster de HDInsight Interactive Query (Hive LLAP), Zeppelin es la única opción de cuaderno que puede usar actualmente para ejecutar consultas interactivas de Hive. Además, si usa un clúster de HDInsight unido a un dominio, Zeppelin Notebooks es el único tipo que le permite asignar inicios de sesión de usuario diferentes para controlar el acceso a los cuadernos y a las tablas subyacentes de Hive.
Microsoft Azure Notebooks
Azure Notebooks es un servicio en línea basado en Jupyter Notebooks que permite a los científicos de datos crear, ejecutar y compartir instancias de Jupyter Notebooks en bibliotecas basadas en la nube. Azure Notebooks proporciona entornos de ejecución para Python 2, Python 3, F# y R y proporciona varias bibliotecas de gráficos para visualizar los datos como ggplot, matplotlib, bokeh y seaborn.
A diferencia de las instancias de Jupyter Notebooks que se ejecutan en un clúster de HDInsight y se conectan a la cuenta de almacenamiento predeterminada del clúster, Azure Notebooks no proporciona ningún dato. Puede cargar datos de varias formas como, por ejemplo, descargar los datos de un origen en línea, interactuar con Azure Blobs o Table Storage, conectarse con SQL Database o cargar datos con el asistente para copia de Azure Data Factory.
Ventajas principales:
- Servicio gratis: no se necesita una suscripción de Azure.
- No es necesario instalar Jupyter ni las distribuciones compatibles de R o Python de forma local. Simplemente use un explorador.
- Administre sus propias bibliotecas en línea y acceda a ellas desde cualquier dispositivo.
- Comparta los cuadernos con colaboradores.
Consideraciones:
- No podrá acceder a los cuadernos cuando esté sin conexión.
- Las funcionalidades de procesamiento limitadas del servicio gratuito de cuadernos puede que no sean suficientes para entrenar modelos grandes o complejos.
Principales criterios de selección
Para restringir las opciones, empiece por responder a estas preguntas:
¿Necesita conectarse a varios orígenes de datos y proporcionar un lugar centralizado para crear informes de datos propagados por todo el dominio? Si es así, elija una opción que le permita conectarse a 100s de orígenes de datos.
¿Desea insertar visualizaciones dinámicas en un sitio web o aplicación externos? Si es así, elija una opción que proporcione funcionalidades de inserción.
¿Quiere diseñar las visualizaciones y los informes cuando está sin conexión? En caso afirmativo, elija una opción que disponga de funcionalidades sin conexión.
¿Necesita una gran capacidad de procesamiento para entrenar modelos de inteligencia artificial grandes o complejos o trabajar con conjuntos de datos muy grandes? En caso afirmativo, elija una opción en la que pueda conectarse a un clúster de macrodatos.
Matriz de funcionalidades
En las tablas siguientes se resumen las diferencias clave en cuanto a funcionalidades.
Funcionalidades generales
| Capacidad | Power BI | Cuadernos de Jupyter Notebook | Zeppelin Notebooks | Microsoft Azure Notebooks |
|---|---|---|---|---|
| Conexión a clúster de macrodatos para procesamiento avanzado | Sí | Sí | Sí | No |
| Servicio administrado | Sí | Sí 1 | Sí 1 | Sí |
| Conexión a 100s de orígenes de datos | Sí | No | No | No |
| Funcionalidades sin conexión | Sí 2 | No | No | No |
| Funcionalidades de inserción | Sí | No | No | No |
| Actualización de datos automática | Sí | No | No | No |
| Acceso a numerosos paquetes de código abierto | No | Sí 3 | Sí 3 | Sí 4 |
| Opciones de transformación y limpieza de datos | Power Query, R | 40 lenguajes, incluidos Python, R, Julia y Scala | Más de 20 intérpretes, incluidos Python, JDBC y R | Python, F#, R |
| Precios | Es gratis para Power BI Desktop (creación), consulte los precios de las opciones de hospedaje | Gratuito | Gratuito | Gratuito |
| Colaboración multiusuario | Sí | Sí (mediante el uso compartido o con un servidor multiusuario como JupyterHub) | Sí | Sí (mediante el uso compartido) |
[1] Cuando se utiliza como parte de un clúster de HDInsight administrado.
[2] Con el uso de Power BI Desktop.
[2] Puede buscar el repositorio Maven para obtener paquetes en los que contribuyó la comunidad.
[3] Los paquetes de Python se pueden instalar a través de pip o conda. Los paquetes de R se pueden instalar desde CRAN o GitHub. Los paquetes en F # se pueden instalar a través de nuget.org mediante el administrador de dependencias Paket.