¿Qué es Azure Databricks Workspace?

Azure Databricks Workspace es una plataforma de análisis basada en Apache Spark. Azure Databricks Workspace está integrado con Azure para proporcionar una configuración con un solo clic, flujos de trabajo optimizados y un área de trabajo interactiva que permite la colaboración entre ingenieros de datos, científicos de datos e ingenieros de aprendizaje automático.

¿Qué es Azure Databricks?

Para una canalización de macrodatos, los datos (estructurados o sin formato) se ingieren en Azure mediante Azure Data Factory en lotes o transmitidos casi en tiempo real con Apache Kafka, Event Hub o IoT Hub. Estos datos llegan a un lago de datos para un almacenamiento persistente a largo plazo en Azure Blob Storage o Azure Data Lake Storage. Como parte del flujo de trabajo de análisis, use Azure Databricks para leer datos desde varios orígenes de datos, como Azure Blob Storage, Azure Data Lake Storage, Azure Cosmos DB o Azure SQL Data Warehouse, y convertirlos en conclusiones importante sobre el uso de Spark.

Canalización de Databricks

Plataforma de análisis de Apache Spark

Azure Databricks Workspace consta de todas las tecnologías y funcionalidades de un clúster de Apache Spark de código abierto. Spark en Azure Databricks Workspace incluye los siguientes componentes:

Apache Spark en Azure Databricks

  • Spark SQL y DataFrames: Spark SQL es el módulo de Spark para trabajar con datos estructurados. Una trama de datos es una colección distribuida de datos que se organizan en columnas con nombre. Es conceptualmente equivalente a una tabla en una base de datos relacional o a una trama de datos en R/Python.

  • Streaming: procesamiento y análisis de datos en tiempo real para aplicaciones analíticas e interactivas. Se integra con HDFS, Flume y Kafka.

  • MLlib: biblioteca de Machine Learning que consta de algoritmos y utilidades de aprendizaje comunes, como la clasificación, la regresión, la agrupación en clústeres, el filtrado colaborativo, la reducción de dimensionalidad y las primitivas de optimización subyacentes.

  • GraphX: grafos y cálculo de grafos para una amplia gama de casos de uso, desde los análisis cognitivos hasta la exploración de datos.

  • Spark Core API: incluye compatibilidad con R, SQL, Python, Scala y Java.

Apache Spark en Azure Databricks Workspace

Azure Databricks Workspace se basa en las funcionalidades de Spark para proporcionar una plataforma en la nube sin administración que incluye:

  • Clústeres de Spark completamente administrados
  • Un área de trabajo interactiva de exploración y visualización
  • Una plataforma para activar las aplicaciones de Spark favoritas

Clústeres de Apache Spark completamente administrados en la nube

Azure Databricks tiene un entorno de producción seguro y confiable en la nube, administrado y con el soporte técnico de expertos en Spark. Puede:

  • Crear clústeres en segundos.
  • Escalar y reducir clústeres automática y dinámicamente en vertical y compartirlos entre equipos.
  • Usar clústeres mediante programación al invocar las API REST.
  • Utilizar funcionalidades seguras de integración de datos basadas en Spark que permiten unificar los datos sin centralización.
  • Acceder inmediatamente a las últimas características de Apache Spark con cada versión.

Entorno de tiempo de ejecución de Databricks

Databricks Runtime se basa en Apache Spark y se ha creado de forma nativa para la nube de Azure.

Azure Databricks abstrae completamente la complejidad de la infraestructura y la necesidad de experiencia especializada para instalar y configurar la infraestructura de datos.

Para los ingenieros de datos, a quienes interesa el rendimiento de las tareas de producción, Azure Databricks proporciona un motor de Spark más rápido y eficiente gracias a varias optimizaciones en la capa de E/S y la de procesamiento (Databricks E/S).

Área de trabajo para la colaboración

A través de un entorno de colaboración integrado, Azure Databricks optimiza el proceso de exploración de datos, la creación de prototipos y la ejecución de aplicaciones basadas en datos en Spark.

  • Determine cómo usar los datos con una exploración de datos sencilla.
  • Documente el progreso en blocs de notas en R, Python, Scala o SQL.
  • Visualice los datos en unos clics y use herramientas conocidas como Matplotlib, ggplot o d3.
  • Use paneles interactivos para crear informes dinámicos.
  • Use Spark e interactúe con los datos al mismo tiempo.

Seguridad de la empresa

Azure Databricks Workspace proporciona seguridad empresarial de Azure, incluida la integración de Azure Active Directory, controles basados en roles y Acuerdos de Nivel de Servicio que protegen los datos y la empresa.

  • La integración con Azure Active Directory permite ejecutar soluciones completas basadas en Azure con Azure Databricks.
  • El acceso basado en roles de Azure Databricks permite permisos de usuario específicos para los cuadernos, los clústeres, los trabajos y los datos.
  • Acuerdos de Nivel de Servicio de clase empresarial.

Importante

Azure Databricks Workspace es un servicio propio de Microsoft Azure que se implementa en la infraestructura global de la nube pública de Azure. Todas las comunicaciones entre los componentes del servicio, incluidas aquellas entre las direcciones IP públicas del plano de control y el plano de datos del cliente, permanecen dentro de la red troncal de Microsoft Azure. Consulte también Red global de Microsoft.

Integración con servicios de Azure

Azure Databricks Workspace se integra totalmente con los almacenes y las bases de datos de Azure: Synapse Analytics, Cosmos DB, Data Lake Store y Blob Storage.

Integración con Power BI

Mediante la integración enriquecida con Power BI, Azure Databricks Workspace permite detectar y compartir información potente de manera rápida y sencilla. También puede usar otras herramientas de BI, como Tableau Software.

Pasos siguientes