¿Qué es Azure Databricks?What is Azure Databricks?

Azure Databricks es una plataforma de análisis basada en Apache Spark optimizada para la plataforma de servicios en la nube de Microsoft Azure.Azure Databricks is an Apache Spark-based analytics platform optimized for the Microsoft Azure cloud services platform. Diseñada por los fundadores de Apache Spark, Databricks está integrado con Azure para proporcionar una configuración con un solo clic, flujos de trabajo optimizados y un área de trabajo interactiva que permite la colaboración entre científicos de datos, ingenieros de datos y analistas empresariales.Designed with the founders of Apache Spark, Databricks is integrated with Azure to provide one-click setup, streamlined workflows, and an interactive workspace that enables collaboration between data scientists, data engineers, and business analysts.

¿Qué es Azure Databricks? What is Azure Databricks?

Azure Databricks es un servicio de análisis rápido, sencillo y de colaboración basado en la plataforma de análisis Apache Spark.Azure Databricks is a fast, easy, and collaborative Apache Spark-based analytics service. Para una canalización de macrodatos, los datos (estructurados o sin formato) se ingieren en Azure mediante Azure Data Factory en lotes o transmitidos casi en tiempo real con Kafka, Event Hub o IoT Hub.For a big data pipeline, the data (raw or structured) is ingested into Azure through Azure Data Factory in batches, or streamed near real-time using Kafka, Event Hub, or IoT Hub. Estos datos llegan a un lago de datos para un almacenamiento persistente a largo plazo en Azure Blob Storage o Azure Data Lake Storage.This data lands in a data lake for long term persisted storage, in Azure Blob Storage or Azure Data Lake Storage. Como parte del flujo de trabajo de análisis, use Azure Databricks para leer datos desde varios orígenes de datos, como Azure Blob Storage, Azure Data Lake Storage, Azure Cosmos DB o Azure SQL Data Warehouse, y convertirlos en conclusiones importante sobre el uso de Spark.As part of your analytics workflow, use Azure Databricks to read data from multiple data sources such as Azure Blob Storage, Azure Data Lake Storage, Azure Cosmos DB, or Azure SQL Data Warehouse and turn it into breakthrough insights using Spark.

Canalización de Databricks

Plataforma de análisis basada en Apache SparkApache Spark-based analytics platform

Azure Databricks consta de las tecnologías y funcionalidades de clúster de Apache Spark de código abierto integrales.Azure Databricks comprises the complete open-source Apache Spark cluster technologies and capabilities. En Azure Databricks, Spark incluye los siguientes componentes:Spark in Azure Databricks includes the following components:

Apache Spark en Azure DatabricksApache Spark in Azure Databricks

  • Spark SQL y DataFrames: Spark SQL es el módulo de Spark para trabajar con datos estructurados.Spark SQL and DataFrames: Spark SQL is the Spark module for working with structured data. Una trama de datos es una colección distribuida de datos que se organizan en columnas con nombre.A DataFrame is a distributed collection of data organized into named columns. Es conceptualmente equivalente a una tabla en una base de datos relacional o a una trama de datos en R/Python.It is conceptually equivalent to a table in a relational database or a data frame in R/Python.

  • Streaming: procesamiento y análisis de datos en tiempo real para aplicaciones analíticas e interactivas.Streaming: Real-time data processing and analysis for analytical and interactive applications. Se integra con HDFS, Flume y Kafka.Integrates with HDFS, Flume, and Kafka.

  • MLib: biblioteca de Machine Learning que consta de algoritmos y utilidades de aprendizaje comunes, como la clasificación, la regresión, la agrupación en clústeres, el filtrado colaborativo, la reducción de dimensionalidad y las primitivas de optimización subyacentes.MLib: Machine Learning library consisting of common learning algorithms and utilities, including classification, regression, clustering, collaborative filtering, dimensionality reduction, as well as underlying optimization primitives.

  • GraphX: grafos y cálculo de grafos para una amplia gama de casos de uso, desde los análisis cognitivos hasta la exploración de datos.GraphX: Graphs and graph computation for a broad scope of use cases from cognitive analytics to data exploration.

  • Spark Core API: incluye compatibilidad con R, SQL, Python, Scala y Java.Spark Core API: Includes support for R, SQL, Python, Scala, and Java.

Apache Spark en Azure DatabricksApache Spark in Azure Databricks

Azure Databricks proporciona una plataforma en la nube sin administración basada en las funcionalidades de Spark que incluye:Azure Databricks builds on the capabilities of Spark by providing a zero-management cloud platform that includes:

  • Clústeres de Spark completamente administradosFully managed Spark clusters
  • Un área de trabajo interactiva de exploración y visualizaciónAn interactive workspace for exploration and visualization
  • Una plataforma para activar las aplicaciones favoritas basadas en SparkA platform for powering your favorite Spark-based applications

Clústeres de Apache Spark completamente administrados en la nubeFully managed Apache Spark clusters in the cloud

Azure Databricks tiene un entorno de producción seguro y confiable en la nube, administrado y con el soporte técnico de expertos en Spark.Azure Databricks has a secure and reliable production environment in the cloud, managed and supported by Spark experts. Puede:You can:

  • Crear clústeres en segundos.Create clusters in seconds.
  • Escalar y reducir clústeres automática y dinámicamente en vertical (clústeres sin servidor incluidos) y compartirlos entre equipos.Dynamically autoscale clusters up and down, including serverless clusters, and share them across teams.
  • Usar clústeres mediante programación con las API de REST.Use clusters programmatically by using the REST APIs.
  • Utilizar funcionalidades seguras de integración de datos basadas en Spark que permiten unificar los datos sin centralización.Use secure data integration capabilities built on top of Spark that enable you to unify your data without centralization.
  • Acceder inmediatamente a las últimas características de Apache Spark con cada versión.Get instant access to the latest Apache Spark features with each release.

Entorno de tiempo de ejecución de DatabricksDatabricks Runtime

El entorno de tiempo de ejecución de Databricks se basa en Apache Spark y se ha creado de forma nativa para la nube de Azure.The Databricks Runtime is built on top of Apache Spark and is natively built for the Azure cloud.

Con la opción Serverless (Sin servidor), Azure Databricks elimina completamente la complejidad de la infraestructura y la necesidad de experiencia especializada para instalar y configurar la infraestructura de datos.With the Serverless option, Azure Databricks completely abstracts out the infrastructure complexity and the need for specialized expertise to set up and configure your data infrastructure. La opción Serverless (Sin servidor) ayuda a los científicos de datos a iterar rápidamente como equipo.The Serverless option helps data scientists iterate quickly as a team.

Para los ingenieros de datos, a quienes interesa el rendimiento de las tareas de producción, Azure Databricks proporciona un motor de Spark más rápido y eficiente gracias a varias optimizaciones en la capa de E/S y la de procesamiento (Databricks E/S).For data engineers, who care about the performance of production jobs, Azure Databricks provides a Spark engine that is faster and performant through various optimizations at the I/O layer and processing layer (Databricks I/O).

Área de trabajo para la colaboraciónWorkspace for collaboration

A través de un entorno de colaboración integrado, Azure Databricks optimiza el proceso de exploración de datos, la creación de prototipos y la ejecución de aplicaciones basadas en datos en Spark.Through a collaborative and integrated environment, Azure Databricks streamlines the process of exploring data, prototyping, and running data-driven applications in Spark.

  • Determine cómo usar los datos con una exploración de datos sencilla.Determine how to use data with easy data exploration.
  • Documente el progreso en blocs de notas en R, Python, Scala o SQL.Document your progress in notebooks in R, Python, Scala, or SQL.
  • Visualice los datos en unos clics y use herramientas conocidas como Matplotlib, ggplot o d3.Visualize data in a few clicks, and use familiar tools like Matplotlib, ggplot, or d3.
  • Use paneles interactivos para crear informes dinámicos.Use interactive dashboards to create dynamic reports.
  • Use Spark e interactúe con los datos al mismo tiempo.Use Spark and interact with the data simultaneously.

Seguridad de la empresaEnterprise security

Azure Databricks proporciona seguridad empresarial de Azure, incluida la integración de Azure Active Directory, controles basados en roles y Acuerdos de Nivel de Servicio que protegen los datos y la empresa.Azure Databricks provides enterprise-grade Azure security, including Azure Active Directory integration, role-based controls, and SLAs that protect your data and your business.

  • La integración con Azure Active Directory permite ejecutar soluciones completas basadas en Azure con Azure Databricks.Integration with Azure Active Directory enables you to run complete Azure-based solutions using Azure Databricks.
  • El acceso basado en roles de Azure Databricks permite permisos de usuario específicos para los cuadernos, los clústeres, los trabajos y los datos.Azure Databricks roles-based access enables fine-grained user permissions for notebooks, clusters, jobs, and data.
  • Acuerdos de Nivel de Servicio de clase empresarial.Enterprise-grade SLAs.

Integración con servicios de AzureIntegration with Azure services

Azure Databricks se integra totalmente con los almacenes y las bases de datos de Azure: SQL Data Warehouse, Cosmos DB, Data Lake Store y Blob Storage.Azure Databricks integrates deeply with Azure databases and stores: SQL Data Warehouse, Cosmos DB, Data Lake Store, and Blob Storage.

Integración con Power BIIntegration with Power BI

Mediante la integración enriquecida con Power BI, Azure Databricks permite detectar y compartir información potente de manera rápida y sencilla.Through rich integration with Power BI, Azure Databricks allows you to discover and share your impactful insights quickly and easily. También puede usar otras herramientas de BI, como Tableau Software, a través de puntos de conexión de clúster de JDBC/ODBC.You can use other BI tools as well, such as Tableau Software via JDBC/ODBC cluster endpoints.

Pasos siguientesNext steps