¿Qué es Azure HDInsight?

Artículo
12/05/2023

Azure HDInsight es un servicio de análisis, de código abierto, espectro completo y totalmente administrado en la nube para empresas. Con HDInsight, puede usar plataformas de código abierto, como Apache Spark, Apache Hive, LLAP, Apache Kafka, Hadoop, etc., en el entorno de Azure.

¿Qué son HDInsight y la pila de tecnología de Hadoop?

Azure HDInsight es una plataforma de clúster administrado que facilita la ejecución de marcos de macrodatos como Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Hadoop y otros en su entorno de Azure. Está diseñado para controlar grandes volúmenes de datos con alta velocidad y eficiencia.

¿Por qué debo usar Azure HDInsight?

Capacidad	Descripción
Nativo en la nube	Azure HDInsight permite crear clústeres optimizados para Spark, Interactive Query (LLAP), Kafka, HBase y Hadoop en Azure. HDInsight también proporciona un Acuerdo de Nivel de Servicio de un extremo a otro en las cargas de trabajo de producción.
Rentable y escalable	HDInsight le permite escalar o reducir verticalmente las cargas de trabajo. Puede reducir el costo mediante la creación de clústeres a petición y pagar solo por lo que se utiliza. También puede compilar canalizaciones de datos para poner en marcha los trabajos. El procesamiento y el almacenamiento desacoplados ofrecen un mejor rendimiento y flexibilidad.
Seguro y conforme	HDInsight le permite proteger los recursos de datos empresariales con Azure Virtual Network, cifrado e integración con Microsoft Entra ID. HDInsight también cumple con los estándares de cumplimiento normativo más conocidos del sector y de la administración.
Supervisión	Azure HDInsight se integra con los registros de Azure Monitor para proporcionar una única interfaz con la que puede supervisar todos los clústeres.
Disponibilidad global	HDInsight está disponible en más regiones que ninguna otra oferta de análisis de macrodatos. También está disponible en Azure Government, China y Alemania, lo que le permite satisfacer las necesidades de su empresa en áreas soberanas clave.
Productividad	Azure HDInsight le permite usar herramientas de productividad muy completas de Hadoop y Spark con los entornos de desarrollo que prefiera. Estos entornos de desarrollo incluyen Visual Studio, VSCode, Eclipse e IntelliJ para la compatibilidad con Scala, Python, Java y .NET.
Extensibilidad	Puede ampliar los clústeres de HDInsight con componentes instalados (Hue, Presto, etc.) mediante acciones de script, la incorporación de nodos perimetrales o la integración con otras aplicaciones certificadas de macrodatos. HDInsight le permite una integración sin problemas con las soluciones de macrodatos más conocidas con una implementación con un solo clic.

¿Qué son grandes volúmenes de datos?

Los macrodatos se recopilan en volúmenes de escala a una mayor velocidad y con una variedad de formatos nunca vista. Pueden ser históricos (es decir, almacenados) o en tiempo real (es decir, transferidos directamente desde el origen). Consulte Escenarios de uso de HDInsight para más información sobre los casos de uso más habituales para macrodatos.

Tipos de clúster de HDInsight

HDInsight incluye tipos de clúster concretos y funcionalidades de personalización del clúster, tales como la de agregar componentes, utilidades y lenguajes. HDInsight ofrece los siguientes tipos de clúster:

Tipo de clúster	Descripción	Introducción
Apache Hadoop	una plataforma que utiliza HDFS, administración de recursos YARN y un modelo de programación de MapReduce simple para procesar y analizar datos por lotes en paralelo.	Creación de un clúster de Apache Hadoop
Spark de Apache	plataforma de procesamiento paralelo de código abierto que admite el procesamiento en memoria para mejorar el rendimiento de las aplicaciones de análisis de macrodatos. Consulte ¿qué es Apache Spark en HDInsight?	Creación de un clúster de Apache Spark
Apache HBase	base de datos NoSQL en Hadoop que proporciona acceso aleatorio y coherencia fuerte para grandes cantidades de datos no estructurados y semiestructurados; potencialmente miles de millones de filas multiplicadas por millones de columnas. Consulte ¿qué es HBase en HDInsight?	Creación de un clúster de Apache HBase
Consulta interactiva de Apache	almacenamiento en caché en memoria para realizar consultas de Hive interactivas y más rápidas. Consulte Uso de Interactive Query en HDInsight.	Creación de un clúster de Interactive Query
Apache Kafka	Una plataforma de código abierto que se usa para crear canalizaciones y aplicaciones de datos de streaming. Kafka también proporciona funcionalidad de cola de mensajes que le permite publicar flujos de datos y suscribirse a ellos. Consulte Introducción a Apache Kafka en HDInsight.	Creación de un clúster de Apache Kafka

Escenarios de uso de HDInsight

Azure HDInsight se puede usar para varios escenarios de procesamiento de macrodatos. Pueden ser datos históricos (datos ya recopilados y almacenados) o datos en tiempo real (datos que se transmiten directamente desde el origen). Los escenarios de procesamiento de tales datos se pueden resumir en las siguientes categorías:

Procesamiento por lotes (ETL)

El de extracción, transformación y carga (ETL) es un proceso en el que se extraen datos estructurados o no estructurados de orígenes de datos heterogéneos. Estos datos se transforman a un formato estructurado y se cargan en un almacén de datos. Los datos transformados se pueden usar para ciencia de datos o almacenamiento de datos.

Almacenamiento de datos

Puede usar HDInsight para realizar consultas interactivas a escalas de petabytes sobre datos estructurados o no estructurados en cualquier formato. También puede generar modelos conectándolos a herramientas de BI.

HDInsight architecture: Data warehousing.

Internet de las cosas (IoT)

Puede usar HDInsight para procesar los datos de streaming recibidos en tiempo real desde diferentes tipos de dispositivos. Para más información, lea esta entrada de blog de Azure que anuncia la versión preliminar pública de Apache Kafka en HDInsight con Azure Managed Disks.

Screenshot of the HDInsight architecture: Internet of Things.

Híbrido

Puede usar HDInsight para ampliar la infraestructura local de macrodatos existente en Azure para aplicar las funcionalidades avanzadas de análisis en la nube.

HDInsight architecture: Hybrid.

Componentes de código abierto en HDInsight

Azure HDInsight permite crear clústeres con marcos de código abierto, como Spark, Hive, LLAP, Kafka, Hadoop y HBase. De forma predeterminada, estos clústeres incluyen varios componentes de código abierto, como Apache Ambari, Avro, Apache Hive3, HCatalog, Apache Hadoop MapReduce, Apache Hadoop YARN, Apache Phoenix, Apache Pig, Apache Sqoop, Apache Tez, Apache Oozie y Apache ZooKeeper.

Lenguajes de programación en HDInsight

Los clústeres de HDInsight, como Spark, HBase, Kafka, Hadoop, etc, admiten muchos lenguajes de programación. Aunque algunos no están instalados de manera predeterminada. En el caso de las bibliotecas, los módulos o los paquetes que no se instalan de manera predeterminada, instale el componente con una acción de script.

Lenguaje de programación	Información
Compatibilidad con lenguajes de programación predeterminados	De forma predeterminada, los clústeres de HDInsight admiten lo siguiente: Java Python .NET Go
Lenguajes de la máquina virtual de Java (JVM)	Muchos lenguajes distintos de Java se pueden ejecutar en una máquina virtual de Java (JVM). Sin embargo, si ejecuta algunos de estos lenguajes, puede que tenga que instalar más componentes en el clúster. Los siguientes lenguajes basados en JVM son compatibles con clústeres de HDInsight: Clojure Jython (Python para Java) Scala
Lenguajes específicos de Hadoop	Los clústeres de HDInsight son compatibles con los siguientes lenguajes específicos de la pila de tecnología de Hadoop: Pig Latin para trabajos de Pig HiveQL para trabajos de Hive y SparkSQL

Herramientas de desarrollo para HDInsight

Puede usar herramientas de desarrollo de HDInsight, como IntelliJ, Eclipse, Visual Studio Code y Visual Studio, para crear y enviar trabajos y consultas de datos de HDInsight con una integración perfecta con Azure.

Azure Toolkit for IntelliJ 10
Azure Toolkit for Eclipse 6
Herramientas de Azure HDInsight para VS Code 13
Herramientas de Azure Data Lake para Visual Studio 9

Inteligencia empresarial en HDInsight

Las herramientas de Business Intelligence (BI) habituales recuperan, analizan y generan informes de datos que se integran en HDInsight con el complemento Power Query o Microsoft Hive ODBC Driver:

Residencia de datos en la región

Spark, Hadoop y LLAP no almacenan datos del cliente, por lo que estos servicios satisfacen automáticamente los requisitos de residencia de los datos en la región especificados en el Centro de confianza.

Kafka y HBase almacenan datos de los clientes. Kafka y HBase almacenan estos datos automáticamente en una sola región, por lo que este servicio satisface los requisitos de residencia de datos en la región especificados en el Centro de confianza.

Las herramientas de inteligencia empresarial (BI) habituales recuperan, analizan y generan informes de datos que se integran en HDInsight con el complemento Power Query o Microsoft Hive ODBC Driver.

Pasos siguientes

Create Apache Hadoop cluster in HDInsight (Creación de un clúster de Apache Hadoop en HDInsight)
Creación de un clúster de Apache Spark: Portal
Seguridad empresarial en Azure HDInsight