HDInsight en AKS: preguntas frecuentes

En este artículo se tratan algunas preguntas comunes sobre Azure HDInsight en AKS.

General

¿Qué es HDInsight en AKS?

HDInsight en AKS es una nueva versión de HDInsight, que proporciona un servicio de clúster administrado listo para la empresa con proyectos emergentes de análisis de código abierto como Apache Flink (para streaming), Trino (para análisis adhoc y BI) y Apache Spark. Para más información, consulte Información general.
¿Qué formas de clúster admite HDInsight en AKS?

HDInsight en AKS admite Trino, Apache Flink y Apache Spark para empezar. De cara al futuro, también planeamos admitir otras formas de clúster, como Kafka, Hive, etc...
Introducción a HDInsight en AKS

Para empezar, visite Azure Marketplace y busque Azure HDInsight en el servicio AKS y consulte introducción.
¿Qué ocurre con HDInsight existente en la máquina virtual y los clústeres que estoy ejecutando hoy?

No hay ningún cambio en HDInsight existente (HDInsight en la máquina virtual). Todos los clústeres existentes siguen ejecutándose y puede seguir creando y escalando nuevos clústeres de HDInsight.
¿Qué sistema operativo se admite con HDInsight en AKS?

HDInsight en AKS se basa en el sistema operativo Mariner. Para más información, consulte Control de versiones.
¿En qué regiones está disponible HDInsight en AKS?

Para ver una lista de las regiones admitidas, consulte Disponibilidad regional.
¿Cuál es el coste de implementar un clúster de HDInsight en AKS?

Para más información sobre los precios, consulte Precios de HDInsight en AKS.

¿Puedo ejecutar varios clústeres simultáneamente?

Sí, puede ejecutar tantos clústeres como desee por grupo de clústeres simultáneamente. Sin embargo, asegúrese de que no tiene una restricción por cuota para la suscripción. El número máximo de nodos permitidos en un grupo de clústeres es 250 en versión preliminar pública.
¿Puedo instalar o agregar más complementos o bibliotecas en mi clúster?

Sí, puede instalar complementos y bibliotecas personalizados según las formas del clúster.
- Para Trino, consulte Instalar complementos personalizados.
- Para Spark, consulte Administración de bibliotecas en Spark.
¿Puedo acceder mediante SSH a mi clúster?

Sí, puede conectarse mediante SSH al clúster a través de webssh y ejecutar consultas y enviar trabajos directamente desde allí.

¿Puedo usar un metastore externo para conectar a mi clúster?

Sí, puede usar un metastore externo. Sin embargo, Microsoft solo admite Azure SQL Database como metastore personalizado externo.
¿Puedo compartir un metastore entre varios clústeres?

Sí, puede compartir una tienda de metadatos en varias instancias de HDInsight de AKS.
¿Cuál es la versión de metastore de Hive compatible?

Metastore de Hive versión 3.1.2

¿Qué es Trino?

Trino es un motor de consultas SQL distribuido y federado de código abierto, que permite consultar datos que residen en orígenes de datos diferentes sin moverse a un almacenamiento de datos central. Puede consultar los datos mediante ANSI SQ. No necesita aprender un nuevo lenguaje. Para más información, consulte Introducción a Trino.
¿Qué admiten todos los conectores?

HDInsight en AKS de Trino admite varios conectores. Para obtener más información, consulte esta lista de conectores de Trino. Seguimos agregando nuevos conectores a medida que están disponibles en la versión de código abierto y en la forma en que lo están.
¿Puedo agregar catálogos a los clústeres existentes?

Sí, puede agregar catálogos admitidos al clúster existente. Para obtener más información, consulte Agregar catálogos a un clúster existente.

¿Qué es Apache Flink?

Apache Flink es un motor analítico de código abierto de primera clase para el procesamiento de flujos y la realización de cálculos con estado sobre flujos de datos sin enlazar y delimitados. Puede realizar cálculos a velocidad en memoria y a cualquier escala. Flink en HDInsight en AKS ofrece Apache Flink administrado de código abierto. Para más información, consulte Introducción a Flink.
¿Admite el modo de sesión y aplicación en Apache Flink?

En HDInsight en AKS, Flink admite actualmente clústeres de modo de sesión.
¿Qué es la administración de back-end de estado y cómo se lleva a cabo en HDInsight en AKS?

Los back-end determinan dónde se almacena el estado. Cuando se activa el punto de comprobación, el estado se conserva en los puntos de control para protegerse contra la pérdida de datos y recuperarse de forma coherente. La forma en que el estado se representa internamente y cómo y dónde se conservan en los puntos de control depende del back-end de estado elegido. Para más información, consulte Introducción a Flink

¿Qué es Apache Spark?

Apache Spark es un marco de procesamiento de datos que puede realizar rápidamente tareas de procesamiento en grandes conjuntos de datos y también puede distribuir tareas de procesamiento de datos entre varios equipos, ya sea por sí mismo o junto con otras herramientas de computación distribuida.
¿Qué API de lenguaje se admiten en Spark?

Azure HDInsight en AKS admite Python y Scala.
¿Se admite el metastore externo en HDInsight en AKS Spark?

HDInsight en AKS admite la conectividad externa de metastore. Actualmente solo se admite Azure SQL DB como metastore externo.
¿Cómo se pueden enviar trabajos en HDInsight en AKS Spark?

Puede enviar trabajos en HDInsight en AKS Spark mediante Jupyter Notebook, Zeppelin Notebook, SDK y terminal de clúster. Para obtener más información, consulte Enviar y administrar trabajos en un clúster de Spark en HDInsight en AKS