¿Qué son los Clústeres de macrodatos de SQL Server?

Se aplica a: síSQL Server 2019 (15.x)

A partir de SQL Server 2019 (15.x), los Clústeres de macrodatos de SQL Server ahora permiten implementar clústeres escalables de contenedores de SQL Server, Spark y HDFS que se ejecutan en Kubernetes. Estos componentes se ejecutan en paralelo con objeto de que se puedan leer, escribir y procesar macrodatos de Transact-SQL o Spark, lo que permite combinar y analizar fácilmente los datos relacionales de alto valor con grandes volúmenes de datos.

Use Clústeres de macrodatos de SQL Server para:

  • Implementación de clústeres escalables de contenedores de SQL Server, Spark y HDFS que se ejecutan en Kubernetes.
  • Leer, escribir y procesar macrodatos desde Transact-SQL o Spark.
  • Combinar y analizar de forma sencilla datos relacionales de alto valor con macrodatos de gran volumen.
  • Consultar orígenes de datos externos.
  • Almacenar macrodatos en HDFS administrados mediante SQL Server.
  • Consultar datos de varios orígenes de datos externos a través del clúster.
  • Usar los datos para tareas de inteligencia artificial, aprendizaje automático y otras tareas de análisis.
  • Implementar y ejecutar aplicaciones en Clústeres de macrodatos.
  • Virtualización de datos con PolyBase. Consulte datos de orígenes de datos externos de SQL Server, Oracle, Teradata, MongoDB y ODBC con tablas externas.
  • Proporcione alta disponibilidad para la instancia maestra de SQL Server y todas las bases de datos mediante la tecnología de grupos de disponibilidad AlwaysOn.

Para obtener más información sobre las nuevas características y los problemas conocidos de la versión más reciente, consulte las notas de la versión.

Para obtener más información sobre los clústeres de macrodatos, consulte Preguntas más frecuentes sobre los clústeres de macrodatos.

Escenarios

Los Clústeres de macrodatos de SQL Server ofrecen flexibilidad a la hora de interactuar con los macrodatos. Puede consultar orígenes de datos externos, almacenar macrodatos en HDFS administrados por SQL Server o consultar datos de varios orígenes de datos externos a través del clúster. Luego puede usar los datos en tareas de inteligencia artificial, aprendizaje automático y otras tareas de análisis. En las secciones siguientes se proporciona más información sobre estos escenarios.

Virtualización de datos

Al aprovechar PolyBase, las instancias de Clústeres de macrodatos de SQL Server pueden consultar orígenes de datos externos sin necesidad de mover o copiar los datos. SQL Server 2019 (15.x) introduce nuevos conectores para orígenes de datos.

Virtualización de datos

Data Lake

Un clúster de macrodatos de SQL Server incluye un bloque de almacenamiento de HDFS escalable. Se puede usar para almacenar macrodatos, que pueden ingerirse de varios orígenes externos. Una vez que los macrodatos se almacenan en HDFS en el clúster de macrodatos, se puede analizar y consultar los datos y combinarlos con los datos relacionales.

Data Lake

Data mart de escalado horizontal

Los Clústeres de macrodatos de SQL Server ofrecen almacenamiento y procesos de escalabilidad horizontal para mejorar el rendimiento del análisis de los datos. Se pueden ingerir y distribuir datos procedentes de diversos orígenes en varios nodos de grupo de datos como caché para su análisis posterior.

DataMart

IA y Machine Learning integradas

Los Clústeres de macrodatos de SQL Server permiten realizar tareas de aprendizaje automático y de inteligencia artificial en los datos almacenados en bloques de almacenamiento de HDFS y en los grupos de datos. Puede usar Spark y las herramientas de inteligencia artificial integradas en SQL Server, con R, Python, Scala o Java.

IA y ML

Administración y supervisión

Se ofrece administración y supervisión mediante una combinación de herramientas de línea de comandos, interfaces API, portales y vistas de administración dinámica.

Puede usar Azure Data Studio para realizar diversas tareas en el clúster de macrodatos:

  • Fragmentos de código integrados para las tareas de administración comunes.
  • Capacidad de examinar HDFS, cargar archivos, obtener una vista previa de los archivos y crear directorios.
  • Capacidad para crear, abrir y ejecutar cuadernos compatibles con Jupyter.
  • Asistente para la virtualización de datos para simplificar la creación de orígenes de datos externos (habilitado por la Extensión de virtualización de datos).

Arquitectura

Un clúster de macrodatos SQL Server es un clúster de contenedores de Linux organizados por Kubernetes.

Conceptos de Kubernetes

Kubernetes es un orquestador de contenedores de código abierto, que puede escalar las implementaciones de contenedores según sea necesario. En la tabla siguiente se define alguna terminología importante de Kubernetes:

Término Descripción
Clúster Un clúster de Kubernetes es un conjunto de máquinas, conocidas como nodos. Un nodo controla el clúster y se designa como nodo maestro; los nodos restantes son nodos de trabajo. El maestro de Kubernetes es responsable de distribuir el trabajo entre los nodos de trabajo y de supervisar el estado del clúster.
Node Un nodo ejecuta aplicaciones en contenedores. Puede ser una máquina física o una máquina virtual. Un clúster de Kubernetes puede contener una combinación de nodos de máquina física y de máquina virtual.
Pod Un pod es la unidad de implementación atómica de Kubernetes. Un pod es un grupo lógico de uno o más contenedores y recursos asociados necesarios para ejecutar una aplicación. Cada pod se ejecuta en un nodo; un nodo puede ejecutar uno o varios pods. El maestro de Kubernetes asigna pods automáticamente a los nodos del clúster.
 

En los Clústeres de macrodatos de SQL Server, Kubernetes es responsable del estado de los Clústeres de macrodatos de SQL Server; Kubernetes compila y configura los nodos del clúster, asigna pods a los nodos y supervisa el estado del clúster.

Arquitectura de clústeres de macrodatos

En el diagrama siguiente se muestran los componentes de un clúster de macrodatos de SQL Server:

Información general sobre la arquitectura

Controlador

El controlador proporciona seguridad y administración para el clúster. Contiene el servicio de control, el almacén de configuración y otros servicios en el nivel de clúster, como Kibana, Grafana y búsqueda elástica.

Grupo de proceso

El grupo de proceso proporciona recursos de cálculo al clúster. Contiene nodos que ejecutan SQL Server en pods de Linux. Los pods del grupo de proceso se dividen en instancias de proceso de SQL para tareas de procesamiento específicas.

Grupo de datos

El grupo de datos se usa para el almacenamiento en caché y la persistencia de datos. El grupo de datos consta de uno o varios pods que ejecutan SQL Server en Linux. Se usa para ingerir datos de consultas SQL o trabajos de Spark. Los data marts del clúster de macrodatos de SQL Server se guardan en el grupo de datos.

Bloque de almacenamiento

El grupo de almacenamiento consiste en módulos de almacenamiento que se componen de SQL Server en Linux, Spark y HDFS. Todos los nodos de almacenamiento de un clúster de macrodatos de SQL Server son miembros de un clúster de HDFS.

Sugerencia

Para obtener una visión detallada de la arquitectura y la instalación del clúster de macrodatos, consulte Workshop: Arquitectura de los Clústeres de macrodatos de SQL Server de Microsoft.

Pasos siguientes