¿Qué son los Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters?What are Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters?

Se aplica a:Applies to: síSQL Server 2019 (15.x)SQL Server 2019 (15.x)yesSQL Server 2019 (15.x)SQL Server 2019 (15.x)Se aplica a:Applies to: síSQL Server 2019 (15.x)SQL Server 2019 (15.x)yesSQL Server 2019 (15.x)SQL Server 2019 (15.x)

A partir de SQL Server 2019 (15.x)SQL Server 2019 (15.x), los Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters ahora permiten implementar clústeres escalables de contenedores de SQL Server, Spark y HDFS que se ejecutan en Kubernetes.Starting with SQL Server 2019 (15.x)SQL Server 2019 (15.x), Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters allow you to deploy scalable clusters of SQL Server, Spark, and HDFS containers running on Kubernetes. Estos componentes se ejecutan en paralelo con objeto de que se puedan leer, escribir y procesar macrodatos de Transact-SQL o Spark, lo que permite combinar y analizar fácilmente los datos relacionales de alto valor con grandes volúmenes de datos.These components are running side by side to enable you to read, write, and process big data from Transact-SQL or Spark, allowing you to easily combine and analyze your high-value relational data with high-volume big data.

Use Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters para:Use Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters to:

  • Implementación de clústeres escalables de contenedores de SQL Server, Spark y HDFS que se ejecutan en Kubernetes.Deploy scalable clusters of SQL Server, Spark, and HDFS containers running on Kubernetes.
  • Leer, escribir y procesar macrodatos desde Transact-SQL o Spark.Read, write, and process big data from Transact-SQL or Spark.
  • Combinar y analizar de forma sencilla datos relacionales de alto valor con macrodatos de gran volumen.Easily combine and analyze high-value relational data with high-volume big data.
  • Consultar orígenes de datos externos.Query external data sources.
  • Almacenar macrodatos en HDFS administrados mediante SQL Server.Store big data in HDFS managed by SQL Server.
  • Consultar datos de varios orígenes de datos externos a través del clúster.Query data from multiple external data sources through the cluster.
  • Usar los datos para tareas de inteligencia artificial, aprendizaje automático y otras tareas de análisis.Use the data for AI, machine learning, and other analysis tasks.
  • Implementar y ejecutar aplicaciones en Clústeres de macrodatosBig Data Clusters.Deploy and run applications in Clústeres de macrodatosBig Data Clusters.
  • Virtualización de datos con PolyBase.Virtualize data with PolyBase. Consulte datos de orígenes de datos externos de SQL Server, Oracle, Teradata, MongoDB y ODBC con tablas externas.Query data from external SQL Server, Oracle, Teradata, MongoDB, and ODBC data sources with external tables.
  • Proporcione alta disponibilidad para la instancia maestra de SQL Server y todas las bases de datos mediante la tecnología de grupos de disponibilidad AlwaysOn.Provide high availability for the SQL Server master instance and all databases by using Always On availability group technology.

Para obtener más información sobre las nuevas características y los problemas conocidos de la versión más reciente, consulte las notas de la versión.For more information about new features and known issues for latest release, see the release notes.

EscenariosScenarios

Los Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters ofrecen flexibilidad a la hora de interactuar con los macrodatos.Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters provide flexibility in how you interact with your big data. Puede consultar orígenes de datos externos, almacenar macrodatos en HDFS administrados por SQL Server o consultar datos de varios orígenes de datos externos a través del clúster.You can query external data sources, store big data in HDFS managed by SQL Server, or query data from multiple external data sources through the cluster. Luego puede usar los datos en tareas de inteligencia artificial, aprendizaje automático y otras tareas de análisis.You can then use the data for AI, machine learning, and other analysis tasks. En las secciones siguientes se proporciona más información sobre estos escenarios.The following sections provide more information about these scenarios.

Virtualización de datosData virtualization

Al aprovechar PolyBase, las instancias de Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters pueden consultar orígenes de datos externos sin necesidad de mover o copiar los datos.By leveraging PolyBase, Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters can query external data sources without moving or copying the data. SQL Server 2019 (15.x)SQL Server 2019 (15.x) introduce nuevos conectores para orígenes de datos.introduces new connectors to data sources.

Virtualización de datos

Data LakeData lake

Un clúster de macrodatos de SQL Server incluye un bloque de almacenamiento de HDFS escalable.A SQL Server big data cluster includes a scalable HDFS storage pool. Se puede usar para almacenar macrodatos, que pueden ingerirse de varios orígenes externos.This can be used to store big data, potentially ingested from multiple external sources. Una vez que los macrodatos se almacenan en HDFS en el clúster de macrodatos, se puede analizar y consultar los datos y combinarlos con los datos relacionales.Once the big data is stored in HDFS in the big data cluster, you can analyze and query the data and combine it with your relational data.

Data Lake

Data mart de escalado horizontalScale-out data mart

Los Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters ofrecen almacenamiento y procesos de escalabilidad horizontal para mejorar el rendimiento del análisis de los datos.Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters provide scale-out compute and storage to improve the performance of analyzing any data. Se pueden ingerir y distribuir datos procedentes de diversos orígenes en varios nodos de grupo de datos como caché para su análisis posterior.Data from a variety of sources can be ingested and distributed across data pool nodes as a cache for further analysis.

DataMart

IA y Machine Learning integradasIntegrated AI and Machine Learning

Los Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters permiten realizar tareas de aprendizaje automático y de inteligencia artificial en los datos almacenados en bloques de almacenamiento de HDFS y en los grupos de datos.Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters enable AI and machine learning tasks on the data stored in HDFS storage pools and the data pools. Puede usar Spark y las herramientas de inteligencia artificial integradas en SQL Server, con R, Python, Scala o Java.You can use Spark as well as built-in AI tools in SQL Server, using R, Python, Scala, or Java.

IA y ML

Administración y supervisiónManagement and Monitoring

Se ofrece administración y supervisión mediante una combinación de herramientas de línea de comandos, interfaces API, portales y vistas de administración dinámica.Management and monitoring are provided through a combination of command line tools, APIs, portals, and dynamic management views.

Puede usar Azure Data Studio para realizar diversas tareas en el clúster de macrodatos:You can use Azure Data Studio to perform a variety of tasks on the big data cluster:

  • Fragmentos de código integrados para las tareas de administración comunes.Built-in snippets for common management tasks.
  • Capacidad de examinar HDFS, cargar archivos, obtener una vista previa de los archivos y crear directorios.Ability to browse HDFS, upload files, preview files, and create directories.
  • Capacidad para crear, abrir y ejecutar cuadernos compatibles con Jupyter.Ability to create, open, and run Jupyter-compatible notebooks.
  • Asistente para la virtualización de datos para simplificar la creación de orígenes de datos externos (habilitado por la Extensión de virtualización de datos ).Data virtualization wizard to simplify the creation of external data sources (enabled by the Data Virtualization Extension ).

ArquitecturaArchitecture

Un clúster de macrodatos SQL Server es un clúster de contenedores de Linux organizados por Kubernetes.A SQL Server big data cluster is a cluster of Linux containers orchestrated by Kubernetes.

Conceptos de KubernetesKubernetes concepts

Kubernetes es un orquestador de contenedores de código abierto, que puede escalar las implementaciones de contenedores según sea necesario.Kubernetes is an open source container orchestrator, which can scale container deployments according to need. En la tabla siguiente se define alguna terminología importante de Kubernetes:The following table defines some important Kubernetes terminology:

TérminoTerm DescripciónDescription
ClústerCluster Un clúster de Kubernetes es un conjunto de máquinas, conocidas como nodos.A Kubernetes cluster is a set of machines, known as nodes. Un nodo controla el clúster y se designa como nodo maestro; los nodos restantes son nodos de trabajo.One node controls the cluster and is designated the master node; the remaining nodes are worker nodes. El maestro de Kubernetes es responsable de distribuir el trabajo entre los nodos de trabajo y de supervisar el estado del clúster.The Kubernetes master is responsible for distributing work between the workers, and for monitoring the health of the cluster.
NodeNode Un nodo ejecuta aplicaciones en contenedores.A node runs containerized applications. Puede ser una máquina física o una máquina virtual.It can be either a physical machine or a virtual machine. Un clúster de Kubernetes puede contener una combinación de nodos de máquina física y de máquina virtual.A Kubernetes cluster can contain a mixture of physical machine and virtual machine nodes.
PodPod Un pod es la unidad de implementación atómica de Kubernetes.A pod is the atomic deployment unit of Kubernetes. Un pod es un grupo lógico de uno o más contenedores y recursos asociados necesarios para ejecutar una aplicación.A pod is a logical group of one or more containers-and associated resources-needed to run an application. Cada pod se ejecuta en un nodo; un nodo puede ejecutar uno o varios pods.Each pod runs on a node; a node can run one or more pods. El maestro de Kubernetes asigna pods automáticamente a los nodos del clúster.The Kubernetes master automatically assigns pods to nodes in the cluster.
 

En los Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters, Kubernetes es responsable del estado de los Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters; Kubernetes compila y configura los nodos del clúster, asigna pods a los nodos y supervisa el estado del clúster.In Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters, Kubernetes is responsible for the state of the Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters; Kubernetes builds and configures the cluster nodes, assigns pods to nodes, and monitors the health of the cluster.

Arquitectura de clústeres de macrodatosBig data clusters architecture

En el diagrama siguiente se muestran los componentes de un clúster de macrodatos de SQL Server:The following diagram shows the components of a SQL Server big data cluster:

Información general sobre la arquitectura

ControladorController

El controlador proporciona seguridad y administración para el clúster.The controller provides management and security for the cluster. Contiene el servicio de control, el almacén de configuración y otros servicios en el nivel de clúster, como Kibana, Grafana y búsqueda elástica.It contains the control service, the configuration store, and other cluster-level services such as Kibana, Grafana, and Elastic Search.

Grupo de procesoCompute pool

El grupo de proceso proporciona recursos de cálculo al clúster.The compute pool provides computational resources to the cluster. Contiene nodos que ejecutan SQL Server en pods de Linux.It contains nodes running SQL Server on Linux pods. Los pods del grupo de proceso se dividen en instancias de proceso de SQL para tareas de procesamiento específicas.The pods in the compute pool are divided into SQL Compute instances for specific processing tasks.

Grupo de datosData pool

El grupo de datos se usa para el almacenamiento en caché y la persistencia de datos.The data pool is used for data persistence and caching. El grupo de datos consta de uno o varios pods que ejecutan SQL Server en Linux.The data pool consists of one or more pods running SQL Server on Linux. Se usa para ingerir datos de consultas SQL o trabajos de Spark.It is used to ingest data from SQL queries or Spark jobs. Los data marts del clúster de macrodatos de SQL Server se guardan en el grupo de datos.SQL Server big data cluster data marts are persisted in the data pool.

Bloque de almacenamientoStorage pool

El grupo de almacenamiento consiste en módulos de almacenamiento que se componen de SQL Server en Linux, Spark y HDFS.The storage pool consists of storage pool pods comprised of SQL Server on Linux, Spark, and HDFS. Todos los nodos de almacenamiento de un clúster de macrodatos de SQL Server son miembros de un clúster de HDFS.All the storage nodes in a SQL Server big data cluster are members of an HDFS cluster.

Sugerencia

Para obtener una visión detallada de la arquitectura y la instalación del clúster de macrodatos, consulte Workshop: Arquitectura de los Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters de Microsoft.For an in-depth look into big data cluster architecture and installation, see Workshop: Microsoft Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters Architecture.

Pasos siguientesNext steps

Para obtener más información sobre la implementación de Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters, consulte Introducción a Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters.For more information about deploying Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters, see Get started with Clústeres de macrodatos de SQL ServerSQL Server Big Data Clusters.