O que são Clusters de Big Data do SQL ServerSQL Server Big Data Clusters?What are Clusters de Big Data do SQL ServerSQL Server Big Data Clusters?

Aplica-se a:Applies to: simSQL Server 2019 (15.x)SQL Server 2019 (15.x)yesSQL Server 2019 (15.x)SQL Server 2019 (15.x)Aplica-se a:Applies to: simSQL Server 2019 (15.x)SQL Server 2019 (15.x)yesSQL Server 2019 (15.x)SQL Server 2019 (15.x)

No SQL Server 2019 (15.x)SQL Server 2019 (15.x) em diante, os Clusters de Big Data do SQL ServerSQL Server Big Data Clusters permitem implantar clusters escalonáveis de contêineres do SQL Server, do Spark e do HDFS em execução no Kubernetes.Starting with SQL Server 2019 (15.x)SQL Server 2019 (15.x), Clusters de Big Data do SQL ServerSQL Server Big Data Clusters allow you to deploy scalable clusters of SQL Server, Spark, and HDFS containers running on Kubernetes. Esses componentes são executados lado a lado para permitir que você leia, grave e processe Big Data do Transact-SQL ou do Spark, permitindo combinar e analisar facilmente seus dados relacionais de alto valor com Big Data de alto volume.These components are running side by side to enable you to read, write, and process big data from Transact-SQL or Spark, allowing you to easily combine and analyze your high-value relational data with high-volume big data.

SQL Server 2019 (15.x)SQL Server 2019 (15.x) apresenta os Clusters de Big Data do SQL Server.introduces SQL Server Big Data Clusters.

Use Clusters de Big Data do SQL Server para:Use SQL Server Big Data Clusters to:

  • Implantar clusters escalonáveis de contêineres do SQL Server, do Spark e do HDFS em execução no Kubernetes.Deploy scalable clusters of SQL Server, Spark, and HDFS containers running on Kubernetes.
  • Ler, gravar e processar Big Data do Transact-SQL ou do Spark.Read, write, and process big data from Transact-SQL or Spark.
  • Combine e analise facilmente dados relacionais de valor elevado com Big Data de volume grande.Easily combine and analyze high-value relational data with high-volume big data.
  • Consultar fontes de dados externas.Query external data sources.
  • Armazenar Big Data no HDFS gerenciado por SQL Server.Store big data in HDFS managed by SQL Server.
  • Consultar dados de várias fontes de dados externas por meio do cluster.Query data from multiple external data sources through the cluster.
  • Usar os dados para IA, aprendizado de máquina e outras tarefas de análise.Use the data for AI, machine learning, and other analysis tasks.
  • Implantar e executar aplicativos em Clusters de Big DataBig Data Clusters.Deploy and run applications in Clusters de Big DataBig Data Clusters.
  • Virtualizar dados com o PolyBase.Virtualize data with PolyBase. Consulte dados de SQL Server externos, Oracle, Teradata, MongoDB e fontes de dados ODBC com tabelas externas.Query data from external SQL Server, Oracle, Teradata, MongoDB, and ODBC data sources with external tables.
  • Forneça alta disponibilidade para a instância mestra do SQL Server e todos os bancos de dados usando a tecnologia de grupo de disponibilidade Always On.Provide high availability for the SQL Server master instance and all databases by using Always On availability group technology.

Para obter mais informações sobre os novos recursos e problemas conhecidos da versão mais recente, confira as notas sobre a versão.For more information about new features and known issues for latest release, see the release notes.

CenáriosScenarios

Os Clusters de Big Data do SQL ServerSQL Server Big Data Clusters fornecem flexibilidade na maneira como você interage com Big Data.Clusters de Big Data do SQL ServerSQL Server Big Data Clusters provide flexibility in how you interact with your big data. Você pode consultar fontes de dados externas, armazenar Big Data no HDFS gerenciado pelo SQL Server ou consultar dados de várias fontes de dados externas por meio do cluster.You can query external data sources, store big data in HDFS managed by SQL Server, or query data from multiple external data sources through the cluster. Depois, você pode usar os dados para IA, aprendizado de máquina e outras tarefas de análise.You can then use the data for AI, machine learning, and other analysis tasks. As seções a seguir fornecem mais informações sobre estes cenários.The following sections provide more information about these scenarios.

Virtualização de dadosData virtualization

Utilizando o SQL Server PolyBase, os Clusters de Big Data do SQL ServerSQL Server Big Data Clusters podem consultar fontes de dados externas sem mover nem copiar os dados.By leveraging SQL Server PolyBase, Clusters de Big Data do SQL ServerSQL Server Big Data Clusters can query external data sources without moving or copying the data. SQL Server 2019 (15.x)SQL Server 2019 (15.x) apresenta novos conectores para fontes de dados.introduces new connectors to data sources.

Virtualização de dados

Data LakeData lake

Um cluster de Big Data do SQL Server inclui um pool de armazenamento do HDFS escalonável.A SQL Server big data cluster includes a scalable HDFS storage pool. Ele pode ser usado para armazenar Big Data, potencialmente ingerido de várias fontes externas.This can be used to store big data, potentially ingested from multiple external sources. Após o Big Data ser armazenado no HDFS no cluster de Big Data, você poderá analisar e consultar os dados e combiná-los com os dados relacionais.Once the big data is stored in HDFS in the big data cluster, you can analyze and query the data and combine it with your relational data.

Data Lake

Data mart de expansãoScale-out data mart

Os Clusters de Big Data do SQL ServerSQL Server Big Data Clusters fornecem computação e armazenamento de expansão para melhorar o desempenho da análise de dados.Clusters de Big Data do SQL ServerSQL Server Big Data Clusters provide scale-out compute and storage to improve the performance of analyzing any data. Dados de diversas origens podem ser ingeridos e distribuídos entre nós do pool de dados como um cache para análise posterior.Data from a variety of sources can be ingested and distributed across data pool nodes as a cache for further analysis.

Data mart

IA e aprendizado de máquina integradosIntegrated AI and Machine Learning

Os Clusters de Big Data do SQL ServerSQL Server Big Data Clusters habilitam tarefas de IA e de aprendizado de máquina nos dados armazenados em pools de armazenamento HDFS e nos pools de dados.Clusters de Big Data do SQL ServerSQL Server Big Data Clusters enable AI and machine learning tasks on the data stored in HDFS storage pools and the data pools. Você pode usar o Spark, bem como ferramentas internas de IA no SQL Server, usando R, Python, Scala ou Java.You can use Spark as well as built-in AI tools in SQL Server, using R, Python, Scala, or Java.

IA e ML

Gerenciamento e monitoramentoManagement and Monitoring

O gerenciamento e o monitoramento são fornecidos por meio de uma combinação de ferramentas de linha de comando, APIs, portais e exibições de gerenciamento dinâmico.Management and monitoring are provided through a combination of command line tools, APIs, portals, and dynamic management views.

É possível usar o Azure Data Studio para executar uma variedade de tarefas no cluster de Big Data:You can use Azure Data Studio to perform a variety of tasks on the big data cluster:

  • Snippets internos para tarefas comuns de gerenciamento.Built-in snippets for common management tasks.
  • Capacidade de navegar no HDFS, carregar arquivos, visualizar arquivos e criar diretórios.Ability to browse HDFS, upload files, preview files, and create directories.
  • Capacidade de criar, abrir e executar notebooks compatíveis com Jupyter.Ability to create, open, and run Jupyter-compatible notebooks.
  • Assistente de virtualização de dados para simplificar a criação de fontes de dados externas (habilitadas pela Extensão de Virtualização de Dados).Data virtualization wizard to simplify the creation of external data sources (enabled by the Data Virtualization Extension).

ArquiteturaArchitecture

Um cluster de Big Data do SQL Server é um cluster de contêineres Linux orquestrados pelo Kubernetes.A SQL Server big data cluster is a cluster of Linux containers orchestrated by Kubernetes.

Conceitos do KubernetesKubernetes concepts

O Kubernetes é um orquestrador de contêineres de software livre que pode dimensionar implantações de contêiner de acordo com a necessidade.Kubernetes is an open source container orchestrator, which can scale container deployments according to need. A tabela a seguir define algumas terminologias importantes do Kubernetes:The following table defines some important Kubernetes terminology:

TermoTerm DescriçãoDescription
ClusterCluster Um cluster do Kubernetes é um conjunto de computadores, conhecidos como nós.A Kubernetes cluster is a set of machines, known as nodes. Um nó controla o cluster e é designado como nó mestre; os nós restantes são nós de trabalho.One node controls the cluster and is designated the master node; the remaining nodes are worker nodes. O mestre do Kubernetes é responsável por distribuir o trabalho entre os trabalhadores e por monitorar a integridade do cluster.The Kubernetes master is responsible for distributing work between the workers, and for monitoring the health of the cluster.
Node Um nó executa aplicativos em contêineres.A node runs containerized applications. Ele pode ser um computador físico ou uma máquina virtual.It can be either a physical machine or a virtual machine. Um cluster do Kubernetes pode conter uma combinação de nós de computadores físicos e de máquinas virtuais.A Kubernetes cluster can contain a mixture of physical machine and virtual machine nodes.
PodPod Um pod é a unidade de implantação atômica do Kubernetes.A pod is the atomic deployment unit of Kubernetes. Um pod é um grupo lógico de um ou mais contêineres – e recursos associados – necessários para executar um aplicativo.A pod is a logical group of one or more containers-and associated resources-needed to run an application. Cada pod é executado em um nó; um nó pode executar um ou mais pods.Each pod runs on a node; a node can run one or more pods. O mestre do Kubernetes atribui pods automaticamente aos nós no cluster.The Kubernetes master automatically assigns pods to nodes in the cluster.
 

Nos Clusters de Big Data do SQL ServerSQL Server Big Data Clusters, o Kubernetes é responsável pelo estado dos Clusters de Big Data do SQL ServerSQL Server Big Data Clusters. O Kubernetes compila e configura os nós do cluster, atribui pods aos nós e monitora a integridade do cluster.In Clusters de Big Data do SQL ServerSQL Server Big Data Clusters, Kubernetes is responsible for the state of the Clusters de Big Data do SQL ServerSQL Server Big Data Clusters; Kubernetes builds and configures the cluster nodes, assigns pods to nodes, and monitors the health of the cluster.

Arquitetura de clusters de Big DataBig data clusters architecture

O diagrama a seguir mostra os componentes de um cluster de Big Data para o SQL Server.The following diagram shows the components of a big data cluster for SQL Server.

Visão geral da arquitetura

ControladorController

O controlador fornece gerenciamento e segurança para o cluster.The controller provides management and security for the cluster. Ele contém o serviço de controle, o repositório de configurações e outros serviços no nível do cluster, como Kibana, Grafana e Pesquisa Elástica.It contains the control service, the configuration store, and other cluster-level services such as Kibana, Grafana, and Elastic Search.

Pool de computaçãoCompute pool

O pool de computação fornece recursos computacionais para o cluster.The compute pool provides computational resources to the cluster. Ele contém nós que executam pods do SQL Server em Linux.It contains nodes running SQL Server on Linux pods. Os pods no pool de computação são divididos em instâncias de computação do SQL para tarefas de processamento específicas.The pods in the compute pool are divided into SQL Compute instances for specific processing tasks.

Pool de dadosData pool

O pool de dados é usado para persistência e cache de dados.The data pool is used for data persistence and caching. O pool de dados é composto por um ou mais pods em execução no SQL Server em Linux.The data pool consists of one or more pods running SQL Server on Linux. Ele é usado para ingerir dados de consultas SQL ou de trabalhos do Spark.It is used to ingest data from SQL queries or Spark jobs. Data marts do cluster de Big Data do SQL Server são persistidos no pool de dados.SQL Server big data cluster data marts are persisted in the data pool.

Pool de armazenamentoStorage pool

O pool de armazenamento é composto por pods do pool de armazenamento compostos pelo SQL Server em Linux, pelo Spark e pelo HDFS.The storage pool consists of storage pool pods comprised of SQL Server on Linux, Spark, and HDFS. Todos os nós de armazenamento em um cluster de Big Data do SQL Server são membros de um cluster do HDFS.All the storage nodes in a SQL Server big data cluster are members of an HDFS cluster.

Dica

Para obter uma análise detalhada da arquitetura e da instalação do cluster de Big Data, confira Workshop: Arquitetura dos Clusters de Big Data do SQL ServerSQL Server Big Data Clusters da Microsoft.For an in-depth look into big data cluster architecture and installation, see Workshop: Microsoft Clusters de Big Data do SQL ServerSQL Server Big Data Clusters Architecture.

Próximas etapasNext steps

Para obter mais informações sobre como implantar Clusters de Big Data do SQL Server, confira Introdução aos Clusters de Big Data do SQL Server.For more information about deploying SQL Server Big Data Clusters, see Get started with SQL Server Big Data Clusters.