Análise operacional interna no Azure Cosmos DB com o Apache Spark (versão prévia)Built-in operational analytics in Azure Cosmos DB with Apache Spark (preview)

O suporte interno para o Apache Spark no Azure Cosmos DB permite que você execute uma análise no Apache Spark de seus dados armazenados em uma conta do Azure Cosmos.The built-in support for Apache Spark in Azure Cosmos DB allows you to run analytics from Apache Spark against your data stored in an Azure Cosmos account. Ele fornece o suporte nativo para que os trabalhos do Apache Spark sejam executados diretamente nos bancos de dados do Cosmos distribuídos globalmente.It provides the native support for Apache Spark jobs to execute directly on your globally distributed Cosmos databases. Com esses recursos, os desenvolvedores, engenheiros de dados e os cientistas de dados podem usar o Azure Cosmos DB como uma plataforma de dados flexível, escalonável e de alto desempenho para executar as cargas de trabalho OLTP e OLAP/HTAP.With these capabilities, developers, data engineers, and data scientists can use Azure Cosmos DB as a flexible, scalable, and performant data platform to run both OLTP and OLAP/HTAP workloads.

A computação do Spark está automaticamente disponível em todas as regiões do Azure associadas à sua conta do Azure Cosmos.Spark compute is automatically available in all the Azure regions associated with your Azure Cosmos account. Os trabalhos de Spark usam a funcionalidade de vários mestre do Azure Cosmos DB e podem gravar ou consultar as réplicas locais de cada região.Spark jobs use the Azure Cosmos DB's multi-master capability and they can write or query against the local replicas in each region.

Observação

Atualmente, o suporte interno para o Apache Spark no Azure Cosmos DB está em versão prévia limitada.The built-in support for Apache Spark in Azure Cosmos DB is currently in limited preview. Para inscrever-se para a versão prévia, navegue até a página de inscrição para a versão prévia.To sign-up for the preview, navigate to sign-up for the preview page.

O suporte do Apache Spark no Azure Cosmos DB oferece os seguintes benefícios:The Apache Spark support in Azure Cosmos DB offers the following benefits:

  • É possível obter o melhor tempo à análise de dados e usuários distribuídos geograficamente.You can get the fastest time to insight for the geographically distributed users and data.

  • É possível simplificar a arquitetura da solução e diminuir o Custo Total de Propriedade (TCO).You can simplify the architecture of your solution and lower the Total Cost of Ownership (TCO). O sistema terá o menor número de componentes de processamento de dados e evitará qualquer movimentação de dados desnecessária entre eles.The system will have the least number of data processing components and avoids any unnecessary data movement among them.

  • Cria uma segurança, conformidade e o limite de auditoria que abrange todos os dados em gerenciamento.Creates a security, compliance, and auditing boundary that encompasses all the data under management.

  • Fornece análises “sempre ativas” ou altamente disponíveis do usuário final que contam com SLAs rigorosos.Provides "always on" or highly available end-user analytics that are backed by stringent SLAs.

Suporte do Apache Spark na visualização do Azure Cosmos DB

Usando o suporte do Apache Spark no Azure Cosmos DB, você pode criar e implantar soluções, como modelos de aprendizado profundo e IA, análise preditiva, recomendações, IoT, cliente 360, detecção de fraudes, sentimento do texto e análise da sequência de cliques.Using the Apache Spark support in Azure Cosmos DB, you can build and deploy solutions such as AI and deep learning models, predictive analytics, recommendations, IoT, customer 360, fraud detection, text sentiment, clickstream analysis. Essas soluções funcionam diretamente em seus dados do Azure Cosmos DB.These solutions work directly against your Azure Cosmos DB data.

É possível configurar o lote e trabalho ETL de streaming no Azure Cosmos DB, sem ter que sair do serviço de banco de dados ou de serviços de computação adicionais.You can set up batch and streaming ETL job in Azure Cosmos DB, without having to go outside the database service or add additional compute services. Você pode dimensionar elasticamente o ambiente de computação quando você precisa realizar o trabalho ETL e reduzi-lo novamente quando o trabalho é concluído.You can elastically scale the compute environment when you need to perform ETL job and scale it back down when the job is done.

O suporte do Apache Spark no Azure Cosmos DB oferece suporte interno do Machine Learning nos tempos de execução do Apache Spark.The Apache Spark support in Azure Cosmos DB offers built-in Machine Learning support in the Apache Spark runtimes. Os tempos de execução incluem Spark MLLib, Microsoft Machine Learning para Apache Spark, Azure Machine Learning e Serviços Cognitivos.The runtimes include Spark MLLib, Microsoft Machine Learning for Spark, Azure Machine Learning, and Cognitive Services. Com esses recursos, os cientistas de dados, engenheiros de dados e analistas de dados podem criar e operacionalizar os modelos de machine learning diretamente no Azure Cosmos DB, em uma fração de tempo e com baixo custo.With these features, data scientists, data engineers, and data analysts can build and operationalize machine learning models directly within Azure Cosmos DB, in a fraction of time and with the low cost.

Principais benefíciosKey benefits

Análises operacionais de baixa latência distribuídas globalmenteGlobally distributed, low latency operational analytics and AI

Com o Apache Spark no banco de dados distribuído globalmente do Azure Cosmos, agora você pode obter tempo de insight rapidamente em todo o mundo.With Apache Spark on the globally distributed Azure Cosmos database, you can now get quick time-to-insight all around the world. O Azure Cosmos DB possibilita análise operacional de baixa latência distribuída globalmente em escala elástica com três técnicas principais:Azure Cosmos DB enables globally distributed, low latency operational analytics at elastic scale with three key techniques:

  • Uma vez que seu banco de dados do Azure Cosmos é distribuído globalmente, todos os dados são ingeridos localmente, onde se encontram os produtores de dados (por exemplo, os usuários).Since your Azure Cosmos database is globally distributed, all the data is ingested locally where the producers of the data (for example, users) are located. As consultas são atendidas em relação às réplicas locais mais próximas de produtores e consumidores de dados, independentemente de onde estejam localizados no mundo.The queries are served against the local replicas closest to both the producers and the consumers of data regardless of where they are located in the world.

  • Todas as suas consultas analíticas são executadas diretamente nos dados armazenados indexados dentro de partições de dados precisar de nenhuma movimentação de dados desnecessários.All your analytical queries are executed directly on the indexed data stored inside the data partitions without requiring any unnecessary data movement.

  • Como o Apache Spark é colocado com o Azure Cosmos DB, menos traduções intermediárias e movimentações de dados ocorrem, resultando em um melhor desempenho e escalabilidade.Because Spark is colocated with Azure Cosmos DB, fewer intermediate translations and data movements take place, resulting in a better performance and scalability.

Experiência unificada sem servidor para o Apache SparkUnified serverless experience for Apache Spark

Como um banco de dados multimodelo, o Azure Cosmos DB agora expande seu suporte para APIs OSS, fornecendo uma experiência sem servidor unificada para o Apache Spark com chave-valor, documento, grafo, modelos de dados da família de coluna.As a multi-model database, Azure Cosmos DB now expands its support for OSS APIs by providing a unified serverless experience for Apache Spark with key-value, document, graph, column family data models. Modelos de dados diferentes têm suporte usando o MongoDB, Cassandra, Gremlin, Etcd e APIs do SQL, todos operando nos mesmos dados subjacentes.Different data models are supported using MongoDB, Cassandra, Gremlin, Etcd, and SQL APIs - all operating on the same underlying data.

Com o suporte do Apache Spark no Azure Cosmos DB, você pode dar suporte nativo a aplicativos escritos em Scala, Python e Java e usar várias bibliotecas diretamente integradas para SQL.With the Apache Spark support in Azure Cosmos DB, you can natively support applications written in Scala, Python, Java, and use several tightly integrated libraries for SQL. Essas bibliotecas incluem (Spark SQL), machine learning (Apache Spark MLlib), processamento de streaming (Streaming Estruturado do Apache Spark) e o processamento de grafos (Spark GraphFrames).These libraries include (Spark SQL), machine learning (Spark MLlib), stream processing (Spark Structured Streaming), and graph processing (Spark GraphFrames). Essas ferramentas facilitam usar o Apache Spark para uma série de casos de uso.These tools make it easier to use the Apache Spark for a variety of use cases. Não é necessário lidar com o gerenciamento do Apache Spark ou clusters do Apache Spark.You don’t have to deal with managing Spark or Spark clusters. É possível usar as APIs do Apache Spark e notebooks Jupyter para análise e API do SQL ou qualquer uma das APIs OSS NoSQL, como Cassandra para processamento transacional nos mesmos dados subjacentes ao mesmo tempo.You can use the familiar Apache Spark APIs and Jupyter notebooks for analytics and SQL API or any of the OSS NoSQL APIs like Cassandra for transactional processing on the same underlying data at the same time.

Sem gerenciamento de esquema ou de índiceNo schema or index management

Ao contrário dos bancos de dados analíticos tradicionais, com o Azure Cosmos DB, os engenheiros e cientistas de dados não precisam mais lidar com o esquema complicado e o gerenciamento de índice.Unlike traditional analytical databases, with Azure Cosmos DB, data engineers, and data scientists no longer need to deal with cumbersome schema and index management. O mecanismo de banco de dados no Azure Cosmos DB não exige gerenciamento explícito de esquema ou índice e é capaz de indexar automaticamente todos os dados ingeridos para servir as consultas do Apache Spark rapidamente.The database engine in Azure Cosmos DB does not require any explicit schema or index management and it is capable of automatically indexing all the data it ingests to serve the Apache Spark queries quickly.

Opções de consistênciaConsistency choices

Como os trabalhos do Apache Spark são executados nas partições de dados do seu banco de dados Azure Cosmos, as consultas apresentaram as cinco opções de consistência bem definidas.Since the Apache Spark jobs are executed in the data partitions of your Azure Cosmos database, the queries will get the five well-defined consistency choices. Esses modelos de consistência oferecem a flexibilidade de escolher consistência estrita para fornecer os resultados mais precisos para algoritmos de machine learning sem comprometer a latência e a alta disponibilidade.These consistency models give the flexibility to choose strict consistency to provide the most accurate results for machine learning algorithms without compromising the latency and high availability.

SLAs abrangentesComprehensive SLAs

Os trabalhos do Apache Spark terão os benefícios do Azure Cosmos DB como líder abrangente do setor SLAs (99,999) sem sobrecarga de gerenciamento de clusters separados do Apache Spark.The Apache Spark jobs will have the Azure Cosmos DB benefits such as industry leading comprehensive SLAs (99.999) without any overhead of managing separate Apache Spark clusters. Esses SLAs abrangem a taxa de transferência, latência no 99 º percentil, consistência e alta disponibilidade.These SLAs encompass throughput, latency at the 99th percentile, consistency, and high availability.

Cargas de trabalho mistasMixed workloads

A integração do Apache Spark no Azure Cosmos DB associa a separação transacional e analítica, que tem sido um dos pontos problemáticos importantes do cliente ao criar aplicativos nativos de nuvem em escala global.The integration of Apache Spark into Azure Cosmos DB bridges the transactional and analytic separation, which has been one of the major customer pain points when building cloud-native applications at global scale.

Cenários de suporte ao Spark do Azure Cosmos DBScenarios for Azure Cosmos DB Spark support

Varejo e bens de consumoRetail and consumer goods

Você pode usar o suporte ao Spark no Azure Cosmos DB para fornecer recomendações e ofertas em tempo real.You can use Spark support in Azure Cosmos DB to deliver real-time recommendations and offers. Você pode ajudar os clientes a descobrir os itens de que eles precisam com personalização e recomendações de produtos em tempo real.You can help customers discover the items they will need with real-time personalization and product recommendations.

  • Você pode usar o suporte interno ao Machine Learning fornecido pelo tempo de execução do Apache Spark para gerar recomendações em tempo real em todos os catálogos de produtos.You can use the built-in Machine Learning support provided by the Apache Spark runtime to generate real-time recommendations across the product catalogs.

  • Você pode fazer a mineração com um clique de dados de fluxo, de compra e do cliente para fornecer recomendações direcionadas que promovem valor por todo o tempo de vida.You can mine click stream data, purchase data, and customer data to provide targeted recommendations that drive lifetime value.

  • Usando o recurso de distribuição global do Azure Cosmos DB, grandes volumes de dados do produto que são distribuídos entre regiões podem ser analisados em milissegundos.Using the Azure Cosmos DB's global distribution feature, high volumes of product data that is spread across regions can be analyzed in milliseconds.

  • Você pode obter insights rapidamente para os usuários e dados distribuídos geograficamente.You can quickly get insights for the geographically distributed users and data. Você pode melhorar a taxa de conversão das promoções oferecendo o anúncio certo ao usuário correto, no momento exato.You can improve the promotion conversion rate by serving the right ad to the right user at the right time.

  • Você pode aproveitar a funcionalidade de streaming interna do Spark para enriquecer dados ao vivo, combinando-os com os dados estáticos do cliente.You can leverage the inbuilt Spark streaming capability to enrich live data by combining it with static customer data. Dessa forma, você pode fornecer anúncios mais personalizados e direcionados em tempo real, dentro do contexto daquilo que os clientes estão fazendo.This way you can deliver more personalized and targeted ads in real time and in context with what customers are doing.

A imagem a seguir mostra como o suporte ao Spark no Azure Cosmos DB é usado para otimizar o preço e as promoções:The following image shows how Azure Cosmos DB Spark support is used to optimize pricing and promotions:

Suporte ao Spark no Azure Cosmos DB para otimizar o preço e as promoções

A imagem a seguir mostra como o suporte ao Spark no Azure Cosmos DB é usado no mecanismo de recomendação em tempo real:The following image shows how Azure Cosmos DB Spark support is used in real-time recommendation engine:

Suporte ao Spark no Azure Cosmos DB no mecanismo de recomendação em tempo real

Manufatura e IoTManufacturing and IoT

A plataforma de análise interna do Azure Cosmos DB permite que você habilite a análise em tempo real de dados de IoT de milhões de dispositivos em escala global.Azure Cosmos DB’s in-built analytics platform allows you to enable real-time analysis of IoT data from millions of devices at global scale. Você pode realizar inovações modernas como prever padrões meteorológicos, análise preditiva e otimizações de energia.You can make modern innovations like predicting weather patterns, predictive analysis, and energy optimizations.

  • Usando o Azure Cosmos DB, você pode fazer a mineração de dados como métricas de ativos em tempo real e fatores meteorológicos e, em seguida, aplicar análise de grade inteligente para otimizar o desempenho de dispositivos conectados no campo.By using Azure Cosmos DB, you can mine data such as real-time asset metrics and weather factors, then apply smart grid analytics to optimize performance of connected devices in the field. A Análise de grade inteligente é a chave para controlar os custos operacionais, melhorar a confiabilidade da grade e fornecer serviços de energia personalizados aos consumidores.Smart grid analytics is the key to control operating costs, to improve grid reliability, and deliver personalized energy services to consumers.

A imagem a seguir mostra como o suporte ao Spark no Azure Cosmos DB é usado para ler métricas de dispositivos IoT e aplicar a análise de grade inteligente:The following image shows how Azure Cosmos DB’s Spark support is used to read metrics from IoT devices and apply smart grid analytics:

Suporte ao Spark no Azure Cosmos DB para ler métricas de dispositivos IoT

Manutenção preditivaPredictive maintenance

  • A manutenção de ativos, como compactadores usados em pequenas plataformas de perfuração, para uso em plataformas de águas profundas é um esforço complexo.Maintaining assets such as compressors that are used in small drilling rigs to deep-water platforms is a complex endeavor. Esses ativos estão localizados em todo o mundo e geram petabytes de dados.These assets are located across the globe and generate petabytes of data. Usando Azure Cosmos DB, você pode criar um pipeline de dados preditivos de ponta a ponta que usa o streaming do Spark para processar grandes quantidades de dados de telemetria de sensor, peças de ativos armazenados e mapeamentos de sensor.By using Azure Cosmos DB, you can build an end-to-end predictive data pipeline that uses Spark streaming to process large amounts of sensor telemetry, store asset parts, and sensor mappings data.

  • Você pode criar e implantar modelos de machine learning para prever falhas de ativos antes que elas ocorram e emitir ordens de trabalho de manutenção em caráter preventivo.You can build and deploy machine learning models to predict asset failures before they happen and issue maintenance work orders before the failure occurs.

A imagem a seguir mostra como o suporte ao Spark no Azure Cosmos DB é usado para criar um sistema de manutenção preditiva:The following image shows how Azure Cosmos DB’s Spark support is used to build a predictive maintenance system:

Suporte ao Spark no Azure Cosmos DB para criar sistema de manutenção preditiva

A imagem a seguir mostra como o suporte ao Spark no Azure Cosmos DB é usado para criar um sistema de diagnóstico de veículo em tempo real:The following image shows how Azure Cosmos DB’s Spark support is used to build a real-time vehicle diagnostic system:

Suporte ao Spark no Azure Cosmos DB para criar sistema de diagnóstico de veículo em tempo real

JogosGaming

  • Com o suporte interno ao Spark, o Azure Cosmos DB permite que você crie, dimensione e implante com facilidade modelos de análise avançada e modelos de machine learning em questão de minutos, a fim de criar a melhor experiência de jogos possível.With built-in Spark support, Azure Cosmos DB enables you to easily build, scale, and deploy advanced analytics and machine learning models in minutes to build the best gaming experience possible.

  • Você pode analisar o player, a compra e os dados comportamentais para criar ofertas personalizadas relevantes a fim de obter elevadas taxas de conversão.You can analyze player, purchase, and behavioral data to create relevant personalized offers to attain high conversion rates.

  • Usando o aprendizado de máquina do Spark, você pode analisar e obter insights sobre dados de telemetria de jogos.Using Spark machine learning, you can analyze and gain insights on game telemetry data. Você pode diagnosticar e evitar lentidão no tempo de carregamento e problemas no jogo.You can diagnose and prevent slow load times and in-game issues.

A imagem a seguir mostra como o suporte ao Spark no Azure Cosmos DB é usado na análise de jogos:The following image shows how Azure Cosmos DB’s Spark support is used in gaming analytics:

Suporte ao Spark no Azure Cosmos DB para análise de jogos

Suporte interno para Jupyter notebooksBuilt-in Jupyter notebooks support

O Azure Cosmos DB dá suporte a Blocos de notas do Jupyter internos para todas as APIs, como Cassandra, MongoDB, SQL, Gremlin e Table.Azure Cosmos DB supports built-in Jupyter notebooks for all APIs such as Cassandra, MongoDB, SQL, Gremlin, and Table. Os blocos de notas do Jupyter são executados em contas do Azure Cosmos e aprimoram a experiência do desenvolvedor.The Jupyter notebooks run within the Azure Cosmos accounts and they enhance the developer experience. O suporte interno para notebook para todas as APIs e modelos de dados do Azure Cosmos DB permite que você execute consultas de forma interativa.The built-in notebook support for all Azure Cosmos DB APIs and data models allows you to interactively run queries. Você também pode executar modelos de aprendizado de máquina e analisar os dados armazenados nos bancos de dados Azure Cosmos.You can also execute machine learning models, and analyze the data stored in your Azure Cosmos databases. Com a experiência do Jupyter notebook, você pode analisar os dados armazenados, compilar e treinar modelos de aprendizado de máquina e executar inferência nos dados no portal do Azure, conforme mostrado na imagem a seguir:By using the Jupyter notebook experience, you can analyze the stored data, build and train machine learning models, and perform inferencing on the data in the Azure portal as shown in the following image:

Suporte aos Jupyter notebooks no Azure Cosmos DB

Próximas etapasNext steps