Escolher uma tecnologia de análise de dados no AzureChoosing a data analytics technology in Azure

O objetivo da maioria das soluções de macrodados é proporcionar informações sobre os dados através de análises e relatórios.The goal of most big data solutions is to provide insights into the data through analysis and reporting. Isto pode incluir relatórios pré-configurados e visualizações ou exploração de dados interativos.This can include preconfigured reports and visualizations, or interactive data exploration.

Quais são as opções ao escolher uma tecnologia de análise de dados?What are your options when choosing a data analytics technology?

Existem várias opções para análise, visualizações e relatórios no Azure, consoante as suas necessidades:There are several options for analysis, visualizations, and reporting in Azure, depending on your needs:

Power BIPower BI

Power BI é um conjunto de ferramentas de análise de negócio.Power BI is a suite of business analytics tools. Pode ligar-se a centenas de origens de dados e pode ser utilizado para análise ad hoc.It can connect to hundreds of data sources, and can be used for ad hoc analysis. Ver esta lista das origens de dados atualmente disponível.See this list of the currently available data sources. Uso Power BI Embedded para integrar o Power BI dentro de seus próprios aplicativos sem a necessidade de quaisquer licenças adicionais.Use Power BI Embedded to integrate Power BI within your own applications without requiring any additional licensing.

As organizações podem utilizar o Power BI para produzir relatórios e publique-os para a organização.Organizations can use Power BI to produce reports and publish them to the organization. Qualquer pessoa pode criar dashboards personalizados, com governação e segurança incorporada.Everyone can create personalized dashboards, with governance and security built in. Power BI utiliza do Azure Active Directory (Azure AD) para autenticar os utilizadores que iniciem sessão do serviço Power BI e utiliza o início de sessão do Power BI credenciais sempre que um utilizador tenta aceder aos recursos que requerem autenticação.Power BI uses Azure Active Directory (Azure AD) to authenticate users who log in to the Power BI service, and uses the Power BI login credentials whenever a user attempts to access resources that require authentication.

Jupyter NotebooksJupyter Notebooks

Blocos de notas do Jupyter fornecem uma shell baseada no browser que permite criar os cientistas de dados bloco de notas ficheiros que contêm texto código e de markdown do Python, Scala ou R, tornando-o uma forma eficaz de colaborar ao partilhar e documentos e resulta num único documento de código.Jupyter Notebooks provide a browser-based shell that lets data scientists create notebook files that contain Python, Scala, or R code and markdown text, making it an effective way to collaborate by sharing and documenting code and results in a single document.

A maioria das variedades de clusters do HDInsight, tais como Spark ou do Hadoop, vêm pré-configurada com blocos de notas do Jupyter para interagir com dados e submeter trabalhos para processamento.Most varieties of HDInsight clusters, such as Spark or Hadoop, come preconfigured with Jupyter notebooks for interacting with data and submitting jobs for processing. Dependendo do tipo de cluster do HDInsight que está a utilizar, serão fornecidos um ou mais kernels para interpretar e execução do seu código.Depending on the type of HDInsight cluster you are using, one or more kernels will be provided for interpreting and running your code. Por exemplo, os clusters do Spark no HDInsight fornecem kernels relacionados com o Spark, o que pode selecionar para executar o código de Python ou Scala usando o mecanismo de Spark.For example, Spark clusters on HDInsight provide Spark-related kernels that you can select from to execute Python or Scala code using the Spark engine.

Blocos de notas do Jupyter fornecem um ótimo ambiente para analisar, visualizar e processamento dos dados antes de criação de visualizações mais avançadas com uma ferramenta de BI/relatórios como o Power BI.Jupyter notebooks provide a great environment for analyzing, visualizing, and processing your data prior to building more advanced visualizations with a BI/reporting tool like Power BI.

Blocos de notas do ZeppelinZeppelin Notebooks

Blocos de notas do Zeppelin são outra opção para uma-shell baseada no browser, semelhante a Jupyter na funcionalidade.Zeppelin Notebooks are another option for a browser-based shell, similar to Jupyter in functionality. Alguns HDInsight clusters vêm pré-configurada com blocos de notas do Zeppelin.Some HDInsight clusters come preconfigured with Zeppelin notebooks. No entanto, se estiver a utilizar um Interactive Query do HDInsight cluster (LLAP do Hive), Zeppelin atualmente é sua única escolha do bloco de notas que pode utilizar para executar consultas interativas do Hive.However, if you are using an HDInsight Interactive Query (Hive LLAP) cluster, Zeppelin is currently your only choice of notebook that you can use to run interactive Hive queries. Além disso, se estiver a utilizar um cluster de HDInsight associado a um domínio, blocos de notas do Zeppelin são o único tipo que permite a atribuição de inícios de sessão de utilizador diferentes para controlar o acesso a blocos de notas e as tabelas do Hive subjacentes.Also, if you are using a domain-joined HDInsight cluster, Zeppelin notebooks are the only type that enables you to assign different user logins to control access to notebooks and the underlying Hive tables.

Microsoft Azure NotebooksMicrosoft Azure Notebooks

Blocos de notas do Azure é um serviço baseado em blocos de notas do Jupyter online que permite que os cientistas de dados criar, executar e partilhar os blocos de notas do Jupyter nas bibliotecas com base na cloud.Azure Notebooks is an online Jupyter Notebooks-based service that enables data scientists to create, run, and share Jupyter Notebooks in cloud-based libraries. Blocos de notas do Azure disponibiliza ambientes de execução para o Python 2, 3 do Python, F#e R e fornece várias bibliotecas de criação de gráficos para visualizar os seus dados, como ggplot, matplotlib, bokeh e seaborn.Azure Notebooks provides execution environments for Python 2, Python 3, F#, and R, and provides several charting libraries for visualizing your data, such as ggplot, matplotlib, bokeh, and seaborn.

Ao contrário dos blocos de notas Jupyter em execução num cluster do HDInsight, que estão ligados à conta do storage predefinida do cluster, os blocos de notas do Azure não fornece quaisquer dados.Unlike Jupyter notebooks running on an HDInsight cluster, which are connected to the cluster's default storage account, Azure Notebooks does not provide any data. Deve carregar dados de diversas formas, essa transferência de dados de uma fonte online, interagir com o armazenamento de tabela ou de Blobs do Azure, ligar a uma base de dados do SQL ou carregar dados com o Assistente para copiar para o Azure Data Factory.You must load data in a variety of ways, such downloading data from an online source, interacting with Azure Blobs or Table Storage, connecting to a SQL database, or loading data with the Copy Wizard for Azure Data Factory.

Principais vantagens:Key benefits:

  • Gratuito serviço—não é necessária uma subscrição do Azure.Free service—no Azure subscription required.
  • Não é necessário para instalar o Jupyter e os suporte R ou Python distribuições localmente—apenas utilize um browser.No need to install Jupyter and the supporting R or Python distributions locally—just use a browser.
  • Gerir as suas próprias bibliotecas online e acessá-los a partir de qualquer dispositivo.Manage your own online libraries and access them from any device.
  • Partilhe os seus blocos de notas com os colaboradores.Share your notebooks with collaborators.

Considerações:Considerations:

  • Não será possível aceder aos seus blocos de notas quando estiver offline.You will be unable to access your notebooks when offline.
  • Recursos de processamento limitado do serviço gratuito de bloco de notas podem não ser suficiente para preparar modelos grandes ou complexos.Limited processing capabilities of the free notebook service may not be enough to train large or complex models.

Principais critérios de seleçãoKey selection criteria

Para limitar as opções, comece por resposta a estas perguntas:To narrow the choices, start by answering these questions:

  • Precisa ligar a várias origens de dados, fornecendo um local centralizado para criar relatórios para dados espalhados por todo o domínio?Do you need to connect to numerous data sources, providing a centralized place to create reports for data spread throughout your domain? Se assim for, escolha uma opção que permite que se conecte ao 100s de origens de dados.If so, choose an option that allows you to connect to 100s of data sources.

  • Deseja incorporar visualizações dinâmicas num Web site externo ou um aplicativo?Do you want to embed dynamic visualizations in an external website or application? Se assim for, escolha uma opção que fornece capacidades de incorporação.If so, choose an option that provides embedding capabilities.

  • Quer projetar suas visualizações e relatórios ao mesmo tempo offline?Do you want to design your visualizations and reports while offline? Se Sim, escolha uma opção com recursos offline.If yes, choose an option with offline capabilities.

  • Precisa poder de processamento pesado formar modelos de ia de grandes ou complexos ou trabalhar com grandes conjuntos de dados?Do you need heavy processing power to train large or complex AI models or work with very large data sets? Se Sim, escolha uma opção que pode ligar a um cluster de grandes volumes de dados.If yes, choose an option that can connect to a big data cluster.

Matriz de capacidadeCapability matrix

As tabelas seguintes resumem as principais diferenças nos recursos.The following tables summarize the key differences in capabilities.

Capacidades geraisGeneral capabilities

FuncionalidadeCapability Power BIPower BI Jupyter NotebooksJupyter Notebooks Blocos de notas do ZeppelinZeppelin Notebooks Microsoft Azure NotebooksMicrosoft Azure Notebooks
Ligar ao cluster de grandes volumes de dados para processamento avançadoConnect to big data cluster for advanced processing SimYes SimYes SimYes NãoNo
Serviço geridoManaged service SimYes Sim 1Yes 1 Sim 1Yes 1 SimYes
Ligar ao 100s de origens de dadosConnect to 100s of data sources SimYes NãoNo NãoNo NãoNo
Funcionalidades offlineOffline capabilities Sim 2Yes 2 NãoNo NãoNo NãoNo
Capacidades de integraçãoEmbedding capabilities SimYes NãoNo NãoNo NãoNo
Atualização de dados automáticaAutomatic data refresh SimYes NãoNo NãoNo NãoNo
Acesso a vários pacotes de código-fonte abertoAccess to numerous open source packages NãoNo Sim 3Yes 3 Sim 3Yes 3 Sim 4Yes 4
Opções de transformação/limpeza de dadosData transformation/cleansing options Consulta de energia, RPower Query, R 40 idiomas, incluindo o Python, R, Julia e Scala40 languages, including Python, R, Julia, and Scala mais de 20 interprety, incluindo Python e R JDBC20+ interpreters, including Python, JDBC, and R Python, F#, RPython, F#, R
PreçosPricing Gratuito para o Power BI Desktop (criação), consulte preços para as opções de hospedagemFree for Power BI Desktop (authoring), see pricing for hosting options LivreFree LivreFree LivreFree
Colaboração multiutilizadorMultiuser collaboration SimYes Sim (por meio do compartilhamento ou com um servidor multiutilizador, como JupyterHub)Yes (through sharing or with a multiuser server like JupyterHub) SimYes Sim (por meio do compartilhamento)Yes (through sharing)

[1] quando utilizado como parte de um cluster de HDInsight gerido.[1] When used as part of a managed HDInsight cluster.

[2] com o uso do Power BI Desktop.[2] With the use of Power BI Desktop.

[2] pode pesquisar o repositório Maven para pacotes fornecidos pela Comunidade.[2] You can search the Maven repository for community-contributed packages.

[3] pacotes de Python de podem ser instalados através do pip ou conda.[3] Python packages can be installed using either pip or conda. Podem ser instalados pacotes de R do CRAN ou do GitHub.R packages can be installed from CRAN or GitHub. Pacotes no F# pode ser instalada pelo nuget.org utilizando o Gestor de dependências de Paket.Packages in F# can be installed via nuget.org using the Paket dependency manager.