Escolha uma tecnologia de análise de dados e relatórios no Azure

O objetivo da maioria das soluções de macrodados é proporcionar informações sobre os dados através de análises e relatórios. Isso pode incluir relatórios e visualizações pré-configurados ou exploração interativa de dados.

Quais são as suas opções ao escolher uma tecnologia de análise de dados?

Há várias opções para análise, visualizações e relatórios no Azure, dependendo das suas necessidades:

Power BI

O Power BI é um conjunto de ferramentas de análise empresarial. Ele pode se conectar a centenas de fontes de dados e pode ser usado para análise ad hoc. Consulte esta lista das fontes de dados atualmente disponíveis. Utilize o Power BI Embedded para integrar o Power BI nas suas próprias aplicações sem necessitar de qualquer licenciamento adicional.

As organizações podem usar o Power BI para produzir relatórios e publicá-los na organização. Todos podem criar painéis personalizados, com governança e segurança integradas. O Power BI usa a ID do Microsoft Entra para autenticar usuários que fazem logon no serviço do Power BI e usa as credenciais de logon do Power BI sempre que um usuário tenta acessar recursos que exigem autenticação.

Jupyter Notebooks

Os Jupyter Notebooks fornecem um shell baseado em navegador que permite que cientistas de dados criem arquivos de notebook que contenham código Python, Scala ou R e texto de marcação, tornando-se uma maneira eficaz de colaborar compartilhando e documentando código e resultados em um único documento.

A maioria das variedades de clusters HDInsight, como o Spark ou o Hadoop, vem pré-configurada com blocos de anotações Jupyter para interagir com dados e enviar trabalhos para processamento. Dependendo do tipo de cluster HDInsight que você está usando, um ou mais kernels serão fornecidos para interpretar e executar seu código. Por exemplo, os clusters Spark no HDInsight fornecem kernels relacionados ao Spark que você pode selecionar para executar código Python ou Scala usando o mecanismo Spark.

Os blocos de anotações Jupyter fornecem um ótimo ambiente para analisar, visualizar e processar seus dados antes de criar visualizações mais avançadas com uma ferramenta de BI/relatórios como o Power BI.

Cadernos Zeppelin

Os Notebooks Zeppelin são outra opção para um shell baseado em navegador, semelhante ao Jupyter em funcionalidade. Alguns clusters HDInsight vêm pré-configurados com notebooks Zeppelin. No entanto, se você estiver usando um cluster HDInsight Interactive Query (Hive LLAP), o Zeppelin é atualmente sua única opção de bloco de anotações que você pode usar para executar consultas interativas do Hive. Além disso, se você estiver usando um cluster HDInsight associado a um domínio, os blocos de anotações do Zeppelin serão o único tipo que permite atribuir logins de usuário diferentes para controlar o acesso aos blocos de anotações e às tabelas Hive subjacentes.

Notebooks Jupyter no VS Code

VS Code é um editor de código gratuito e plataforma de desenvolvimento que você pode usar localmente ou conectado à computação remota. Combinado com a extensão Jupyter, oferece um ambiente completo para o desenvolvimento do Jupyter que pode ser aprimorado com extensões de linguagem adicionais. Se você quer uma experiência Jupyter gratuita e de primeira classe com a capacidade de alavancar sua computação de escolha, esta é uma ótima opção. Usando o VS Code, você pode desenvolver e executar blocos de anotações em controles remotos e contêineres. Para facilitar a transição dos Blocos de Anotações do Azure, disponibilizamos a imagem do contêiner para que ela também possa ser usada com o VS Code.

Jupyter (anteriormente IPython Notebook) é um projeto de código aberto que permite combinar facilmente texto Markdown e código-fonte Python executável em uma tela chamada notebook. O Visual Studio Code oferece suporte ao trabalho com o Jupyter Notebooks nativamente e por meio de arquivos de código Python.

Principais critérios de seleção

Para restringir as escolhas, comece por responder a estas perguntas:

  • Você precisa se conectar a várias fontes de dados, fornecendo um local centralizado para criar relatórios para dados espalhados por todo o seu domínio? Em caso afirmativo, escolha uma opção que permita que você se conecte a 100s de fontes de dados.

  • Deseja incorporar visualizações dinâmicas em um site ou aplicativo externo? Em caso afirmativo, escolha uma opção que forneça recursos de incorporação.

  • Deseja projetar suas visualizações e relatórios enquanto estiver offline? Se sim, escolha uma opção com recursos offline.

  • Você precisa de poder de processamento pesado para treinar modelos de IA grandes ou complexos ou trabalhar com conjuntos de dados muito grandes? Se sim, escolha uma opção que possa se conectar a um cluster de big data.

Matriz de capacidades

As tabelas a seguir resumem as principais diferenças nos recursos.

Capacidades gerais

Funcionalidade Power BI Jupyter Notebooks Cadernos Zeppelin Notebooks Jupyter no VS Code
Conecte-se ao cluster de big data para processamento avançado Sim Sim Sim No
Serviço gerido Sim Sim 1 Sim 1 Sim
Conecte-se a 100 s de fontes de dados Sim No No Não
Funcionalidades offline Sim 2 No No Não
Capacidades de incorporação Sim No No Não
Atualização automática de dados Sim No No Não
Acesso a vários pacotes de código aberto Não Sim 3 Sim 3 Sim 4
Opções de transformação/limpeza de dados Power Query, R 40 linguagens, incluindo Python, R, Julia e Scala 20+ interpretadores, incluindo Python, JDBC e R Python, F#, R
Preços Gratuito para o Power BI Desktop (criação), consulte os preços das opções de hospedagem Gratuito Gratuito Gratuito
Colaboração multiutilizador Sim Sim (através da partilha ou com um servidor multiutilizador como o JupyterHub) Sim Sim (através da partilha)

[1] Quando utilizado como parte de um cluster HDInsight gerido.

[2] Com a utilização do Power BI Desktop.

[2] Você pode pesquisar no repositório Maven por pacotes contribuídos pela comunidade.

[3] Os pacotes Python podem ser instalados usando pip ou conda. Os pacotes R podem ser instalados a partir do CRAN ou do GitHub. Os pacotes em F# podem ser instalados via nuget.org usando o gerenciador de dependência Paket.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Autor principal:

Próximos passos