Escolher uma tecnologia de análise de dados e criação de relatórios no Azure

A meta da maioria das soluções de Big Data é gerar insights sobre os dados por meio de análise e relatórios. Isso pode incluir visualizações e relatórios pré-configurados ou a exploração interativa de dados.

Quais são as opções disponíveis ao escolher uma tecnologia de análise de dados?

Há várias opções para análise, visualizações e relatórios no Azure, dependendo de suas necessidades:

Power BI

O Power BI é um pacote de ferramentas de análise de negócios. Ele pode se conectar a centenas de fontes de dados e pode ser usado para análise ad hoc. Veja esta lista das fontes de dados disponíveis no momento. Use o Power BI Embedded para integrar o Power BI a seus próprios aplicativos, sem a necessidade de licença adicional.

As organizações podem usar o Power BI para gerar relatórios e publicá-los na organização. Todos podem criar dashboards personalizados, com governança e segurança internas. O Power BI usa o Microsoft Entra ID para autenticar os usuários que fazem logon no serviço do Power BI e usa as credenciais de logon do Power BI sempre que um usuário tenta acessar recursos que exigem autenticação.

Jupyter Notebooks

O Jupyter Notebooks fornece um shell baseado em navegador que possibilita aos cientistas de dados criar arquivos de bloco de anotações que contêm o código e texto markdown do Python, Scala ou R, tornando-o uma maneira eficiente para colaborar com o compartilhamento e a documentação de código e resultados em um único documento.

A maioria das variedades de clusters HDInsight, como o Spark ou Hadoop, vem pré-configurada com blocos de anotações do Jupyter para interagir com os dados e enviar trabalhos para processamento. Dependendo do tipo de cluster HDInsight que está sendo usado, um ou mais kernels serão fornecidos para interpretar e executar o código. Por exemplo, os clusters Spark no HDInsight fornecem kernels relacionados ao Spark que você pode selecionar para executar o código do Python ou Scala usando o mecanismo do Spark.

Os blocos de anotações do Jupyter fornecem um ambiente excelente para análise, visualização e processamento dos dados antes da criação de visualizações mais avançadas com uma ferramenta de relatórios/BI como o Power BI.

Zeppelin Notebooks

O Zeppelin Notebooks é outra opção de shell baseado em navegador, semelhante ao Jupyter em funcionalidade. Alguns clusters HDInsight vêm pré-configurados com blocos de anotações do Zeppelin. No entanto, caso você esteja usando um cluster de Consulta Interativa do HDInsight (Hive LLAP), atualmente, o Zeppelin será a única opção de bloco de anotações que você poderá usar para executar consultas interativas do Hive. Além disso, se você estiver usando um cluster HDInsight ingressado no domínio, os blocos de anotações do Zeppelin serão o único tipo que permite atribuir logons de usuário diferentes para controlar o acesso aos blocos de anotações e às tabelas subjacentes do Hive.

Jupyter Notebooks no VS Code

O VS Code é um editor de código gratuito e plataforma de desenvolvimento que você pode usar localmente ou conectado a computadores remotos. Combinado com a extensão Jupyter, ele oferece um ambiente completo para o desenvolvimento com Jupyter que pode ser aprimorado com extensões de linguagem adicionais. Se você deseja uma experiência Jupyter gratuita e de alta qualidade, com a capacidade de aproveitar seu ambiente de computação preferido, esta é uma ótima opção. Usando o VS Code, você pode desenvolver e executar notebooks em computadores remotos e contêineres. Para facilitar a transição do Microsoft Azure Notebooks, disponibilizamos a imagem de contêiner para que ela também possa ser usada com o VS Code.

O Jupyter (antigo IPython Notebook) é um projeto de código aberto que permite combinar facilmente o texto do Markdown e o código-fonte Python executável em uma tela chamada notebook. O Visual Studio Code dá suporte ao trabalho com Jupyter Notebooks nativamente e por meio de arquivos de código Python.

Principais critérios de seleção

Para restringir as opções, comece respondendo a estas perguntas:

  • Você precisa se conectar a várias fontes de dados, fornecendo um local centralizado para criar relatórios de dados distribuídos em todo o domínio? Nesse caso, escolha uma opção que permite que você se conecte a centenas de fontes de dados.

  • Deseja inserir visualizações dinâmicas em um site ou aplicativo externo? Nesse caso, escolha uma opção que fornece funcionalidades de inserção.

  • Você deseja criar visualizações e relatórios enquanto estiver offline? Em caso afirmativo, escolha uma opção com funcionalidades offline.

  • Você precisa ter um poder de processamento intenso para treinar modelos de IA grandes ou complexos ou trabalhar com conjuntos grandes de dados? Em caso afirmativo, escolha uma opção que pode se conectar a um cluster de Big Data.

Matriz de funcionalidades

As tabelas a seguir resumem as principais diferenças em funcionalidades.

Funcionalidades gerais

Recurso Power BI Jupyter Notebooks Zeppelin Notebooks Jupyter Notebooks no VS Code
Conectar-se a um cluster de Big Data para processamento avançado Sim Sim Sim Não
Serviço gerenciado Sim Sim 1 Sim 1 Sim
Conectar-se a centenas de fontes de dados Sim Não No Não
Funcionalidades offline Sim 2 Não No Não
Funcionalidades de inserção Sim Não No Não
Atualização automática de dados Sim Não No Não
Acesso a vários pacotes de software livre Não Sim 3 Sim 3 Sim 4
Opções de transformação/limpeza de dados Power Query, R 40 linguagens, incluindo Python, R, Julia e Scala Mais de 20 interpretadores, incluindo Python, JDBC e R Python, F#, R
Preços Gratuito para o Power BI Desktop (criação); consulte Preços para obter as opções de hospedagem Gratuita Gratuita Gratuita
Colaboração de multiusuário Sim Sim (por meio de compartilhamento ou com um servidor de multiusuário como o JupyterHub) Sim Sim (por meio de compartilhamento)

[1] Quando usado como parte de um cluster HDInsight gerenciado.

[2] Com o uso do Power BI Desktop.

[2] Pesquise o repositório do Maven para obter pacotes contribuídos pela comunidade.

[3] Os pacotes do Python podem ser instalados com o Pip ou o Conda. Os pacotes do R podem ser instalados por meio do CRAN ou do GitHub. Os pacotes em F# podem ser instalados por meio de nuget.org usando o gerenciador de dependência do Paket.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Autor principal:

Próximas etapas