Crie um laboratório para análise de big data usando a implementação do Docker da Plataforma de Dados HortonWorks

Este artigo mostra-lhe como criar um laboratório para ensinar uma grande aula de análise de dados. Com este tipo de aula, os alunos aprendem a lidar com grandes volumes de dados e aplicam algoritmos de aprendizagem automática e estatística para obter insights de dados. Um objetivo fundamental para os alunos é aprender a usar ferramentas de análise de dados, como o pacote de software de código aberto da Apache Hadoop que fornece ferramentas para armazenar, gerir e processar grandes dados.

Neste laboratório, os estudantes utilizarão uma versão comercial popular de Hadoop fornecida pela Cloudera,chamada Plataforma de Dados Hortonworks (HDP). Especificamente, os alunos utilizarão a HDP Sandbox 3.0.1, que é uma versão simplificada e fácil de usar da plataforma que é livre de custos e destinada à aprendizagem e experimentação. Embora esta classe possa utilizar máquinas virtuais Windows ou Linux (VM) com a Sandbox HDP implantada, este artigo mostrará como usar o Windows.

Outro aspeto interessante deste laboratório é que vamos implantar a Caixa de Areia HDP nos VMs do laboratório usando contentores Docker. Cada recipiente Docker fornece o seu próprio ambiente isolado para aplicações de software para executar dentro. Conceptualmente, os contentores Docker são como VMs aninhados e podem ser usados para implantar e executar facilmente uma grande variedade de aplicações de software com base em imagens de contentores fornecidas no Docker Hub. O script de implementação da Cloudera para a HDP Sandbox puxa automaticamente a imagem de estiva 3.0.1 do Docker Hub e executa dois contentores Docker:

  • sandbox-hdp
  • sandbox-proxy

Configuração de laboratório

Para montar este laboratório, precisa de uma assinatura Azure e uma conta de laboratório para começar. Se não tiver uma subscrição do Azure, crie uma conta gratuita antes de começar. Assim que tiver uma assinatura Azure, pode criar uma nova conta de laboratório nos Serviços Azure Lab. Para obter mais informações sobre a criação de uma nova conta de laboratório, consulte Tutorial para Configurar uma Conta de Laboratório. Também pode usar uma conta de laboratório existente.

Definições de conta de laboratório

Ativar as definições descritas na tabela abaixo para a conta de laboratório. Para obter mais informações sobre como ativar imagens de marketplace, consulte as imagens do Mercado Dese especificar disponíveis para os criadores de laboratório.

Definição de conta de laboratório Instruções
Imagem do Marketplace Ative a imagem do Windows 10 Pro para utilização na sua conta de laboratório.

Configurações de laboratório

Utilize as definições na tabela abaixo ao configurar um laboratório de sala de aula. Para obter mais informações sobre como criar um laboratório de sala de aula, consulte a criação de um tutorial de laboratório em sala de aula.

Configurações de laboratório Valor/instruções
Tamanho da máquina virtual Médio (Virtualização Aninhada). Este tamanho VM é mais adequado para bases de dados relacionais, caching na memória e análise. Este tamanho também suporta a virtualização aninhada.
Imagem de máquina virtual Windows 10 Pro

Nota

Precisamos de usar o Medium (Nested Virtualization) uma vez que a implementação da Caixa de Areia HDP utilizando o Docker requer:

  • Hiper-V do Windows com virtualização aninhada
  • Pelo menos 10 GB de RAM

Configuração da máquina do modelo

Para configurar a máquina de modelo, iremos:

  • Instalar o Docker
  • Implementar caixa de areia HDP
  • Utilize o Programador de Tarefas PowerShell e Windows para iniciar automaticamente os contentores Docker

Instalar o Docker

Os passos desta secção baseiam-se nas instruções da Cloudera para implantar com os contentores docker.

Para utilizar os recipientes Docker, tem primeiro de instalar o Docker Desktop no modelo VM:

  1. Siga os passos na secção Pré-Requisitos para instalar o Docker para o Windows.

    Importante

    Certifique-se de que os recipientes Use Windows em vez da opção de configuração de contentores Linux não são controlados.

  2. Certifique-se de que os recipientes do Windows e as funcionalidades de Hiper-V estão ligados. Ativar ou desativar funcionalidades do Windows

  3. Siga os passos na secção Memória do Windows para configurar a configuração de memória do Docker.

    Aviso

    Se verificar inadvertidamente os recipientes Use Windows em vez da opção de recipientes Linux ao instalar o Docker, não verá as definições de configuração da memória. Para corrigir isto, pode mudar para a utilização de recipientes Linux clicando no ícone Docker no tabuleiro do Sistema Windows; quando o menu Docker Desktop abrir, selecione Switch para os recipientes Linux.

Implementar caixa de areia HDP

Nesta secção, irá implementar a Sandbox HDP e, em seguida, também aceder à Sandbox HDP utilizando o navegador.

  1. Certifique-se de que instalou git bash conforme listado na secção Pré-requisitos do guia, uma vez que este é recomendado para completar os próximos passos.

  2. Utilizando o Guia de Implantação e Instalação da Cloudera para Docker,complete os passos nas seguintes secções:

    • Implementar caixa de areia HDP
    • Verifique a caixa de areia DO HDP

    Aviso

    Quando descarregar o ficheiro de .zip mais recente para o HDP, certifique-se de que não guarda o ficheiro .zip num caminho de diretório que inclua o whitespace.

    Nota

    Se receber uma exceção durante a implementação afirmando que a Drive não foi partilhada, tem de partilhar a sua unidade C com o Docker para que os contentores Linux da HDP possam aceder aos ficheiros locais do Windows. Para corrigir isto, clique no ícone Docker no tabuleiro do Sistema Windows para abrir o menu Docker Desktop e selecionar Definições. Quando o diálogo de Definições do Docker abrir, selecione Recursos > Partilha de Ficheiros e verifique a unidade C. Em seguida, pode repetir os passos para implantar a Caixa de Areia HDP.

  3. Uma vez implantados e em funcionamento os contentores Docker para a Sandbox HDP, pode aceder ao ambiente lançando o seu navegador e seguindo as instruções da Cloudera para abrir a Página de Boas-Vindas da Sandbox e lançar o Painel de Instrumentos HDP.

    Nota

    Estas instruções pressupõem que mapeou pela primeira vez o endereço IP local do ambiente da caixa de areia para o sandbox-hdp.hortonworks.com no ficheiro anfitrião no seu VM modelo. Se não fizer este mapeamento, pode aceder à página De boas-vindas da Sandbox navegando para http://localhost:8080 .

Inicie automaticamente os recipientes Docker quando os alunos iniciarem o login

Para proporcionar uma experiência fácil de usar para os alunos, usaremos um script PowerShell que automaticamente:

  • Inicia os contentores HDP Sandbox Docker quando um aluno começa e liga-se ao seu VM de laboratório.
  • Lança o navegador e navega para a Página de Boas-Vindas da Sandbox. Também usaremos o Windows Task Scheduler para executar automaticamente este script quando um aluno entrar no seu VM. Para configurar isto, siga estes passos: Scripting Big Data Analytics.

Estimativa de custos

Se quiser estimar o custo deste laboratório, pode usar o seguinte exemplo.

Para uma turma de 25 alunos com 20 horas de horário de aula programado e 10 horas de quota para trabalhos de casa ou tarefas, o preço para o laboratório seria:

  • 25 alunos * (20 + 10) horas * 55 Unidades de Laboratório * 0,01 USD por hora = 412,50 USD

Mais detalhes sobre os preços, consulte o Azure Lab Services Pricing.

Conclusão

Este artigo acompanhou-o através dos passos necessários para criar um laboratório para uma grande classe de análise de dados que usa a Plataforma de Dados Hortonworks implementada com o Docker. A configuração para este tipo de classe pode ser usada para classes de análise de dados semelhantes. Esta configuração também pode ser aplicável a outros tipos de classes que usam Docker para implantação.

Passos seguintes

Os próximos passos são comuns para montar qualquer laboratório.