Como montar um S3 para camadas do HDFS em um cluster de Big Data

As seções a seguir fornecem um exemplo de como configurar camadas do HDFS com uma fonte de dados de Armazenamento S3.

Importante

O complemento Clusters de Big Data do Microsoft SQL Server 2019 será desativado. O suporte para Clusters de Big Data do SQL Server 2019 será encerrado em 28 de fevereiro de 2025. Todos os usuários existentes do SQL Server 2019 com Software Assurance terão suporte total na plataforma e o software continuará a ser mantido por meio de atualizações cumulativas do SQL Server até esse momento. Para obter mais informações, confira a postagem no blog de anúncio e as opções de Big Data na plataforma do Microsoft SQL Server.

Pré-requisitos

  • Cluster de Big Data implantado
  • Ferramentas de Big Data
    • azdata
    • kubectl
  • Criar e fazer upload de dados em um bucket do S3
    • Faça upload de arquivos CSV ou Parquet em seu bucket de S3. Estes são os dados do HDFS externos que serão montados no HDFS no cluster de Big Data.

Chaves de acesso

Definir variável de ambiente para credenciais de chave de acesso

Abra um prompt de comando em um computador cliente que possa acessar o cluster de Big Data. Defina uma variável de ambiente usando o formato a seguir. As credenciais precisam estar em uma lista separada por vírgula. O comando 'set' é usado no Windows. Se estiver usando o Linux, use 'export'.

 set MOUNT_CREDENTIALS=fs.s3a.access.key=<Access Key ID of the key>,
 fs.s3a.secret.key=<Secret Access Key of the key>

Dica

Para obter mais informações sobre como criar chaves de acesso de S3, consulte Chaves de acesso de S3.

Montar o armazenamento HDFS remoto

Agora que preparou um arquivo de credencial com chaves de acesso, você pode iniciar a montagem. As etapas a seguir montam o armazenamento HDFS remoto no S3 no armazenamento HDFS local de seu cluster de Big Data.

  1. Use kubectl para localizar o endereço IP do serviço controller-svc-external do ponto de extremidade em seu cluster de Big Data. Procure External-IP.

    kubectl get svc controller-svc-external -n <your-big-data-cluster-name>
    
  2. Faça logon com azdata usando o endereço IP externo do ponto de extremidade do controlador com o nome de usuário e a senha do cluster:

    azdata login -e https://<IP-of-controller-svc-external>:30080/
    
  3. Defina a variável de ambiente MOUNT_CREDENTIALS seguindo as instruções acima

  4. Monte o armazenamento HDFS remoto no Azure usando azdata bdc hdfs mount create. Substitua os valores de espaço reservado antes de executar o seguinte comando:

    azdata bdc hdfs mount create --remote-uri s3a://<S3 bucket name> --mount-path /mounts/<mount-name>
    

    Observação

    O comando mount create é assíncrono. Neste momento, não há nenhuma mensagem indicando se a montagem foi bem-sucedida. Confira a seção status para verificar o status das montagens.

Se a montagem tiver sido bem-sucedida, você poderá consultar os dados do HDFS e executar trabalhos do Spark com eles. Ela será exibida no HDFS do cluster de Big Data na localização especificada por --mount-path.

Obter o status das montagens

Para listar o status de todas as montagens no cluster de Big Data, use o seguinte comando:

azdata bdc hdfs mount status

Para listar o status de uma montagem em um caminho específico no HDFS, use o seguinte comando:

azdata bdc hdfs mount status --mount-path <mount-path-in-hdfs>

Atualizar uma montagem

O exemplo a seguir atualiza a montagem.

azdata bdc hdfs mount refresh --mount-path <mount-path-in-hdfs>

Excluir a montagem

Para excluir a montagem, use o comando azdata bdc hdfs mount delete e especifique o caminho da montagem no HDFS:

azdata bdc hdfs mount delete --mount-path <mount-path-in-hdfs>