Copiar dados do armazenamento de Blob do Azure para um Banco de Dados SQL usando a ferramenta Copiar Dados

Artigo
11/02/2023

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

Neste tutorial, irá utilizar o portal do Azure para criar uma fábrica de dados. Em seguida, use a ferramenta Copiar Dados para criar um pipeline que copia dados do armazenamento de Blob do Azure para um Banco de Dados SQL.

Nota

Se não estiver familiarizado com o Azure Data Factory, veja Introdução ao Azure Data Factory.

Neste tutorial, vai executar os seguintes passos:

Criar uma fábrica de dados.
Utilizar a ferramenta Copiar Dados para criar um pipeline.
Monitorizar o pipeline e execuções de atividades.

Pré-requisitos

Subscrição do Azure: se não tem uma subscrição do Azure, crie uma conta gratuita antes de começar.
Conta de Armazenamento do Azure: use o armazenamento de Blob como o armazenamento de dados de origem . Se você não tiver uma conta de Armazenamento do Azure, consulte as instruções em Criar uma conta de armazenamento.
Banco de Dados SQL do Azure: use um Banco de Dados SQL como o armazenamento de dados do coletor . Se você não tiver um Banco de Dados SQL, consulte as instruções em Criar um Banco de Dados SQL.

Preparar o banco de dados SQL

Permita que os serviços do Azure acessem o SQL Server lógico do seu Banco de Dados SQL do Azure.

Verifique se a configuração Permitir que os serviços e recursos do Azure acessem este servidor está habilitada para o servidor que está executando o Banco de Dados SQL. Esta definição permite que o Data Factory escreva dados na instância da sua base de dados. Para verificar e ativar essa configuração, vá para Firewalls de Segurança lógicos do SQL Server > e redes > virtuais defina a opção Permitir que os serviços e recursos do Azure acessem este servidor como ATIVADO.>

Nota

A opção para Permitir que os serviços e recursos do Azure acessem esse servidor permite o acesso de rede ao seu SQL Server a partir de qualquer recurso do Azure, não apenas daqueles em sua assinatura. Pode não ser apropriado para todos os ambientes, mas é apropriado para este tutorial limitado. Para obter mais informações, consulte Regras do Firewall do SQL Server do Azure. Em vez disso, você pode usar pontos de extremidade privados para se conectar aos serviços PaaS do Azure sem usar IPs públicos.

Criar um blob e uma tabela SQL

Prepare seu armazenamento de Blob e seu Banco de Dados SQL para o tutorial executando estas etapas.

Criar um blob de origem

Inicie o Bloco de Notas. Copie o seguinte texto e guarde-o num ficheiro com o nome inputEmp.txt no seu disco:
```
FirstName|LastName
John|Doe
Jane|Doe
```
Crie um contentor com o nome adfv2tutorial e carregue o ficheiro inputEmp.txt para o contentor. Você pode usar o portal do Azure ou várias ferramentas, como o Gerenciador de Armazenamento do Azure, para executar essas tarefas.

Criar uma tabela SQL sink

Use o seguinte script SQL para criar uma tabela nomeada dbo.emp em seu Banco de dados SQL:

CREATE TABLE dbo.emp
(
    ID int IDENTITY(1,1) NOT NULL,
    FirstName varchar(50),
    LastName varchar(50)
)
GO
CREATE CLUSTERED INDEX IX_emp_ID ON dbo.emp (ID);

Criar uma fábrica de dados

No menu à esquerda, selecione Criar um recurso>Integration>Data Factory:
Na página Nova fábrica de dados, em Nome, introduza ADFTutorialDataFactory.

O nome da fábrica de dados tem de ser globalmente exclusivo. Poderá receber a seguinte mensagem de erro:

Se receber uma mensagem de erro relacionada com o valor do nome, introduza um nome diferente para a fábrica de dados. Por exemplo, utilize o nome oseunomeADFTutorialDataFactory. Para ter acesso às regras de nomenclatura para artefactos do Data Factory, veja Regras de nomenclatura do Data Factory.
Selecione a subscrição do Azure na qual quer criar a nova fábrica de dados.
Em Grupo de Recursos, efetue um destes passos:

a. Selecione Utilizar existente e selecione um grupo de recursos já existente na lista pendente.

b. Selecione Criar novo e introduza o nome de um grupo de recursos.

Para saber mais sobre grupos de recursos, veja Utilizar grupos de recursos para gerir os recursos do Azure.
Em Versão, selecione V2 para indicar a versão.
Em Localização, selecione a localização da fábrica de dados. Apenas são apresentadas as localizações suportadas na lista pendente. Os arquivos de dados (por exemplo, o Armazenamento do Azure e a Base de Dados SQL) e as computações (por exemplo, o Azure HDInsight) utilizados pela fábrica de dados podem estar noutras localizações e regiões.
Selecione Criar.
Depois de concluída a criação, é apresentada a home page Fábrica de Dados.
Para iniciar a interface do usuário (UI) do Azure Data Factory em uma guia separada, selecione Abrir no bloco Abrir o Azure Data Factory Studio .

Utilizar a ferramenta Copiar Dados para criar um pipeline

Na home page do Azure Data Factory, selecione o bloco Ingest para iniciar a ferramenta Copiar Dados.
Na página Propriedades da ferramenta Copiar Dados, escolha Tarefa de cópia interna em Tipo de tarefa e selecione Avançar.
Na página Arquivo de dados de origem, conclua os seguintes passos:

a. Selecione + Criar nova conexão para adicionar uma conexão .

b. Selecione Armazenamento de Blobs do Azure na galeria e, em seguida, selecione Continuar.

c. Na página Nova conexão (Armazenamento de Blobs do Azure), selecione sua assinatura do Azure na lista de assinaturas do Azure e selecione sua conta de armazenamento na lista Nome da conta de armazenamento. Teste a conexão e selecione Criar.

d. Selecione o serviço vinculado recém-criado como origem no bloco Conexão .

e. Na seção Arquivo ou pasta, selecione Procurar para navegar até a pasta adfv2tutorial, selecione o arquivo inputEmp.txt e selecione OK.

f. Selecione Avançar para passar para a próxima etapa.
Na página Configurações de formato de arquivo, habilite a caixa de seleção Primeira linha como cabeçalho. Observe que a ferramenta deteta automaticamente os delimitadores de coluna e linha, e você pode visualizar dados e visualizar o esquema dos dados de entrada selecionando o botão Visualizar dados nesta página. Em seguida, selecione Seguinte.
Na página Arquivo de dados de destino, conclua os seguintes passos:

a. Selecione + Criar nova conexão para adicionar uma conexão .

b. Selecione Banco de Dados SQL do Azure na galeria e, em seguida, selecione Continuar.

c. Na página Nova conexão (Banco de Dados SQL do Azure), selecione sua assinatura do Azure, nome do servidor e nome do banco de dados na lista suspensa. Em seguida, selecione Autenticação SQL em Tipo de autenticação, especifique o nome de usuário e a senha. Teste a conexão e selecione Criar.

d. Selecione o serviço vinculado recém-criado como coletor e, em seguida, selecione Avançar.
Na página Armazenamento de dados de destino, selecione Usar tabela existente e selecione a dbo.emp tabela. Em seguida, selecione Seguinte.
Na página Mapeamento de coluna, observe que a segunda e a terceira colunas no arquivo de entrada são mapeadas para as colunas FirstName e LastName da tabela emp. Ajuste o mapeamento para certificar-se de que não há erro e, em seguida, selecione Avançar.
Na página Configurações, em Nome da tarefa, digite CopyFromBlobToSqlPipeline e selecione Avançar.
Na página Resumo, reveja as definições e depois selecione Seguinte.
Na Página de implementação, selecione Monitorizar para monitorizar o pipeline (tarefa).
Na página Pipeline runs, selecione Atualizar para atualizar a lista. Selecione o link em Nome do pipeline para exibir os detalhes da execução da atividade ou executar novamente o pipeline .
Na página "A atividade é executada", selecione o link Detalhes (ícone de óculos) na coluna Nome da atividade para obter mais detalhes sobre a operação de cópia. Para voltar à visualização "Pipeline runs", selecione o link All pipeline runs no menu breadcrumb. Para atualizar a vista, selecione Atualizar.
Verifique se os dados estão inseridos na tabela dbo.emp no Banco de dados SQL.
Selecione o separador Criar à esquerda para mudar para o modo de edição. Pode atualizar os serviços ligados, os conjuntos de dados e os pipelines criados através da ferramenta com o editor. Para obter detalhes de edição sobre estas entidades na IU do Data Factory, veja a versão do portal do Azure deste tutorial.