Tutorial: Criar um pipeline com Atividade de Cópia com o Assistente de Cópia do Data Factory

Nota

Este artigo aplica-se à versão 1 do Data Factory. Se estiver a utilizar a versão atual do serviço Data Factory, veja tutorial de atividade de cópia.

Este tutorial mostra-lhe como usar o Copy Wizard para copiar dados de um armazenamento de bolhas Azure para Base de Dados SQL do Azure.

O Assistente de Cópia do Azure Data Factorypermite criar rapidamente um pipeline de dados que copia dados de um arquivo de dados de origem suportado para um arquivo de dados de destino suportado. Consequentemente, recomendamos que o utilize como primeiro passo para criar um pipeline de exemplo para o cenário de movimento de dados. Para obter uma lista dos arquivos de dados suportados como origens e destinos, veja Supported data stores (Arquivos de dados suportados).

Este tutorial mostra-lhe como criar uma fábrica de dados do Azure, iniciar o Assistente de Cópia e passar por uma série de passos para fornecer os detalhes sobre o seu cenário de ingestão/movimento de dados. Quando termina os passos no assistente, o assistente cria automaticamente um pipeline com uma Atividade de Cópia para copiar dados de um armazenamento de bolhas Azure para Base de Dados SQL do Azure. Para obter mais informações sobre a Atividade de Cópia, veja Data movement activities (Atividades de movimento de dados).

Pré-requisitos

Antes de seguir este tutorial, conclua os pré-requisitos listados na Descrição Geral do Tutorial.

Criar fábrica de dados

Neste passo, irá utilizar o Portal do Azure para criar uma fábrica de dados do Azure com o nome ADFTutorialDataFactory.

  1. Inicie sessão no portal do Azure.

  2. Clique em Criar um recurso no canto superior esquerdo, clique em Dados + análise e clique em Data Factory.

    DataFactory de nova >

  3. No painel Nova fábrica de dados:

    1. Introduza ADFTutorialDataFactory como nome. O nome do Azure Data Factory deve ser globalmente exclusivo. Se receber o erro Data factory name "ADFTutorialDataFactory" is not available, altere o nome da fábrica de dados (por exemplo, oseunomeADFTutorialDataFactoryAAAAMMDD) e tente criá-la novamente. Veja o tópico Data Factory – Naming Rules (Data Factory – Regras de Nomenclatura) para obter as regras de nomenclatura dos artefactos do Data Factory.

      Nome do Data Factory não disponível

    2. Selecione a sua subscrição Azure.

    3. No Grupo de Recursos, siga um destes passos:

      • Selecione Utilizar existente para selecionar um grupo de recursos já existente.

      • Selecione Criar novo para introduzir um nome para um grupo de recursos.

        Alguns dos passos deste tutorial pressupõe que utiliza o nome: ADFTutorialResourceGroup para o grupo de recursos. Para saber mais sobre os grupos de recursos, veja Utilizar grupos de recursos para gerir os recursos do Azure.

    4. Selecione uma localização para a fábrica de dados.

    5. Selecione a caixa de verificação Afixar ao dashboard, na parte inferior do painel.

    6. Clique em Criar.

      Painel Nova fábrica de dados

  4. Após a criação estar concluída, vê a lâmina da Fábrica de Dados como mostrado na seguinte imagem:

    Home page da fábrica de dados

Inicie o Assistente de Cópia

  1. No painel do Data Factory, clique em Copiar dados para iniciar o Assistente de Cópia.

    Nota

    Se vir que o browser bloqueia enquanto estiver a "A autorizar…", desative/desmarque a definição Bloquear cookies de terceiros e dados do site nas definições do browser (ou) mantenha-a ativada e crie uma exceção para login.microsoftonline.com e, em seguida, tente iniciar novamente o assistente.

  2. Na página Propriedades:

    1. Introduza CopyFromBlobToAzureSql para Nome da tarefa

    2. Introduza Descrição (opcional).

    3. Altere a Hora de data de início e a Hora de data de fim, para que a data de fim esteja definida como a data de hoje e a de início como cinco dias antes.

    4. Clique em Seguinte.

      Página Ferramenta Copiar – Propriedades

  3. Na página Arquivo de dados de origem, clique no mosaico Blob Storage do Azure. Utilize esta página para especificar o arquivo de dados de origem para a tarefa de cópia.

    Página Ferramenta Copiar – Arquivo de dados de origem

  4. Na página Especificar a conta de armazenamento de blobs do Azure:

    1. Introduza AzureStorageLinkedService para Nome do serviço ligado.

    2. Confirme que a opção A partir de subscrições do Azure está selecionada para o Método de seleção de contas.

    3. Selecione a sua subscrição Azure.

    4. Selecione uma Conta de armazenamento do Azure na lista das contas de armazenamento do Azure disponíveis na subscrição selecionada. Também pode optar por introduzir manualmente as definições da conta de armazenamento selecionando a opção Introduzir manualmente para Método de seleção de contas e, em seguida, clicar em Seguinte.

      Ferramenta Copiar – Especificar a conta de armazenamento de blobs do Azure

  5. Na página Escolher o ficheiro ou pasta de entrada:

    1. Faça duplo clique em adftutorial (pasta).

    2. Selecione emp.txt e clique em Escolher

      A screenshot mostra a opção Escolher para o seu ficheiro de entrada.

  6. Na página Escolher o ficheiro ou pasta de entrada, clique em Seguinte. Não selecione Cópia binária.

    A screenshot mostra a opção de cópia Binary para a sua entrada.

  7. Na página Definições do formato de ficheiro, pode ver os delimitadores e o esquema que é detetado automaticamente pelo assistente ao analisar o ficheiro. Também pode introduzir os delimitadores manualmente para o Assistente de Cópia parar a deteção automática ou para substituir. Clique em Seguinte depois de rever os delimitadores e pré-visualizar os dados.

    Ferramenta Copiar – Definições do formato de ficheiro

  8. Na página de Arquivo de dados de destino, selecione Base de Dados SQL do Azure e clique em Seguinte.

    Ferramenta Copiar - escolher arquivo de destino

  9. Na página Especificar a base de dados SQL do Azure:

    1. Introduza AzureSqlLinkedService no campo Nome da ligação.

    2. Confirme que a opção A partir de subscrições do Azure está selecionada para o Método de seleção de servidor/base de dados.

    3. Selecione a sua subscrição Azure.

    4. Selecione Nome do servidor e Base de dados.

    5. Introduza o Nome de utilizador e a Palavra-passe.

    6. Clique em Seguinte.

      Ferramenta de cópia - especifique Base de Dados SQL do Azure

  10. Na página Mapeamento de tabelas, selecione emp para o campo Destino na lista pendente, clique na seta para baixo (opcional) para ver o esquema e pré-visualizar os dados.

    Ferramenta Copiar – Mapeamento da tabelas

  11. Na página Mapeamento de esquemas, clique em Seguinte.

    Ferramenta Copiar - mapeamento de esquema

  12. Na página Definições de desempenho, clique em Seguinte.

    A screenshot mostra a página de definições de desempenho onde pode selecionar Seguinte.

  13. Reveja as informações na página Resumo e clique em Concluir. O assistente cria dois serviços ligados, dois conjuntos de dados (entrada e saída) e um pipeline na fábrica de dados (a partir da qual iniciou o Assistente de Cópia).

    A screenshot mostra a página Resumo onde pode selecionar Seguinte.

Iniciar o Monitor e Gerir a Aplicação

  1. Na página Implementação, clique na ligação: Click here to monitor copy pipeline.

    Ferramenta Copiar – Implementação concluída com êxito

  2. A aplicação de monitorização é iniciada num separador separado no browser.

    Aplicação de Monitorização

  3. Para ver o estado mais recente dos setores por hora, clique no botão Atualizar na lista JANELAS DE ATIVIDADE, na parte inferior. Vê cinco janelas de atividade para cinco dias entre as horas de início e de fim do pipeline. A lista não é atualizada automaticamente, pelo que pode ter de clicar em Atualizar algumas vezes antes de ver todas as janelas de atividade no estado Pronto.

  4. Selecione uma janela de atividade na lista. Veja os detalhes sobre a mesma no Explorador de Janelas de Atividade à direita.

    Detalhes da janela de atividade

    Tenha em atenção que as datas 11, 12, 13, 14 e 15 são apresentadas a verde, o que significa que os setores de saída diários para essas datas já foram produzidos. Também pode ver esta codificação por cores no pipeline e o conjunto de dados de saída no modo de diagrama. No passo anterior, tenha em atenção que dois setores já foram produzidos, um deles está a ser processado atualmente e os outros dois estão a aguardar o processamento (com base na codificação por cores).

    Para obter mais informações sobre como utilizar esta aplicação, veja o artigo Monitorizar e gerir o pipeline com a Aplicação de Monitorização.

Passos seguintes

Neste tutorial, utilizou o armazenamento de blob Azure como uma loja de dados de origem e Base de Dados SQL do Azure como uma loja de dados de destino numa operação de cópia. A tabela seguinte disponibiliza uma lista dos arquivos de dados que a atividade de cópia suporta como origens e destinos:

Categoria Arquivo de dados Suportado como origem Suportado como sink
Azure Armazenamento de Blobs do Azure
  Azure Cosmos DB (SQL API)
  Armazenamento do Azure Data Lake Ger1
  Base de Dados SQL do Azure
  Azure Synapse Analytics
  Índice de Pesquisa Cognitiva Azure
  Armazenamento de tabelas do Azure
Bases de dados Amazon Redshift
  DB2*
  MySQl*
  Oráculo*
  Postgresql*
  Armazém de Negócios SAP*
  SAP HANA*
  SQL Server*
  Sybase*
  Rio Teradata*
NoSQL Cassandra*
  MongoDB*
Ficheiro Amazon S3
  Sistema de Ficheiros*
  FTP
  HDFS*
  SFTP
Outros HTTP genérico
  OData genérico
  ODBC genérico*
  Salesforce
  Tabela Web (tabela de HTML)

Para obter detalhes sobre os campos/propriedades que vê no assistente de cópia para um arquivo de dados, clique na ligação do arquivo de dados na tabela.