Processar arquivos de texto de comprimento fixo usando fluxos de dados de mapeamento Data FactoryProcess fixed-length text files by using Data Factory mapping data flows

APLICA-SE A: Azure Data Factory Azure Synapse Analytics (Versão prévia)

Ao usar o mapeamento de fluxos de dados em Microsoft Azure Data Factory, você pode transformar dados de arquivos de texto de largura fixa.By using mapping data flows in Microsoft Azure Data Factory, you can transform data from fixed-width text files. Na tarefa a seguir, definiremos um conjunto de um DataSet para um arquivo de texto sem um delimitador e, em seguida, configuraremos divisões de subcadeias com base na posição ordinal.In the following task, we'll define a dataset for a text file without a delimiter and then set up substring splits based on ordinal position.

Criar um pipelineCreate a pipeline

  1. Selecione + novo pipeline para criar um novo pipeline.Select +New Pipeline to create a new pipeline.

  2. Adicione uma atividade de fluxo de dados, que será usada para processar arquivos de largura fixa:Add a data flow activity, which will be used for processing fixed-width files:

    Pipeline de largura fixa

  3. Na atividade fluxo de dados, selecione novo mapeamento fluxo de dados.In the data flow activity, select New mapping data flow.

  4. Adicione uma transformação de origem, coluna derivada, seleção e coletor:Add a Source, Derived Column, Select, and Sink transformation:

    Fluxo de dados de largura fixa

  5. Configure a transformação origem para usar um novo conjunto de um, que será do tipo de texto delimitado.Configure the Source transformation to use a new dataset, which will be of the Delimited Text type.

  6. Não defina nenhum delimitador de coluna ou cabeçalhos.Don't set any column delimiter or headers.

    Agora, vamos definir pontos de início de campo e comprimentos para o conteúdo deste arquivo:Now we'll set field starting points and lengths for the contents of this file:

    1234567813572468
    1234567813572468
    1234567813572468
    1234567813572468
    1234567813572468
    1234567813572468
    1234567813572468
    1234567813572468
    1234567813572468
    1234567813572468
    1234567813572468
    1234567813572468
    1234567813572468
    
  7. Na guia projeção da transformação origem, você deverá ver uma coluna de cadeia de caracteres denominada column_1.On the Projection tab of your Source transformation, you should see a string column that's named Column_1.

  8. Na coluna derivada, crie uma nova coluna.In the Derived column, create a new column.

  9. Forneceremos nomes simples de colunas como Col1.We'll give the columns simple names like col1.

  10. No construtor de expressões, digite o seguinte:In the expression builder, type the following:

    substring(Column_1,1,4)

    coluna derivada

  11. Repita a etapa 10 para todas as colunas que você precisa analisar.Repeat step 10 for all the columns you need to parse.

  12. Selecione a guia inspecionar para ver as novas colunas que serão geradas:Select the Inspect tab to see the new columns that will be generated:

    Quanto

  13. Use a transformação selecionar transformar para remover qualquer uma das colunas que você não precisa para a transformação:Use the Select transform to remove any of the columns that you don't need for transformation:

    selecionar transformação

  14. Use o coletor para gerar os dados para uma pasta:Use Sink to output the data to a folder:

    coletor de largura fixa

    Veja abaixo a aparência da saída:Here's what the output looks like:

    saída de largura fixa

Os dados de largura fixa agora são divididos, com quatro caracteres cada e atribuídos a Col1, Col2, Col3, COL4 e assim por diante.The fixed-width data is now split, with four characters each and assigned to Col1, Col2, Col3, Col4, and so on. Com base no exemplo anterior, os dados são divididos em quatro colunas.Based on the preceding example, the data is split into four columns.

Próximas etapasNext steps

  • Compile o restante da lógica de fluxo de dados usando as transformaçõesde fluxos de dados de mapeamento.Build the rest of your data flow logic by using mapping data flows transformations.