Traiter des fichiers texte de longueur fixe à l’aide de flux de données de mappage Data FactoryProcess fixed-length text files by using Data Factory mapping data flows

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Vous pouvez transformer les données de fichiers texte de longueur fixe en utilisant des flux de données de mappage dans Microsoft Azure Data Factory.By using mapping data flows in Microsoft Azure Data Factory, you can transform data from fixed-width text files. Dans le cadre de la tâche suivante, nous allons définir un jeu de données pour un fichier texte sans délimiteur, puis configurer des divisions de sous-chaînes en fonction de la position ordinale.In the following task, we'll define a dataset for a text file without a delimiter and then set up substring splits based on ordinal position.

Créer un pipelineCreate a pipeline

  1. Sélectionnez +Nouveau pipeline pour créer un pipeline.Select +New Pipeline to create a new pipeline.

  2. Ajoutez une activité de flux de données qui sera utilisée pour le traitement des fichiers de longueur fixe :Add a data flow activity, which will be used for processing fixed-width files:

    Pipeline de largeur fixe

  3. Dans l’activité de flux de données, sélectionnez Nouveau flux de données de mappage.In the data flow activity, select New mapping data flow.

  4. Ajoutez une transformation de source, de colonne dérivée, de sélection et de récepteur :Add a Source, Derived Column, Select, and Sink transformation:

    Flux de données de largeur fixe

  5. Configurez la transformation de source pour utiliser un nouveau jeu de données de type Texte délimité.Configure the Source transformation to use a new dataset, which will be of the Delimited Text type.

  6. Ne définissez pas d’en-tête ou de délimiteur de colonne.Don't set any column delimiter or headers.

    Nous allons à présent définir des points de départ et des longueurs de champ pour le contenu de ce fichier :Now we'll set field starting points and lengths for the contents of this file:

    1234567813572468
    1234567813572468
    1234567813572468
    1234567813572468
    1234567813572468
    1234567813572468
    1234567813572468
    1234567813572468
    1234567813572468
    1234567813572468
    1234567813572468
    1234567813572468
    1234567813572468
    
  7. Sous l’onglet Projection de votre transformation de source, vous devez voir une colonne de chaîne nommée Column_1.On the Projection tab of your Source transformation, you should see a string column that's named Column_1.

  8. Créez une colonne dans la colonne dérivée.In the Derived column, create a new column.

  9. Nous allons donner des noms simples aux colonnes, tels que col1.We'll give the columns simple names like col1.

  10. Dans le générateur d’expressions, tapez la chaîne suivante :In the expression builder, type the following:

    substring(Column_1,1,4)

    Colonne dérivée

  11. Répétez l’étape 10 pour toutes les colonnes que vous devez analyser.Repeat step 10 for all the columns you need to parse.

  12. Sélectionnez l’onglet Inspecter pour afficher les nouvelles colonnes qui seront générées :Select the Inspect tab to see the new columns that will be generated:

    Inspecter

  13. Utilisez la transformation de sélection (Select) pour supprimer les colonnes dont vous n’avez pas besoin pour la transformation :Use the Select transform to remove any of the columns that you don't need for transformation:

    Transformation de sélection

  14. Utilisez le récepteur (Sink) pour générer les données dans un dossier :Use Sink to output the data to a folder:

    Récepteur de largeur fixe

    Le résultat se présente ainsi :Here's what the output looks like:

    Sortie de largeur fixe

Les données de longueur fixe sont maintenant divisées en groupes de quatre caractères et attribuées à Col1, Col2, Col3, Col4, etc.The fixed-width data is now split, with four characters each and assigned to Col1, Col2, Col3, Col4, and so on. Les données sont divisées en quatre colonnes, conformément à l’exemple précédent.Based on the preceding example, the data is split into four columns.

Étapes suivantesNext steps

  • Créez le reste de votre logique de flux de données à l’aide de transformations de flux de données de mappage.Build the rest of your data flow logic by using mapping data flows transformations.