Format Binary (binaire) dans Azure Data Factory et Azure Synapse Analytics

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

Le format Binaire est pris en charge pour les connecteurs suivants : Amazon S3, Amazon S3 Compatible Storage, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, HTTP, Oracle Cloud Storage et SFTP.

Vous pouvez utiliser un jeu de données Binaire dans l’activité Copie, l'activité GetMetadata ou l’activité Suppression. Lors de l’utilisation d’un jeu de données Binary (binaire), le service n’analyse pas le contenu du fichier, mais le traite tel quel.

Notes

Lors de l’utilisation d’un jeu de données Binaire dans l’activité de copie, vous pouvez uniquement effectuer une copie à partir d’un jeu de données binaire vers un jeu de données binaire.

Propriétés du jeu de données

Pour obtenir la liste complète des sections et propriétés disponibles pour la définition de jeux de données, consultez l’article Jeux de données. Cette section fournit la liste des propriétés prises en charge par le jeu de données Binaire.

Propriété Description Obligatoire
type La propriété type du jeu de données doit être définie sur Binaire. Oui
location Paramètres d’emplacement du ou des fichiers. Chaque connecteur basé sur un fichier possède ses propres type d’emplacement et propriétés prises en charge sous location. Consultez les détails dans l’article du connecteur -> section des propriétés du jeu de données. Oui
compression Groupe de propriétés pour configurer la compression de fichier. Configurez cette section lorsque vous souhaitez effectuer la compression/décompression lors de l’exécution de l’activité. Non
type Le codec de compression utilisé pour lire/écrire des fichiers binaires.
Les valeurs autorisées sont bzip2, gzip, deflate, ZipDeflate, Tar et TarGzip.
Remarque : Lorsque l’activité de copie est utilisée pour décompresser un ou plusieurs fichiers ZipDeflate/TarGzip/Tar et écrire dans un magasin de données récepteur basé sur des fichiers, les fichiers sont par défaut extraits dans le dossier <path specified in dataset>/<folder named as source compressed file>/. Utilisez preserveZipFileNameAsFolder/preserveCompressionFileNameAsFolder sur source de l’activité de copie pour déterminer si le nom du ou des fichiers compressés doit être conservé comme structure de dossier.
Non
level Le taux de compression. Appliquez quand le jeu de données est utilisé dans le récepteur d’activité de copie.
Les valeurs autorisées sont Optimal ou Fastest.
- Fastest (le plus rapide) : l’opération de compression doit se terminer le plus rapidement possible, même si le fichier résultant n’est pas compressé de façon optimale.
- Optimal : l’opération de compression doit aboutir à une compression optimale, même si elle prend plus de temps. Pour plus d’informations, consultez la rubrique Niveau de compression .
Non

Voici un exemple de jeu de données Binaire sur Stockage Blob Azure :

{
    "name": "BinaryDataset",
    "properties": {
        "type": "Binary",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "compression": {
                "type": "ZipDeflate"
            }
        }
    }
}

Propriétés de l’activité de copie

Pour obtenir la liste complète des sections et des propriétés disponibles pour la définition des activités, consultez l’article Pipelines. Cette section fournit la liste des propriétés prises en charge par la source et le récepteur binaires.

Notes

Lors de l’utilisation d’un jeu de données Binaire dans l’activité de copie, vous pouvez uniquement effectuer une copie à partir d’un jeu de données binaire vers un jeu de données binaire.

Binaire en tant que source

Les propriétés prises en charge dans la section *source* de l’activité de copie sont les suivantes.

Propriété Description Obligatoire
type La propriété type de la source de l’activité de copie doit être définie sur BinarySource. Oui
formatSettings Un groupe de propriétés. Reportez-vous au tableau Paramètres de lecture binaire ci-dessous. Non
storeSettings Un groupe de propriétés sur la façon de lire les données d’un magasin de données. Chaque connecteur basé sur un fichier possède ses propres paramètres de lecture pris en charge sous storeSettings. Consultez les détails dans l’article du connecteur -> section des propriétés de l’activité de copie. Non

Paramètres de lecture binaire pris en charge sous formatSettings :

Propriété Description Obligatoire
type Le type de formatSettings doit être défini sur BinaryReadSettings. Oui
compressionProperties Groupe de propriétés permettant de décompresser les données d’un codec de compression spécifique. Non
preserveZipFileNameAsFolder
(sous compressionProperties->type en tant que ZipDeflateReadSettings)
S’applique lorsque le jeu de données d’entrée est configuré avec la compression ZipDeflate. Indique si le nom du fichier zip source doit être conservé en tant que structure de dossiers lors de la copie.
– Lorsque la valeur est définie sur true (par défaut) , le service écrit les fichiers décompressés dans <path specified in dataset>/<folder named as source zip file>/.
– Lorsque la valeur est définie sur false, le service écrit les fichiers décompressés directement dans <path specified in dataset>. Assurez-vous de ne pas avoir de noms de fichiers dupliqués dans les différents fichiers zip sources afin d’éviter toute course ou tout comportement inattendu.
Non
preserveCompressionFileNameAsFolder
(sous compressionProperties->type en tant que TarGZipReadSettings ou TarReadSettings)
S'applique lorsque le jeu de données d'entrée est configuré avec la compression TarGzip/Tar. Indique si le nom du fichier source compressé doit être conservé en tant que structure de dossiers lors de la copie.
– Lorsque la valeur est définie sur true (par défaut) , le service écrit les fichiers décompressés dans <path specified in dataset>/<folder named as source compressed file>/.
– Lorsque la valeur est définie sur false, le service écrit les fichiers décompressés directement dans <path specified in dataset>. Assurez-vous de ne pas avoir de noms de fichiers en double dans différents fichiers sources afin d’éviter toute course ou tout comportement inattendu.
Non
"activities": [
    {
        "name": "CopyFromBinary",
        "type": "Copy",
        "typeProperties": {
            "source": {
                "type": "BinarySource",
                "storeSettings": {
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true,
                    "deleteFilesAfterCompletion": true
                },
                "formatSettings": {
                    "type": "BinaryReadSettings",
                    "compressionProperties": {
                        "type": "ZipDeflateReadSettings",
                        "preserveZipFileNameAsFolder": false
                    }
                }
            },
            ...
        }
        ...
    }
]

Binaire en tant que récepteur

Les propriétés prises en charge dans la section *récepteur* de l’activité de copie sont les suivantes.

Propriété Description Obligatoire
type La propriété type de la source d’activité de copie doit être définie sur BinarySink. Oui
storeSettings Groupe de propriétés sur la méthode d’écriture de données dans un magasin de données. Chaque connecteur basé sur un fichier possède ses propres paramètres d’écriture pris en charge sous storeSettings. Consultez les détails dans l’article du connecteur -> section des propriétés de l’activité de copie. Non