Kopírování a transformace dat v úložišti objektů BLOB v Azure pomocí Azure Data Factory nebo Azure synapse Analytics

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tento článek popisuje, jak pomocí aktivity kopírování v Azure Data Factory a kanálů Azure synapse kopírovat data z a do úložiště objektů BLOB v Azure. popisuje také způsob použití aktivity Data Flow k transformaci dat v úložišti objektů Blob v Azure. Pokud se chcete dozvědět víc, přečtěte si článek Azure Data Factory a články o sestavování Azure synapse Analytics .

Tip

Další informace o scénáři migrace pro data Lake nebo datový sklad najdete v článku migrace dat ze služby Data Lake nebo datového skladu do Azure.

Podporované funkce

Tento konektor Azure Blob Storage se podporuje pro následující činnosti:

Pro aktivitu kopírování podporuje tento konektor úložiště objektů BLOB:

  • Kopírování objektů blob do a z účtu Azure Storage pro obecné účely a horké nebo studené služby Blob Storage.
  • Kopírování objektů BLOB pomocí klíče účtu, sdíleného přístupového podpisu služby (SAS), instančního objektu nebo spravovaných identit pro ověřování prostředků Azure.
  • Kopírování objektů BLOB z bloků, přidávání nebo objektů blob stránky a kopírování dat pouze do objektů blob bloku.
  • Kopírování objektů blob, jako je, nebo analýza nebo generování objektů BLOB s podporovanými formáty souborů a kompresními kodeky.
  • Při kopírování se zachovává metadata souboru.

Začínáme

K provedení aktivita Copy s kanálem můžete použít jeden z následujících nástrojů nebo sady SDK:

vytvoření propojené služby Azure Blob Storage pomocí uživatelského rozhraní

pomocí následujících kroků vytvořte propojenou službu Azure Blob Storage v uživatelském rozhraní Azure Portal.

  1. V pracovním prostoru Azure Data Factory nebo synapse přejděte na kartu spravovat a vyberte propojené služby a pak klikněte na nová:

  2. vyhledejte objekt blob a vyberte konektor Azure Blob Storage.

    vyberte konektor Azure Blob Storage.

  3. Nakonfigurujte Podrobnosti služby, otestujte připojení a vytvořte novou propojenou službu.

    snímek obrazovky s konfigurací propojené služby Azure Blob Storage

Podrobnosti konfigurace konektoru

Následující části obsahují podrobné informace o vlastnostech, které slouží k definování Data Factory a entit kanálu synapse specifických pro úložiště objektů BLOB.

Vlastnosti propojené služby

Tato konektorová služba BLOB Storage podporuje následující typy ověřování. Podrobnosti najdete v příslušných oddílech.

Poznámka

  • pokud chcete použít veřejný prostředí Azure integration runtime pro připojení k úložišti objektů Blob pomocí možnosti povolit důvěryhodné služby Microsoft pro přístup k tomuto účtu úložiště , který je povolený v bráně Azure Storage firewall, musíte použít spravované ověřování identity.
  • Když použijete příkaz základna nebo COPY k načtení dat do služby Azure synapse Analytics, pokud je zdrojové nebo pracovní úložiště objektů BLOB nakonfigurované s koncovým bodem Azure Virtual Network, musíte použít spravované ověřování identity podle požadavků Azure synapse. Další požadavky na konfiguraci najdete v části věnované ověřování spravované identity .

Poznámka

azure HDInsight a Azure Machine Learning aktivity podporují jenom ověřování, které používá klíče účtu úložiště Azure Blob.

Ověřování klíčů účtu

Pro ověřování klíčů účtu úložiště v Azure Data Factory nebo kanálech synapse jsou podporované následující vlastnosti:

Vlastnost Popis Povinné
typ typeVlastnost musí být nastavena na AzureBlobStorage (navrhovaná) nebo AzureStorage (viz následující poznámky). Yes
připojovací řetězec zadejte informace potřebné pro připojení k Storage pro danou connectionString vlastnost.
Klíč účtu můžete také vložit do Azure Key Vault a získat accountKey konfiguraci z připojovacího řetězce. Další informace najdete v následujících ukázkách a přihlašovací údaje úložiště v článku Azure Key Vault .
Yes
connectVia Prostředí Integration runtime , které se má použít pro připojení k úložišti dat. Můžete použít prostředí Azure Integration runtime nebo místní prostředí Integration runtime (Pokud je vaše úložiště dat v privátní síti). Pokud tato vlastnost není zadaná, služba použije výchozí prostředí Azure Integration runtime. No

Poznámka

Sekundární koncový bod Blob service není podporován, pokud používáte ověřování klíčů účtu. Můžete použít jiné typy ověřování.

Poznámka

Pokud používáte AzureStorage propojenou službu typu, je tato služba stále podporovaná tak, jak je. Doporučujeme ale použít nový AzureBlobStorage typ propojené služby, který předává dál.

Příklad:

{
    "name": "AzureBlobStorageLinkedService",
    "properties": {
        "type": "AzureBlobStorage",
        "typeProperties": {
          "connectionString": "DefaultEndpointsProtocol=https;AccountName=<accountname>;AccountKey=<accountkey>"
        },
        "connectVia": {
          "referenceName": "<name of Integration Runtime>",
          "type": "IntegrationRuntimeReference"
        }
    }
}

Příklad: Uložte klíč účtu do Azure Key Vault

{
    "name": "AzureBlobStorageLinkedService",
    "properties": {
        "type": "AzureBlobStorage",
        "typeProperties": {
            "connectionString": "DefaultEndpointsProtocol=https;AccountName=<accountname>;",
            "accountKey": {
                "type": "AzureKeyVaultSecret",
                "store": {
                    "referenceName": "<Azure Key Vault linked service name>",
                    "type": "LinkedServiceReference"
                },
                "secretName": "<secretName>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Ověřování sdíleného přístupového podpisu

Sdílený přístupový podpis poskytuje delegovaný přístup k prostředkům ve vašem účtu úložiště. Pomocí sdíleného přístupového podpisu můžete pro určitý čas udělit klientovi omezená oprávnění k objektům ve vašem účtu úložiště.

Nemusíte sdílet přístupové klíče k účtu. Sdílený přístupový podpis je identifikátor URI, který v parametrech dotazu zahrnuje všechny informace potřebné pro ověřený přístup k prostředku úložiště. Chcete-li získat přístup k prostředkům úložiště se sdíleným přístupovým podpisem, klient musí předat sdílený přístupový podpis pouze příslušnému konstruktoru nebo metodě.

Další informace o sdílených přístupových podpisech najdete v tématu signatury sdíleného přístupu: Principy modelu sdíleného přístupového podpisu.

Poznámka

Pro použití ověřování pomocí sdíleného přístupového podpisu se podporují tyto vlastnosti:

Vlastnost Popis Povinné
typ typeVlastnost musí být nastavena na AzureBlobStorage (navrhovaná) nebo AzureStorage (viz následující poznámka). Yes
sasUri zadejte identifikátor URI sdíleného přístupového podpisu k prostředkům Storage, jako je například objekt blob nebo kontejner.
Označte toto pole jako SecureString pro bezpečné uložení. Můžete také zadat token SAS v Azure Key Vault, aby se použilo automatické otočení a odebrala se část tokenu. Další informace najdete v následujících ukázkách a přihlašovací údaje uložené v Azure Key Vault.
Yes
connectVia Prostředí Integration runtime , které se má použít pro připojení k úložišti dat. Můžete použít prostředí Azure Integration runtime nebo místní prostředí Integration runtime (Pokud je vaše úložiště dat v privátní síti). Pokud tato vlastnost není zadaná, služba použije výchozí prostředí Azure Integration runtime. No

Poznámka

Pokud používáte AzureStorage propojenou službu typu, je tato služba stále podporovaná tak, jak je. Doporučujeme ale použít nový AzureBlobStorage typ propojené služby, který předává dál.

Příklad:

{
    "name": "AzureBlobStorageLinkedService",
    "properties": {
        "type": "AzureBlobStorage",
        "typeProperties": {
            "sasUri": {
                "type": "SecureString",
                "value": "<SAS URI of the Azure Storage resource e.g. https://<accountname>.blob.core.windows.net/?sv=<storage version>&st=<start time>&se=<expire time>&sr=<resource>&sp=<permissions>&sip=<ip range>&spr=<protocol>&sig=<signature>>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Příklad: Uložte klíč účtu do Azure Key Vault

{
    "name": "AzureBlobStorageLinkedService",
    "properties": {
        "type": "AzureBlobStorage",
        "typeProperties": {
            "sasUri": {
                "type": "SecureString",
                "value": "<SAS URI of the Azure Storage resource without token e.g. https://<accountname>.blob.core.windows.net/>"
            },
            "sasToken": {
                "type": "AzureKeyVaultSecret",
                "store": {
                    "referenceName": "<Azure Key Vault linked service name>", 
                    "type": "LinkedServiceReference"
                },
                "secretName": "<secretName with value of SAS token e.g. ?sv=<storage version>&st=<start time>&se=<expire time>&sr=<resource>&sp=<permissions>&sip=<ip range>&spr=<protocol>&sig=<signature>>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Při vytváření identifikátoru URI sdíleného přístupového podpisu Vezměte v úvahu následující body:

  • Nastavte odpovídající oprávnění ke čtení a zápisu pro objekty na základě způsobu, jakým se používá propojená služba (čtení, zápis, čtení a zápis).
  • Nastavte odpovídající čas vypršení platnosti . ujistěte se, že přístup k Storage objektům nevyprší v aktivním období kanálu.
  • Identifikátor URI by měl být vytvořen na správném kontejneru nebo objektu BLOB na základě potřeby. Identifikátor URI sdíleného přístupového podpisu pro objekt BLOB umožňuje službě Data Factory nebo kanálu synapse přístup k tomuto konkrétnímu objektu BLOB. Identifikátor URI sdíleného přístupového podpisu kontejneru úložiště objektů BLOB umožňuje, aby kanál Data Factory nebo synapse iterovat objekty BLOB v tomto kontejneru. Pokud chcete později poskytnout přístup k více nebo méně objektům nebo aktualizovat identifikátor URI sdíleného přístupového podpisu, nezapomeňte aktualizovat propojenou službu pomocí nového identifikátoru URI.

Ověřování instančních objektů

obecné informace o Azure Storage ověřování instančního objektu najdete v tématu ověření přístupu k Azure Storage pomocí Azure Active Directory.

Chcete-li použít ověřování instančního objektu, postupujte takto:

  1. pomocí registrace aplikace v tenantovi azure adzaregistrujte entitu aplikace v Azure Active Directory (Azure ad). Poznamenejte si tyto hodnoty, které použijete k definování propojené služby:

    • ID aplikace
    • Klíč aplikace
    • ID tenanta
  2. Udělte instančnímu objektu správné oprávnění ve službě Azure Blob Storage. Další informace o rolích najdete v tématu použití Azure Portal k přiřazení role Azure pro přístup k datům objektů BLOB a front.

    • jako zdroj v řízení přístupu (IAM) udělte aspoň roli Storage Blob Data Reader .
    • jako jímka udělte v řízení přístupu (IAM) aspoň Storage roli přispěvatel dat objektů Blob .

Tyto vlastnosti jsou podporované pro propojenou službu Azure Blob Storage:

Vlastnost Popis Povinné
typ Vlastnost Type musí být nastavená na AzureBlobStorage. Yes
serviceEndpoint Zadejte koncový bod služby Azure Blob Storage se vzorem https://<accountName>.blob.core.windows.net/ . Yes
accountKind Zadejte druh účtu úložiště. povolené hodnoty jsou: Storage (pro obecné účely v1), StorageV2 (obecné účely v2), BlobStorage nebo BlockBlobStorage.

Pokud používáte propojenou službu Azure BLOB v toku dat, není podporována spravovaná identita nebo ověřování instančního objektu, pokud je typ účtu prázdný nebo "Storage". Zadejte správný druh účtu, zvolte jiné ověřování nebo upgradujte svůj účet úložiště na hodnotu pro obecné účely v2.
No
servicePrincipalId Zadejte ID klienta aplikace. Yes
servicePrincipalKey Zadejte klíč aplikace. Označte toto pole jako SecureString , aby se uložilo securelyFactory, nebo aby odkazovalo na tajný kód uložený v Azure Key Vault. Yes
tenant Zadejte informace o tenantovi (název domény nebo ID tenanta), pod kterým se vaše aplikace nachází. Načtěte ho tak, že najedete myší do pravého horního rohu Azure Portal. Yes
azureCloudType pro ověřování instančního objektu zadejte typ cloudového prostředí Azure, ve kterém je vaše aplikace Azure Active Directory zaregistrovaná.
Povolené hodnoty jsou AzurePublic, AzureChina, AzureUsGovernment a AzureGermany. Ve výchozím nastavení se používá cloudové prostředí pro datové továrny nebo kanál synapse.
No
connectVia Prostředí Integration runtime , které se má použít pro připojení k úložišti dat. Můžete použít prostředí Azure Integration runtime nebo místní prostředí Integration runtime (Pokud je vaše úložiště dat v privátní síti). Pokud tato vlastnost není zadaná, služba použije výchozí prostředí Azure Integration runtime. No

Poznámka

  • Pokud váš účet BLOB povoluje obnovitelné odstranění, ověřování instančního objektu se v datových Flow nepodporuje.
  • pokud k úložišti objektů blob přistupujete prostřednictvím privátního koncového bodu pomocí datových Flow, poznamenejte si, že se k ověřování instančního objektu používá data Flow se místo koncového bodu objektu blob připojuje ADLS Gen2 ke koncovému bodu Pokud chcete povolit přístup, ujistěte se, že jste v pracovním prostoru Data Factory nebo v pracovním prostoru synapse vytvořili odpovídající privátní koncový bod.

Poznámka

Ověřování instančního objektu je podporováno pouze propojenou službou typu "AzureBlobStorage", nikoli předchozím propojenou službou typu "AzureStorage".

Příklad:

{
    "name": "AzureBlobStorageLinkedService",
    "properties": {
        "type": "AzureBlobStorage",
        "typeProperties": {            
            "serviceEndpoint": "https://<accountName>.blob.core.windows.net/",
            "accountKind": "StorageV2",
            "servicePrincipalId": "<service principal id>",
            "servicePrincipalKey": {
                "type": "SecureString",
                "value": "<service principal key>"
            },
            "tenant": "<tenant info, e.g. microsoft.onmicrosoft.com>" 
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Spravované ověřování identity přiřazené systémem

K datové továrně nebo kanálu synapse se dá přidružit spravovaná identita přiřazená systémem pro prostředky Azure, která představuje tento prostředek k ověřování pro jiné služby Azure. Tuto spravovanou identitu přiřazenou systémem můžete použít přímo pro ověřování BLOB Storage, což se podobá použití vlastního instančního objektu. Umožňuje tomuto určenému prostředku přístup a kopírovat data z nebo do úložiště objektů BLOB. Další informace o spravovaných identitách pro prostředky Azure najdete v tématu spravované identity pro prostředky Azure .

obecné informace o ověřování Azure Storage najdete v tématu ověření přístupu k Azure Storage pomocí Azure Active Directory. Pokud chcete používat spravované identity pro ověřování prostředků Azure, postupujte podle těchto kroků:

  1. Načtěte informace o spravované identitě přiřazené systémem zkopírováním hodnoty ID objektu spravované identity přiřazené systémem, které se vygenerovalo společně s vaším pracovním prostorem Factory nebo synapse.

  2. Udělte oprávnění spravované identity v úložišti objektů BLOB v Azure. Další informace o rolích najdete v tématu použití Azure Portal k přiřazení role Azure pro přístup k datům objektů BLOB a front.

    • jako zdroj v řízení přístupu (IAM) udělte aspoň roli Storage Blob Data Reader .
    • jako jímka udělte v řízení přístupu (IAM) aspoň Storage roli přispěvatel dat objektů Blob .

Tyto vlastnosti jsou podporované pro propojenou službu Azure Blob Storage:

Vlastnost Popis Povinné
typ Vlastnost Type musí být nastavená na AzureBlobStorage. Yes
serviceEndpoint Zadejte koncový bod služby Azure Blob Storage se vzorem https://<accountName>.blob.core.windows.net/ . Yes
accountKind Zadejte druh účtu úložiště. povolené hodnoty jsou: Storage (pro obecné účely v1), StorageV2 (obecné účely v2), BlobStorage nebo BlockBlobStorage.

Pokud používáte propojenou službu Azure BLOB v toku dat, není podporována spravovaná identita nebo ověřování instančního objektu, pokud je typ účtu prázdný nebo "Storage". Zadejte správný druh účtu, zvolte jiné ověřování nebo upgradujte svůj účet úložiště na hodnotu pro obecné účely v2.
No
connectVia Prostředí Integration runtime , které se má použít pro připojení k úložišti dat. Můžete použít prostředí Azure Integration runtime nebo místní prostředí Integration runtime (Pokud je vaše úložiště dat v privátní síti). Pokud tato vlastnost není zadaná, služba použije výchozí prostředí Azure Integration runtime. No

Příklad:

{
    "name": "AzureBlobStorageLinkedService",
    "properties": {
        "type": "AzureBlobStorage",
        "typeProperties": {            
            "serviceEndpoint": "https://<accountName>.blob.core.windows.net/",
            "accountKind": "StorageV2" 
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Uživatelsky přiřazené ověřování spravované identity

K datové továrně se dá přiřadit jedna nebo víc spravovaných identit přiřazených uživatelem. Tuto uživatelsky přiřazenou identitu můžete použít pro ověřování BLOB Storage, které umožňuje přístup k úložišti objektů BLOB a jejich kopírování. Další informace o spravovaných identitách pro prostředky Azure najdete v tématu spravované identity pro prostředky Azure .

obecné informace o ověřování Azure storage najdete v tématu ověření přístupu k Azure Storage pomocí Azure Active Directory. Pokud chcete použít ověřování spravované identity přiřazené uživatelem, postupujte takto:

  1. Vytvořte jednu nebo víc uživatelsky přiřazených spravovaných identit a udělte oprávnění ve službě Azure Blob Storage. Další informace o rolích najdete v tématu použití Azure Portal k přiřazení role Azure pro přístup k datům objektů BLOB a front.

    • jako zdroj v řízení přístupu (IAM) udělte aspoň roli Storage Blob Data Reader .
    • jako jímka udělte v řízení přístupu (IAM) aspoň Storage roli přispěvatel dat objektů Blob .
  2. Přiřaďte k datové továrně jednu nebo více uživatelsky přiřazených spravovaných identit a Vytvořte přihlašovací údaje pro každou spravovanou identitu přiřazenou uživatelem.

Tyto vlastnosti jsou podporované pro propojenou službu Azure Blob Storage:

Vlastnost Popis Povinné
typ Vlastnost Type musí být nastavená na AzureBlobStorage. Yes
serviceEndpoint Zadejte koncový bod služby Azure Blob Storage se vzorem https://<accountName>.blob.core.windows.net/ . Yes
accountKind Zadejte druh účtu úložiště. povolené hodnoty jsou: Storage (pro obecné účely v1), StorageV2 (obecné účely v2), BlobStorage nebo BlockBlobStorage.

Pokud používáte propojenou službu Azure BLOB v toku dat, není podporována spravovaná identita nebo ověřování instančního objektu, pokud je typ účtu prázdný nebo "Storage". Zadejte správný druh účtu, zvolte jiné ověřování nebo upgradujte svůj účet úložiště na hodnotu pro obecné účely v2.
No
Přihlašovací údaje Jako objekt přihlašovacích údajů zadejte spravovanou identitu přiřazenou uživatelem. Yes
connectVia Prostředí Integration runtime , které se má použít pro připojení k úložišti dat. Můžete použít prostředí Azure Integration runtime nebo místní prostředí Integration runtime (Pokud je vaše úložiště dat v privátní síti). Pokud tato vlastnost není zadaná, služba použije výchozí prostředí Azure Integration runtime. No

Příklad:

{
    "name": "AzureBlobStorageLinkedService",
    "properties": {
        "type": "AzureBlobStorage",
        "typeProperties": {            
            "serviceEndpoint": "https://<accountName>.blob.core.windows.net/",
            "accountKind": "StorageV2",
            "credential": {
                "referenceName": "credential1",
                "type": "CredentialReference"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Důležité

Pokud k načtení dat z úložiště objektů BLOB (jako zdroje nebo přípravné) do služby Azure synapse Analytics použijete příkaz Base nebo COPY, při použití spravovaného ověřování identity pro úložiště objektů BLOB se ujistěte, že jste provedli kroky 1 až 3 v těchto pokynech. tyto kroky zaregistrují váš server ve službě Azure AD a přiřadí serveru Storage roli přispěvatel dat objektů Blob. Data Factory zpracuje zbytek. pokud nakonfigurujete úložiště objektů Blob pomocí koncového bodu Azure Virtual Network, musíte také povolit důvěryhodné služby Microsoft přístup k tomuto účtu úložiště zapnutým v nabídce nastavení brány firewall účtů Azure Storage a virtuální sítě , jak to vyžaduje Azure Synapse.

Poznámka

  • Pokud váš účet BLOB umožňuje obnovitelné odstranění, v datových Flowch se nepodporují ověřování spravované identity přiřazené systémem nebo uživatelem.
  • pokud k úložišti objektů blob přistupujete prostřednictvím privátního koncového bodu pomocí datových Flow, poznamenejte si, že se data, která jsou přiřazená uživatelem nebo uživatelem přiřazená ověření identity, Flow připojí ke koncovému bodu ADLS Gen2 místo koncového bodu blob. Ujistěte se, že jste v ADF vytvořili odpovídající privátní koncový bod pro povolení přístupu.

Poznámka

Ověřování spravované identity přiřazené systémem/uživatelem je podporováno pouze propojenou službou typu "AzureBlobStorage", nikoli předchozím propojenou službou typu "AzureStorage".

Vlastnosti datové sady

Úplný seznam oddílů a vlastností, které jsou k dispozici pro definování datových sad, naleznete v článku datové sady .

Azure Data Factory podporuje následující formáty souborů. Nastavení založená na formátu najdete v každém článku.

V části location nastavení v datové sadě založené na formátu jsou podporovány následující vlastnosti služby Azure Blob Storage:

Vlastnost Popis Povinné
typ Vlastnost Type umístění v datové sadě musí být nastavená na AzureBlobStorageLocation. Yes
kontejner Kontejner objektů BLOB. Yes
folderPath Cesta ke složce v daném kontejneru. Pokud chcete použít zástupný znak k filtrování složky, toto nastavení nechejte a určete v nastavení zdroje aktivity. No
fileName Název souboru v daném kontejneru a cestě ke složce. Pokud chcete použít zástupný znak k filtrování souborů, přeskočte toto nastavení a zadejte ho v nastavení zdroje aktivity. No

Příklad:

{
    "name": "DelimitedTextDataset",
    "properties": {
        "type": "DelimitedText",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, auto retrieved during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder"
            },
            "columnDelimiter": ",",
            "quoteChar": "\"",
            "firstRowAsHeader": true,
            "compressionCodec": "gzip"
        }
    }
}

Vlastnosti aktivity kopírování

úplný seznam oddílů a vlastností, které jsou k dispozici pro definování aktivit, najdete v článku o Pipelines . V této části najdete seznam vlastností, které podporuje zdroj a jímka úložiště objektů BLOB.

Úložiště objektů BLOB jako typ zdroje

Azure Data Factory podporuje následující formáty souborů. Nastavení založená na formátu najdete v každém článku.

V storeSettings nastaveních ve zdrojovém kopírování založeném na formátu jsou podporovány následující vlastnosti pro úložiště objektů BLOB v Azure:

Vlastnost Popis Povinné
typ Vlastnost Type v poli storeSettings musí být nastavená na AzureBlobStorageReadSettings. Yes
Vyhledejte soubory ke zkopírování:
MOŽNOST 1: statická cesta
Kopírování ze zadaného kontejneru nebo složky/cesty k souboru v datové sadě. Pokud chcete kopírovat všechny objekty BLOB z kontejneru nebo složky, zadejte také wildcardFileName jako * .
MOŽNOST 2: Předpona objektu BLOB
-prefix
Předpona pro název objektu BLOB v daném kontejneru nakonfigurovaném v datové sadě pro filtrování zdrojových objektů BLOB Jsou vybrány objekty blob, jejichž názvy začínají na container_in_dataset/this_prefix . Využívá filtr na straně služby pro úložiště objektů blob, což poskytuje lepší výkon než filtr zástupných znaků.

Když použijete předponu a zvolíte kopírování do jímky založené na souborech s zachováním hierarchie, poznamenejte si podcestu za poslední znak "/" v předponě, která bude zachována. Například máte zdroj container/folder/subfolder/file.txt a nakonfigurujete předponu jako folder/sub , pak je zachovaná cesta k souboru subfolder/file.txt .
No
MOŽNOST 3: zástupný znak
- wildcardFolderPath
Cesta ke složce se zástupnými znaky v daném kontejneru nakonfigurovaném v datové sadě pro filtrování zdrojových složek.
Povolené zástupné znaky jsou: * (odpovídá žádnému nebo více znakům) a ? (odpovídá žádnému nebo jednomu znaku). Použijte ^ k Escape, jestli má název složky zástupný znak nebo tento řídicí znak uvnitř.
Další příklady najdete v příkladech složky a filtru souborů.
No
MOŽNOST 3: zástupný znak
- wildcardFileName
Název souboru se zástupnými znaky v daném kontejneru a cestě ke složce (nebo cesta ke složce se zástupnými znaky) pro filtrování zdrojových souborů.
Povolené zástupné znaky jsou: * (odpovídá žádnému nebo více znakům) a ? (odpovídá žádnému nebo jednomu znaku). Použijte ^ pro Escape, jestli název souboru obsahuje zástupný znak nebo tento řídicí znak uvnitř. Další příklady najdete v příkladech složky a filtru souborů.
Yes
MOŽNOST 4: seznam souborů
- fileListPath
Určuje, že se má zkopírovat daná sada souborů. Najeďte na textový soubor, který obsahuje seznam souborů, které chcete zkopírovat, jeden soubor na řádek, což je relativní cesta k cestě nakonfigurované v datové sadě.
Při použití této možnosti nezadávejte název souboru v datové sadě. Další příklady najdete v příkladech seznamu souborů.
No
Další nastavení:
zahrnout Určuje, zda mají být data rekurzivně čtena z podsložek nebo pouze ze zadané složky. Všimněte si, že pokud je rekurzivní nastavení nastaveno na hodnotu true a jímka je úložiště založené na souborech, prázdná složka nebo podsložka není kopírována ani vytvořena v jímky.
Povolené hodnoty jsou true (výchozí) a false.
Tato vlastnost se při konfiguraci nepoužívá fileListPath .
No
deleteFilesAfterCompletion Uvádí, zda budou binární soubory po úspěšném přesunutí do cílového úložiště odstraněny ze zdrojového úložiště. Odstranění souboru je vázané na soubor, takže když aktivita kopírování selže, uvidíte, že některé soubory se už zkopírovaly do cílového umístění a odstranily ze zdroje, zatímco ostatní jsou pořád ve zdrojovém úložišti.
Tato vlastnost je platná pouze ve scénáři kopírování binárních souborů. Výchozí hodnota: false.
No
modifiedDatetimeStart Soubory jsou filtrovány na základě atributu: Naposledy změněno.
Soubory budou vybrány, pokud čas poslední změny spadá do časového rozsahu mezi modifiedDatetimeStart a modifiedDatetimeEnd . Čas se použije na časové pásmo UTC ve formátu "2018-12-01T05:00:00Z".
Vlastnosti mohou mít hodnotu null, což znamená, že pro datovou sadu nebude použit filtr atributů souborů. Když modifiedDatetimeStart má hodnotu DateTime, ale modifiedDatetimeEnd je null, budou vybrány soubory, jejichž atribut Last Modified je větší nebo roven hodnotě DateTime. Když modifiedDatetimeEnd má hodnotu DateTime, ale modifiedDatetimeStart je null, soubory, jejichž atribut Last Modified je menší než hodnota DateTime, se vybere.
Tato vlastnost se při konfiguraci nepoužívá fileListPath .
No
modifiedDatetimeEnd Platí to samé jako výše. No
enablePartitionDiscovery U souborů, které jsou rozdělené na oddíly, určete, jestli se mají analyzovat oddíly z cesty k souboru, a přidejte je jako další zdrojové sloupce.
Povolené hodnoty jsou false (výchozí) a true.
No
partitionRootPath Pokud je povoleno zjišťování oddílů, zadejte absolutní kořenovou cestu, aby bylo možné číst rozdělené složky jako sloupce dat.

Pokud není zadaný, ve výchozím nastavení
– Pokud použijete cestu k souboru v datové sadě nebo v seznamu souborů na zdroji, je kořenová cesta oddílu cestou nakonfigurovanou v datové sadě.
– Když použijete filtr složky se zástupnými znaky, kořenová cesta oddílu je dílčí cesta před prvním zástupným znakem.
– Při použití předpony je kořenová cesta oddílu podcestou před poslední znak "/".

Předpokládejme například, že nakonfigurujete cestu v datové sadě jako kořen/složka/rok = 2020/měsíc = 08/Day = 27:
– Pokud zadáte kořenovou cestu oddílu jako "root/složka/Year = 2020", aktivita kopírování vygeneruje další dva sloupce month a day hodnoty "08" a "27" společně se sloupci uvnitř souborů.
-Pokud není zadána kořenová cesta oddílu, nebude vygenerován žádný sloupec navíc.
No
maxConcurrentConnections Horní limit souběžných připojení navázaných na úložiště dat během spuštění aktivity. Zadejte hodnotu pouze v případě, že chcete omezit souběžná připojení. No

Poznámka

V případě textového formátu Parquet/s oddělovači je typ BlobSource pro zdroj aktivity kopírování, který je uveden v další části, stále podporován, jak je z důvodu zpětné kompatibility. Doporučujeme použít nový model, dokud se uživatelské rozhraní pro vytváření obsahu nepřepne na generování těchto nových typů.

Příklad:

"activities":[
    {
        "name": "CopyFromBlob",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delimited text input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "DelimitedTextSource",
                "formatSettings":{
                    "type": "DelimitedTextReadSettings",
                    "skipLineCount": 10
                },
                "storeSettings":{
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true,
                    "wildcardFolderPath": "myfolder*A",
                    "wildcardFileName": "*.csv"
                }
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Poznámka

$logskontejner, který se automaticky vytvoří, když je povolený Analýza úložiště pro účet úložiště, se nezobrazuje, když se operace výpisu kontejneru provádí přes uživatelské rozhraní. Aby bylo možné využívat soubory z kontejneru, je třeba zadat cestu k souboru přímo pro váš datový objekt factory nebo kanál synapse $logs .

Úložiště objektů BLOB jako typ jímky

Azure Data Factory podporuje následující formáty souborů. Informace o nastaveních založených na formátu najdete v jednotlivých článku.

Následující vlastnosti jsou podporovány pro Azure Blob Storage v storeSettings nastavení v jímky kopírování na základě formátu:

Vlastnost Popis Povinné
typ typeVlastnost v poli storeSettings musí být nastavena na hodnotu AzureBlobStorageWriteSettings . Yes
copyBehavior Definuje chování kopírování, pokud je zdrojem soubory z úložiště dat založeného na souborech.

Povolené hodnoty jsou následující:
-PreserveHierarchy (výchozí): zachovává hierarchii souborů v cílové složce. Relativní cesta ke zdrojovému souboru ke zdrojové složce je shodná s relativní cestou cílového souboru k cílové složce.
-FlattenHierarchy: všechny soubory ze zdrojové složky jsou v první úrovni cílové složky. Cílové soubory mají automaticky generované názvy.
-MergeFiles: sloučí všechny soubory ze zdrojové složky do jednoho souboru. Pokud je zadán název souboru nebo objektu blob, sloučený název souboru je zadaný název. V opačném případě se jedná o automaticky vygenerovaný název souboru.
No
blockSizeInMB Zadejte velikost bloku (v megabajtech), která se používá k zápisu dat pro objekty blob bloku. Přečtěte si další informace o objektech blob bloku.
Povolená hodnota je mezi 4 MB a 100 MB.
Ve výchozím nastavení služba automaticky určuje velikost bloku na základě typu zdrojového úložiště a dat. Pro nebinární kopírování do úložiště objektů BLOB je výchozí velikost bloku 100 MB, takže se může vejít do velikosti (nejvíce) 4,95 TB dat. Nemusí být optimální, pokud vaše data nejsou velká, zejména při použití modulu Integration runtime v místním prostředí s nedostatečnými síťovými připojeními, které mají za následek časový limit operace nebo problémy s výkonem. Velikost bloku můžete explicitně zadat, přičemž zajistěte, aby blockSizeInMB*50000 byla data ukládána dostatečně veliké. V opačném případě se spuštění aktivity kopírování nezdaří.
No
maxConcurrentConnections Horní limit souběžných připojení navázaných na úložiště dat během spuštění aktivity. Zadejte hodnotu pouze v případě, že chcete omezit souběžná připojení. No
zprostředkovatele identity Nastavit vlastní metadata při kopírování do jímky. Každý objekt v poli metadata představuje sloupec navíc. nameDefinuje název klíče metadat a value označuje hodnotu dat tohoto klíče. Pokud se použije funkce zachovat atributy , budou zadaná metadata sjednocená nebo přepsána metadaty zdrojového souboru.

Povolené hodnoty dat jsou:
- $$LASTMODIFIED: rezervovaná proměnná označuje uložení času poslední změny zdrojových souborů. Platí pro zdroj založený na souborech pouze v binárním formátu.
– Výraz
- Statická hodnota
No

Příklad:

"activities":[
    {
        "name": "CopyFromBlob",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Parquet output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "ParquetSink",
                "storeSettings":{
                    "type": "AzureBlobStorageWriteSettings",
                    "copyBehavior": "PreserveHierarchy",
                    "metadata": [
                        {
                            "name": "testKey1",
                            "value": "value1"
                        },
                        {
                            "name": "testKey2",
                            "value": "value2"
                        },
                        {
                            "name": "lastModifiedKey",
                            "value": "$$LASTMODIFIED"
                        }
                    ]
                }
            }
        }
    }
]

Příklady filtru složek a souborů

Tato část popisuje výsledné chování cesty ke složce a názvu souboru s filtry zástupných znaků.

folderPath fileName zahrnout Struktura zdrojové složky a výsledek filtru (jsou načteny soubory tučně )
container/Folder* (prázdné, použít výchozí) false (nepravda) kontejner
    Složka
        File1.csv
        Soubor2. JSON
        Subfolder1
            File3.csv
            File4. JSON
            File5.csv
    AnotherFolderB
        File6.csv
container/Folder* (prázdné, použít výchozí) true kontejner
    Složka
        File1.csv
        Soubor2. JSON
        Subfolder1
            File3.csv
            File4. JSON
            File5.csv
    AnotherFolderB
        File6.csv
container/Folder* *.csv false (nepravda) kontejner
    Složka
        File1.csv
        Soubor2. JSON
        Subfolder1
            File3.csv
            File4. JSON
            File5.csv
    AnotherFolderB
        File6.csv
container/Folder* *.csv true kontejner
    Složka
        File1.csv
        Soubor2. JSON
        Subfolder1
            File3.csv
            File4. JSON
            File5.csv
    AnotherFolderB
        File6.csv

Příklady seznamů souborů

Tato část popisuje výsledné chování při použití cesty seznamu souborů ve zdroji aktivity kopírování.

Předpokládejme, že máte následující strukturu zdrojové složky a chcete soubory zkopírovat tučně:

Ukázka zdrojové struktury Obsah v FileListToCopy.txt Konfigurace
kontejner
    Složka
        File1.csv
        Soubor2. JSON
        Subfolder1
            File3.csv
            File4. JSON
            File5.csv
    Mezipaměť
        FileListToCopy.txt
File1.csv
Subfolder1/File3.csv
Subfolder1/File5.csv
V datové sadě:
Vnitřního container
– Cesta ke složce: FolderA

Ve zdroji aktivity kopírování:
– Cesta k seznamu souborů: container/Metadata/FileListToCopy.txt

Cesta k seznamu souborů odkazuje na textový soubor ve stejném úložišti dat, který obsahuje seznam souborů, které chcete zkopírovat, jeden soubor na řádek s relativní cestou k cestě, která je nakonfigurovaná v datové sadě.

Některé příklady rekurzivních a copyBehavior

Tato část popisuje výsledné chování operace kopírování pro různé kombinace rekurzivních a copyBehavior hodnot.

zahrnout copyBehavior Struktura zdrojové složky Výsledný cíl
true preserveHierarchy Složku1
    Soubor1
    File2
    Subfolder1
        File3
        File4
        File5
Cílová složka Složku1 se vytvoří se stejnou strukturou jako zdroj:

Složku1
    Soubor1
    File2
    Podsložka1
        Soubor 3
        Soubor 4
        Soubor 5
true flattenHierarchy Složka1
    File1 (Soubor 1)
    Soubor2
    Podsložka1
        Soubor 3
        Soubor 4
        Soubor 5
Cílová složka Folder1 se vytvoří s následující strukturou:

Složka1
    Automaticky vygenerovaný název pro File1
    Automaticky vygenerovaný název pro File2
    Automaticky vygenerovaný název pro File3
    Automaticky vygenerovaný název pro File4
    Automaticky vygenerovaný název pro File5
true mergeFiles Složka1
    File1 (Soubor 1)
    Soubor2
    Podsložka1
        Soubor 3
        Soubor 4
        Soubor 5
Cílová složka Folder1 se vytvoří s následující strukturou:

Složka1
    Obsah File1 + File2 + File3 + File4 + File5 se sloučí do jednoho souboru s automaticky vygenerovaný názvem souboru.
false (nepravda) preserveHierarchy (preserveHierarchy) Složka1
    File1 (Soubor 1)
    Soubor2
    Podsložka1
        Soubor 3
        Soubor 4
        Soubor 5
Cílová složka Folder1 se vytvoří s následující strukturou:

Složka1
    File1 (Soubor 1)
    Soubor2

Podsložka1 se soubory File3, File4 a File5 se nenasbírá.
false (nepravda) flattenHierarchy Složka1
    File1 (Soubor 1)
    Soubor2
    Podsložka1
        Soubor 3
        Soubor 4
        Soubor 5
Cílová složka Folder1 se vytvoří s následující strukturou:

Složka1
    Automaticky vygenerovaný název pro File1
    Automaticky vygenerovaný název pro File2

Podsložka1 se soubory File3, File4 a File5 se nenasbírá.
false (nepravda) mergeFiles Složka1
    File1 (Soubor 1)
    Soubor2
    Podsložka1
        Soubor 3
        Soubor 4
        Soubor 5
Cílová složka Folder1 se vytvoří s následující strukturou:

Složka1
    Obsah File1 + File2 se sloučí do jednoho souboru s automaticky vygenerovaný názvem souboru. Automaticky vygenerovaný název pro File1

Podsložka1 se soubory File3, File4 a File5 se nenasbírá.

Zachování metadat během kopírování

Při kopírování souborů ze služeb Amazon S3, Azure Blob Storage nebo Azure Data Lake Storage Gen2 do Azure Data Lake Storage Gen2 nebo Azure Blob Storage se můžete rozhodnout zachovat metadata souborů spolu s daty. Další informace najdete v dokumentu Preserve metadata.

Mapování vlastností toku dat

Při transformaci dat v mapování toků dat můžete číst a zapisovat soubory z úložiště objektů blob v Azure v následujících formátech:

Konkrétní nastavení formátu najdete v dokumentaci pro tento formát. Další informace najdete v tématu Transformace zdroje v mapování toku dat a Transformace jímky v mapování toku dat.

Transformace zdroje

V transformaci zdroje můžete číst z kontejneru, složky nebo jednotlivého souboru ve službě Azure Blob Storage. Pomocí karty Možnosti zdroje můžete spravovat, jak se soubory čtou.

Možnosti zdroje

Cesty se zástupnými znaky: Použití vzoru se zástupnými znaky bude službě instruovat, aby v rámci jedné transformace zdroje proccykluje jednotlivé odpovídající složky a soubory. Jedná se o efektivní způsob, jak zpracovat více souborů v rámci jednoho toku. Přidejte několik vzorů porovnávání se zástupnými znaky se znaménkem plus, které se zobrazí, když najedete myší na existující vzor se zástupnými znaky.

Ze zdrojového kontejneru zvolte řadu souborů, které odpovídají vzoru. V datové sadě je možné zadat pouze kontejner. Cesta se zástupnými znaky proto musí obsahovat také cestu ke složce z kořenové složky.

Příklady se zástupnými znaky:

  • * Představuje libovolnou sadu znaků.

  • ** Představuje rekurzivní vnořování adresářů.

  • ? Nahradí jeden znak.

  • [] Odpovídá jednomu nebo více znakům v hranatých závorkách.

  • /data/sales/**/*.csv Získá všechny .csv v části /data/sales.

  • /data/sales/20??/**/ Získá všechny soubory z 20. století.

  • /data/sales/*/*/*.csv Získá .csv dvě úrovně pod /data/sales.

  • /data/sales/2004/*/12/[XY]1?.csv Získá všechny .csv soubory v prosinci 2004 začínající na X nebo Y s předponou dvouciferného čísla.

Kořenová cesta oddílu: Pokud máte ve zdroji souborů dělené složky ve formátu (například ), můžete přiřadit nejvyšší úroveň stromu složek oddílů k názvu sloupce v datovém streamu toku key=value year=2019 dat.

Nejprve nastavte zástupný znak tak, aby zahrnoval všechny cesty, které jsou rozdělené složky, a soubory typu list, které chcete přečíst.

Nastavení zdrojového souboru oddílu

Pomocí nastavení Kořenová cesta k oddílu definujte nejvyšší úroveň struktury složek. Když zobrazíte obsah dat prostřednictvím náhledu dat, uvidíte, že služba přidá vyřešené oddíly nalezené na jednotlivých úrovních složek.

Kořenová cesta oddílu

Seznam souborů: Jedná se o sadu souborů. Vytvořte textový soubor, který obsahuje seznam souborů relativní cesty ke zpracování. Přejděte na tento textový soubor.

Název souboru pro uložení sloupce: Uložte název zdrojového souboru do sloupce v datech. Sem zadejte nový název sloupce, do které se uloží řetězec názvu souboru.

Po dokončení: Po spuštění toku dat se zdrojovým souborem nic nedělat, odstraňte zdrojový soubor nebo přesuňte zdrojový soubor. Cesty pro přesunutí jsou relativní.

Pokud chcete po zpracování přesunout zdrojové soubory do jiného umístění, nejprve pro operaci souboru vyberte Move (Přesunout). Pak nastavte adresář "from". Pokud pro cestu používáte zástupné znaky, bude nastavení from stejné jako u zdrojové složky.

Pokud máte zdrojovou cestu se zástupným znakem, bude syntaxe vypadat takhle:

/data/sales/20??/**/*.csv

"z" můžete zadat takto:

/data/sales

A "do" můžete zadat takto:

/backup/priorSales

V tomto případě se všechny soubory, ze které byl zdrojem , /data/sales přesunou do /backup/priorSales .

Poznámka

Operace se soubory se spouští jenom v případě, že spustíte tok dat ze spuštění kanálu (spuštění kanálu nebo spuštění spuštění), které používá aktivitu Flow dat v kanálu. Operace se soubory nespouštěné v režimu Flow režimu ladění.

Filtrovat podle poslední změny: Soubory, které zpracováváte, můžete filtrovat zadáním rozsahu dat, kdy byly naposledy upraveny. Všechny časové údaje jsou v UTC.

Vlastnosti jímky

V transformaci jímky můžete zapisovat do kontejneru nebo do složky v úložišti objektů blob v Azure. Pomocí karty Nastavení můžete spravovat způsob zápisu souborů.

Možnosti jímky

Vymažte složku: Určuje, jestli se cílová složka před zápisem dat vyčistí, nebo ne.

Možnost názvu souboru: Určuje, jak jsou cílové soubory pojmenovány v cílové složce. Možnosti názvu souboru jsou následující:

  • Výchozí: Povolí Sparku pojmnovat soubory na základě výchozích hodnot PART.
  • Vzor: Zadejte vzor, který vytvoří výčet výstupních souborů na oddíl. Například vytvoří , loans[n].csv loans1.csv loans2.csv atd.
  • Pro každý oddíl: Zadejte jeden název souboru na oddíl.
  • Jako data ve sloupci: Nastavte výstupní soubor na hodnotu sloupce. Cesta je relativní vzhledem ke kontejneru datové sady, nikoli k cílové složce. Pokud máte v datové sadě cestu ke složce, přepíše se.
  • Výstup do jednoho souboru: Zkombinujte dělené výstupní soubory do jednoho pojmenovaného souboru. Cesta je relativní vzhledem ke složce datové sady. Je třeba mít na paměti, že operace sloučení může pravděpodobně selhat v závislosti na velikosti uzlu. Tuto možnost nedoporučujeme pro velké datové sady.

Uvozovky všechny: Určuje, jestli se mají všechny hodnoty uzavřít do uvozovek.

Vlastnosti aktivity vyhledávání

Podrobnosti o vlastnostech najdete v tématu Aktivita vyhledávání.

Vlastnosti aktivity GetMetadata

Podrobnosti o vlastnostech najdete v tématu Aktivita GetMetadata.

Odstranění vlastností aktivity

Podrobnosti o vlastnostech najdete v tématu Odstranění aktivity.

Starší modely

Poznámka

Následující modely jsou stále podporovány, stejně jako kvůli zpětné kompatibilitě. Doporučujeme použít nový model uvedený výše. Uživatelské rozhraní pro vytváření se přepnulo na generování nového modelu.

Starší model datové sady

Vlastnost Popis Povinné
typ Vlastnost type datové sady musí být nastavená na AzureBlob . Yes
folderPath Cesta ke kontejneru a složce v úložišti objektů blob.

Pro cestu se podporuje filtr se zástupnými znaky s výjimkou názvu kontejneru. Povolené zástupné znaky jsou: * (odpovídá nule nebo více znakům) a ? (odpovídá nule nebo jednomu znaku). Pokud název vaší složky obsahuje zástupný znak nebo tento řídicí znak, použijte k řídicí ^ znak.

Příklad: myblobcontainer/myblobfolder/ . Další příklady najdete v tématu Příklady filtrů složek a souborů.
Ano pro aktivitu kopírování nebo vyhledávání, ne pro aktivitu GetMetadata
fileName Filtr názvů nebo zástupných znaků pro objekty blob pod zadanou folderPath hodnotou Pokud nezadáte hodnotu této vlastnosti, datová sada bude odkazovat na všechny objekty blob ve složce.

Pro filtr jsou povolené zástupné znaky: (odpovídá nule nebo více znakům) a (odpovídá nule * ? nebo jednomu znaku).
– Příklad 1: "fileName": "*.csv"
– Příklad 2: "fileName": "???20180427.txt"
Pokud název souboru obsahuje zástupný znak nebo tento řídicí znak, použijte k řídicí ^ znak.

Pokud není zadaný pro výstupní datovou sadu a není zadaný v jímce aktivity, aktivita Copy automaticky vygeneruje název objektu blob s fileName preserveHierarchy následujícím vzorem: "Data.[ GUID ID spuštění aktivity. [GUID, pokud FlattenHierarchy]. [formát, pokud je nakonfigurovaný]. [compression if configured]". Příklad: "Data.0a405f8a-93ff-4c6f-b3be-f69616f1df7a.txt.gz".

Pokud kopírujete z tabulkového zdroje místo dotazu název tabulky, vzor názvu je [table name].[format].[compression if configured] . Příklad: "MyTable.csv".
No
modifiedDatetimeStart Soubory se filtruje podle atributu : naposledy změněno. Soubory se vybere, pokud je jejich čas poslední změny v časovém rozsahu mezi a modifiedDatetimeStart modifiedDatetimeEnd . Čas se použije pro časové pásmo UTC ve formátu 2018-12-01T05:00:00Z.

Uvědomte si, že povolení tohoto nastavení bude mít vliv na celkový výkon přesunu dat, pokud chcete filtrovat velké objemy souborů.

Vlastnosti mohou být , což znamená, že se na datovou sadu nebude NULL aplikovat žádný filtr atributů souboru. Pokud má hodnotu datetime, ale je , budou vybrány soubory, jejichž atribut poslední změny je větší nebo roven hodnotě modifiedDatetimeStart modifiedDatetimeEnd NULL datetime. Pokud má hodnotu datetime, ale je , budou vybrány soubory, jejichž atribut poslední změny je menší než modifiedDatetimeEnd modifiedDatetimeStart hodnota NULL datetime.
No
modifiedDatetimeEnd Soubory se filtruje podle atributu : naposledy změněno. Soubory se vybere, pokud je jejich čas poslední změny v časovém rozsahu mezi a modifiedDatetimeStart modifiedDatetimeEnd . Čas se použije pro časové pásmo UTC ve formátu 2018-12-01T05:00:00Z.

Uvědomte si, že povolení tohoto nastavení bude mít vliv na celkový výkon přesunu dat, pokud chcete filtrovat velké objemy souborů.

Vlastnosti mohou být NULL , což znamená, že pro datovou sadu nebude použit filtr atributů souboru. Když modifiedDatetimeStart má hodnotu DateTime, ale modifiedDatetimeEnd je NULL , budou vybrány soubory, jejichž atribut Last Modified je větší nebo roven hodnotě DateTime. Když modifiedDatetimeEnd má hodnotu DateTime, ale modifiedDatetimeStart je NULL , soubory, jejichž atribut Last Modified je menší než hodnota DateTime, se vybere.
No
formát Pokud chcete kopírovat soubory mezi úložišti na základě souborů (binární kopie), přeskočte oddíl formát jak v definicích vstupní, tak i ve výstupní datové sadě.

Pokud chcete analyzovat nebo generovat soubory s konkrétním formátem, podporují se tyto typy formátů souborů: TextFormat, JsonFormat, AvroFormat, OrcFormat a ParquetFormat. V části Formát nastavte vlastnost typ na jednu z těchto hodnot. Další informace najdete v oddílech Formát textu, formát JSON, Formát Avro, formát ORCa formát Parquet .
Ne (jenom pro binární scénář kopírování)
komprese Zadejte typ a úroveň komprese dat. Další informace najdete v tématu podporované formáty souborů a kompresní kodeky.
Podporované typy jsou gzip, Deflate, bzip2 a ZipDeflate.
Podporované úrovně jsou optimální a nejrychlejší.
No

Tip

Pokud chcete zkopírovat všechny objekty blob ve složce, zadejte jenom FolderPath .
Chcete-li zkopírovat jeden objekt BLOB se zadaným názvem, zadejte FolderPath pro část složky a název souboru pro název souboru.
Pokud chcete zkopírovat podmnožinu objektů BLOB ve složce, zadejte FolderPath pro část složky a název souboru se zástupným filtrem.

Příklad:

{
    "name": "AzureBlobDataset",
    "properties": {
        "type": "AzureBlob",
        "linkedServiceName": {
            "referenceName": "<Azure Blob storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "folderPath": "mycontainer/myfolder",
            "fileName": "*",
            "modifiedDatetimeStart": "2018-12-01T05:00:00Z",
            "modifiedDatetimeEnd": "2018-12-01T06:00:00Z",
            "format": {
                "type": "TextFormat",
                "columnDelimiter": ",",
                "rowDelimiter": "\n"
            },
            "compression": {
                "type": "GZip",
                "level": "Optimal"
            }
        }
    }
}

Starší zdrojový model pro aktivitu kopírování

Vlastnost Popis Povinné
typ typeVlastnost zdroje aktivity kopírování musí být nastavena na hodnotu BlobSource . Yes
zahrnout Určuje, zda mají být data rekurzivně čtena z podsložek nebo pouze ze zadané složky. Všimněte si, že když recursive je nastaveno na true a jímka je úložiště založené na souborech, prázdná složka nebo podsložka není kopírována ani vytvořena v jímky.
Povolené hodnoty jsou true (výchozí) a false .
No
maxConcurrentConnections Horní limit souběžných připojení navázaných na úložiště dat během spuštění aktivity. Zadejte hodnotu pouze v případě, že chcete omezit souběžná připojení. No

Příklad:

"activities":[
    {
        "name": "CopyFromBlob",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Azure Blob input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "BlobSource",
                "recursive": true
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Starší model jímky pro aktivitu kopírování

Vlastnost Popis Povinné
typ typeVlastnost jímky aktivity kopírování musí být nastavena na BlobSink . Yes
copyBehavior Definuje chování kopírování, pokud je zdrojem soubory z úložiště dat založeného na souborech.

Povolené hodnoty jsou následující:
-PreserveHierarchy (výchozí): zachovává hierarchii souborů v cílové složce. Relativní cesta ke zdrojovému souboru se zdrojovou složkou je shodná s relativní cestou cílového souboru do cílové složky.
-FlattenHierarchy: všechny soubory ze zdrojové složky jsou v první úrovni cílové složky. Cílové soubory mají automaticky generované názvy.
-MergeFiles: sloučí všechny soubory ze zdrojové složky do jednoho souboru. Pokud je zadán název souboru nebo objektu blob, sloučený název souboru je zadaný název. V opačném případě se jedná o automaticky vygenerovaný název souboru.
No
maxConcurrentConnections Horní limit souběžných připojení navázaných na úložiště dat během spuštění aktivity. Zadejte hodnotu pouze v případě, že chcete omezit souběžná připojení. No

Příklad:

"activities":[
    {
        "name": "CopyToBlob",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Azure Blob output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "BlobSink",
                "copyBehavior": "PreserveHierarchy"
            }
        }
    }
]

Další kroky

Seznam úložišť dat, která aktivita kopírování podporuje jako zdroje a jímky, najdete v tématu podporovaná úložiště dat.