Adatok másolása és átalakítása az Azure Blob Storage-ban Azure Data Factory vagy Azure Synapse Analytics

A KÖVETKEZŐKRE VONATKOZIK: Azure Data Factory Azure Synapse Analytics

Ez a cikk azt ismerteti, hogyan használhatja a Copy tevékenység a Azure Data Factory és Azure Synapse a blobtárolóból és az Azure Blob Storage-ba való adatmásoláshoz. Azt is bemutatja, hogyan használhatja a Data Flow tevékenységet az Adatok átalakítása az Azure Blob Storage-ban. További információért olvassa el a Azure Data Factory és a Azure Synapse Analytics bevezető cikkeit.

Tipp

Az adattó vagy adattárház migrálási forgatókönyvét az Adatok migrálása a data lake-ről vagy az adattárházból az Azure-bacikkben olvashatja el.

Támogatott képességek

Ez az Azure Blob Storage-összekötő a következő tevékenységekhez támogatott:

A Copy tevékenység Blob Storage-összekötő a következőt támogatja:

  • Blobok másolása általános célú Azure-tárfiókokba és -fiókokból, valamint a gyors/gyors/gyors blobtárolókba.
  • Blobok másolása fiókkulcs, szolgáltatás közös hozzáférésű jogosultsága (SAS), szolgáltatásnév vagy felügyelt identitások használatával az Azure-erőforrások hitelesítéséhez.
  • Blobok másolása blokk-, hozzáfűző- vagy lapblobból, valamint adatok másolása csak blokkblobokba.
  • Blobok eredeti másolása, támogatott fájlformátumú és tömörítési kodekek használatával való blobok elemezhetők vagy generálhatók.
  • A fájl metaadatainak megőrzése a másolás során.

Bevezetés

A Copy tevékenység folyamatokkal való végrehajtásához a következő eszközök vagy AZDK-k egyikét használhatja:

Azure Blob-Storage létrehozása a felhasználói felület használatával

Az alábbi lépésekkel hozzon létre egy Azure Blob-Storage egy csatolt szolgáltatást a Azure Portal felhasználói felületén.

  1. Lépjen a Kezelés lapra a Azure Data Factory Synapse-munkaterületen, és válassza a Csatolt szolgáltatások lehetőséget, majd kattintson az Új elemre:

  2. Keressen rá a blob kifejezésre, és válassza ki az Azure Blob Storage összekötőt.

    Válassza az Azure Blob Storage összekötő lehetőséget.

  3. Konfigurálja a szolgáltatás részleteit, tesztelje a kapcsolatot, és hozza létre az új csatolt szolgáltatást.

    Képernyőkép az Azure Blob Storage konfigurálásról.

Az összekötő konfigurációjának részletei

A következő szakaszok részletesen ismertetik a blobtárolókhoz Data Factory Synapse-folyamatentitások meghatározásához használt tulajdonságokat.

Csatolt szolgáltatás tulajdonságai

Ez a Blob Storage-összekötő a következő hitelesítési típusokat támogatja. A részletekért tekintse meg a megfelelő szakaszokat.

Megjegyzés

  • Ha a nyilvános Azure integration Runtime használatával szeretne csatlakozni a Blob Storage-hoz az Azure Storage-tűzfalon engedélyezett Allow trusted Microsoft-szolgáltatások to access this storage account (Megbízható Microsoft-szolgáltatások hozzáférésének engedélyezése a tárfiókhoz) beállítás használatával, felügyelt identitásos hitelesítést kell használnia.
  • Ha a PolyBase vagy a COPY utasítás használatával tölt be adatokat az Azure Synapse Analytics-ba, és a forrás vagy előkészítési Blob Storage azure Virtual Network-végponttal van konfigurálva, akkor a felügyelt identitás hitelesítését kell használnia a Azure Synapse. További konfigurációs előfeltételekért tekintse meg a Felügyelt identitás hitelesítése című szakaszt.

Megjegyzés

Azure HDInsight és Azure Machine Learning tevékenységek csak az Azure Blob Storage-fiókkulcsokat használó hitelesítést támogatják.

Fiókkulcs hitelesítése

Az alábbi tulajdonságok támogatottak a tárfiókkulcsok hitelesítéséhez Azure Data Factory Synapse-folyamatokban:

Tulajdonság Leírás Kötelező
típus A type tulajdonságot (javasolt) vagy AzureBlobStorage AzureStorage (lásd a következő megjegyzéseket) beállításra kell állítani. Yes
connectionString (kapcsolati karakterlánc) Adja meg a tulajdonság Storage való csatlakozáshoz szükséges connectionString adatokat.
A fiókkulcsot a kulcsban is Azure Key Vault a konfigurációt a kapcsolati accountKey sztringből. További információért tekintse meg a következő mintákat és a Hitelesítő adatok tárolása a Azure Key Vault cikkben.
Yes
connectVia Az adattárhoz való csatlakozáshoz használt integrációskörnyezet. Használhatja az Azure integration Runtime-t vagy a saját üzemeltetett integrációskörnyezetet (ha az adattár egy magánhálózaton található). Ha ez a tulajdonság nincs megadva, a szolgáltatás az alapértelmezett Azure integration Runtime-t használja. No

Megjegyzés

Fiókkulcs Blob service hitelesítés használata esetén a másodlagos végpont nem támogatott. Más hitelesítési típusokat is használhat.

Megjegyzés

Ha a típusú csatolt szolgáltatást használja, az AzureStorage továbbra is támogatott. Azt javasoljuk azonban, hogy a 2001-es AzureBlobStorage 2012-es új típusú csatolt szolgáltatást használja.

Példa

{
    "name": "AzureBlobStorageLinkedService",
    "properties": {
        "type": "AzureBlobStorage",
        "typeProperties": {
          "connectionString": "DefaultEndpointsProtocol=https;AccountName=<accountname>;AccountKey=<accountkey>"
        },
        "connectVia": {
          "referenceName": "<name of Integration Runtime>",
          "type": "IntegrationRuntimeReference"
        }
    }
}

Példa: a fiókkulcs tárolása a Azure Key Vault

{
    "name": "AzureBlobStorageLinkedService",
    "properties": {
        "type": "AzureBlobStorage",
        "typeProperties": {
            "connectionString": "DefaultEndpointsProtocol=https;AccountName=<accountname>;",
            "accountKey": {
                "type": "AzureKeyVaultSecret",
                "store": {
                    "referenceName": "<Azure Key Vault linked service name>",
                    "type": "LinkedServiceReference"
                },
                "secretName": "<secretName>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Közös hozzáférésű jogosultság jogosultsága hitelesítése

A közös hozzáférésű jogosultság aláírása delegált hozzáférést biztosít a tárfiók erőforrásaihoz. A közös hozzáférésű jogosultságokkal korlátozott engedélyeket adhat az ügyfélnek a tárfiókban lévő objektumokhoz egy adott ideig.

Nem kell megosztania a fiók hozzáférési kulcsait. A közös hozzáférésű jogosultság aláírása egy olyan URI, amely a lekérdezési paramétereiben a tárolási erőforrások hitelesített hozzáféréséhez szükséges összes információt magában foglalja. A tároló-erőforrások közös hozzáférésű jogosultságpával való eléréséhez az ügyfélnek csak a megfelelő konstruktornak vagy metódusnak kell átadnia a közös hozzáférésű jogosultságot.

A közös hozzáférésű jogosultságokkal kapcsolatos további információkért lásd: Közös hozzáférésű jogosultságok aláírásai: A közös hozzáférésű jogosultság aláírásai modell ..

Megjegyzés

  • A szolgáltatás mostantól a szolgáltatás közös hozzáférésű jogosultság- és a fiók közös hozzáférésű jogosultságaláírását is támogatja. A közös hozzáférésű jogosultságokkal kapcsolatos további információkért lásd: Korlátozott hozzáférés megadása az Azure Storage-erőforrásokhoz közös hozzáférésű jogosultságok használatával.
  • A későbbi adatkészlet-konfigurációkban a mappa elérési útja a tárolószinttől kezdődő abszolút elérési út. A SAS URI-ban található elérési úthoz igazodva kell konfigurálnia egyet.

A közös hozzáférésű jogosultságaláírás-hitelesítés a következő tulajdonságokat támogatja:

Tulajdonság Leírás Kötelező
típus A type tulajdonságot (javasolt) vagy AzureBlobStorage AzureStorage (lásd az alábbi megjegyzést) beállításra kell állítani. Yes
sasUri Adja meg a közös hozzáférésű jogosultságok URI-ját a Storage erőforrásokhoz, például blobhoz vagy tárolóhoz.
Jelölje meg ezt a mezőt a SecureString következőként a biztonságos tárolás érdekében: . Az SAS-jogkivonatot az automatikus rotáció Azure Key Vault és a jogkivonat-rész eltávolítására is használhatja. További információkért tekintse meg a következő mintákat és a Hitelesítő adatok tárolása a Azure Key Vault.
Yes
connectVia Az adattárhoz való csatlakozáshoz használt integrációskörnyezet. Használhatja az Azure integration Runtime-t vagy a saját üzemeltetett integrációskörnyezetet (ha az adattár egy magánhálózaton található). Ha ez a tulajdonság nincs megadva, a szolgáltatás az alapértelmezett Azure integration Runtime-t használja. No

Megjegyzés

Ha a típusú csatolt szolgáltatást használja, az AzureStorage továbbra is támogatott. Javasoljuk azonban, hogy a 2018-ás 2016-ás AzureBlobStorage 2016-2016-2016-201

Példa

{
    "name": "AzureBlobStorageLinkedService",
    "properties": {
        "type": "AzureBlobStorage",
        "typeProperties": {
            "sasUri": {
                "type": "SecureString",
                "value": "<SAS URI of the Azure Storage resource e.g. https://<accountname>.blob.core.windows.net/?sv=<storage version>&st=<start time>&se=<expire time>&sr=<resource>&sp=<permissions>&sip=<ip range>&spr=<protocol>&sig=<signature>>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Példa: a fiókkulcs tárolása a Azure Key Vault

{
    "name": "AzureBlobStorageLinkedService",
    "properties": {
        "type": "AzureBlobStorage",
        "typeProperties": {
            "sasUri": {
                "type": "SecureString",
                "value": "<SAS URI of the Azure Storage resource without token e.g. https://<accountname>.blob.core.windows.net/>"
            },
            "sasToken": {
                "type": "AzureKeyVaultSecret",
                "store": {
                    "referenceName": "<Azure Key Vault linked service name>", 
                    "type": "LinkedServiceReference"
                },
                "secretName": "<secretName with value of SAS token e.g. ?sv=<storage version>&st=<start time>&se=<expire time>&sr=<resource>&sp=<permissions>&sip=<ip range>&spr=<protocol>&sig=<signature>>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Közös hozzáférésű jogosultság jogosultságának URI-ja létrehozásakor vegye figyelembe a következő pontokat:

  • Állítsa be a megfelelő olvasási/írási engedélyeket az objektumokra a csatolt szolgáltatás (olvasás, írás, olvasás/írás) használata alapján.
  • Állítsa be megfelelően a Lejárati időt. Győződjön meg arról, hogy Storage objektumokhoz való hozzáférés nem jár le a folyamat aktív időszakán belül.
  • Az URI-t szükség szerint a megfelelő tárolóban vagy blobban kell létrehozni. A blobok közös hozzáférésű jogosultság jogosultságának URI-ja lehetővé teszi, hogy az adat-előállító vagy a Synapse-folyamat hozzáférjen az adott blobhoz. A Blob Storage-tárolók közös hozzáférésű jogosultsága URI-ja lehetővé teszi, hogy az adat-előállító vagy a Synapse-folyamat iteráljon a tárolóban lévő blobok között. Ha később több vagy kevesebb objektumhoz is hozzáférést ad, vagy frissíteni kell a közös hozzáférésű jogosultságok URI-ját, ne felejtse el frissíteni a csatolt szolgáltatást az új URI-val.

Egyszerű szolgáltatásnév hitelesítése

Az Azure-beli Storage szolgáltatásnév-hitelesítéssel kapcsolatos általános információkért lásd: Az Azure-szolgáltatásokhozvaló hozzáférés hitelesítése Storage Azure Active Directory.

Szolgáltatásnév-hitelesítéshez kövesse az alábbi lépéseket:

  1. Regisztrálhat egy alkalmazásentitást a Azure Active Directory (Azure AD) szolgáltatásban az Alkalmazás regisztrálása egy Azure AD-bérlővel. Jegyezze fel ezeket az értékeket, amelyeket a csatolt szolgáltatás meghatározásához fog használni:

    • Alkalmazásazonosító
    • Alkalmazáskulcs
    • Bérlőazonosító
  2. Adjon megfelelő engedélyt a szolgáltatásnévnek az Azure Blob Storage-ban. A szerepkörökkel kapcsolatos további információkért lásd: Azure-Azure Portal hozzárendelése a blob- és üzenetsoradatokhoz való hozzáféréshez.

    • Forrásként a Hozzáférés-vezérlés (IAM) alatt adjon meg legalább Storage blobadat-olvasó szerepkört.
    • Fogadóként( ) a Hozzáférés-vezérlés (IAM) alatt adjon meg legalább Storage blobadatok közreműködője szerepkört.

Ezek a tulajdonságok támogatottak az Azure Blob Storage-beli csatolt szolgáltatásokhoz:

Tulajdonság Leírás Kötelező
típus A típus tulajdonságot AzureBlobStorage -re kell állítani. Yes
serviceEndpoint Adja meg az Azure Blob Storage szolgáltatásvégpontot a https://<accountName>.blob.core.windows.net/ mintával. Yes
accountKind (fiókhoz hasonló) Adja meg a tárfiók fajtáját. Megengedett értékek: Storage (általános célú v1), StorageV2 (általános célú v2), BlobStorage, vagy BlockBlobStorage.

Ha az adatfolyamban Azure Blob-beli csatolt szolgáltatást használ, a felügyelt identitás vagy szolgáltatásnév hitelesítése nem támogatott, ha a fiók üres vagy "Storage". Adja meg a megfelelő fiók fajtáját, válasszon másik hitelesítést, vagy frissítse a tárfiókot általános célú v2-re.
No
servicePrincipalId Adja meg az alkalmazás ügyfél-azonosítóját. Yes
servicePrincipalKey Adja meg az alkalmazás kulcsát. Jelölje meg ezt a mezőt SecureString-ként a biztonságos tároláshozFactory, vagy hivatkozhat egy, akövetkezőben Azure Key Vault. Yes
Bérlő Adja meg azt a bérlői információt (tartománynév vagy bérlőazonosító), amelyben az alkalmazás található. A lekérdezéshez vigye a mutatót a jobb felső sarokban Azure Portal. Yes
azureCloudType Szolgáltatásnév-hitelesítéshez adja meg az Azure-felhőkörnyezet típusát, amelyben a Azure Active Directory regisztrálva van.
Megengedett értékek: AzurePublic, AzureChina, AzureUsGovernment és AzureGermany. Alapértelmezés szerint a rendszer az adat-előállítót vagy a Synapse-folyamat felhőkörnyezetét használja.
No
connectVia Az adattárhoz való csatlakozáshoz használt integrációs futtatás. Használhatja az Azure integration runtime-t vagy a saját által üzemeltetett integrációskörnyezetet (ha az adattár egy magánhálózatban található). Ha ez a tulajdonság nincs megadva, a szolgáltatás az alapértelmezett Azure integration Runtime-t használja. No

Megjegyzés

  • Ha a blobfiók engedélyezi a soft delete parancsot,az adattárolók nem támogatják a szolgáltatásnév-Flow.
  • Ha privát végponton keresztül fér hozzá a blobtárolóhoz a Data Flow használatával, vegye figyelembe, hogy ha szolgáltatásnév-hitelesítést használ, az Flow blobvégpont helyett a ADLS Gen2-végponthoz csatlakozik. A hozzáférés engedélyezéséhez hozza létre a megfelelő privát végpontot az adat-előállítóban vagy a Synapse-munkaterületen.

Megjegyzés

A szolgáltatásnév-hitelesítést csak az "AzureBlobStorage" típusú összekapcsolt szolgáltatás támogatja, az előző "AzureStorage" típusú összekapcsolt szolgáltatás nem.

Példa

{
    "name": "AzureBlobStorageLinkedService",
    "properties": {
        "type": "AzureBlobStorage",
        "typeProperties": {            
            "serviceEndpoint": "https://<accountName>.blob.core.windows.net/",
            "accountKind": "StorageV2",
            "servicePrincipalId": "<service principal id>",
            "servicePrincipalKey": {
                "type": "SecureString",
                "value": "<service principal key>"
            },
            "tenant": "<tenant info, e.g. microsoft.onmicrosoft.com>" 
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Rendszer által hozzárendelt felügyelt identitás hitelesítése

Egy adat-előállító vagy Synapse-folyamat társítható az Azure-erőforrásokrendszer által hozzárendelt felügyelt identitásához, amely az adott erőforrást jelöli más Azure-szolgáltatásokhoz való hitelesítéshez. Közvetlenül használhatja ezt a rendszer által hozzárendelt felügyelt identitást a Blob Storage-hitelesítéshez, amely hasonló a saját szolgáltatásnévhez. Lehetővé teszi, hogy a kijelölt erőforrás hozzáférjen az adatokhoz, és adatokat másol a Blob Storage-ból vagy blobtárolóba. Az Azure-erőforrások felügyelt identitásokkal kapcsolatos további információért lásd: Felügyelt identitások Azure-erőforrásokhoz

Az Azure-beli Storage hitelesítéssel kapcsolatos általános információkért lásd: Az Azure Storage hozzáférésének hitelesítése a Azure Active Directory. Ha felügyelt identitásokat használ az Azure-erőforrások hitelesítéséhez, kövesse az alábbi lépéseket:

  1. A rendszer által hozzárendelt felügyelt identitás információinak lekéréséhez másolja ki a rendszer által hozzárendelt felügyelt identitás objektumazonosítójának a gyárral vagy a Synapse-munkaterülettel együtt létrehozott értékét.

  2. Adja meg a felügyelt identitás engedélyét az Azure Blob Storage-ban. A szerepkörökkel kapcsolatos további információkért lásd: Azure-Azure Portal hozzárendelése a blob- és üzenetsoradatokhoz való hozzáféréshez.

    • Forrásként a Hozzáférés-vezérlés (IAM) alatt adjon meg legalább Storage blobadat-olvasó szerepkört.
    • Fogadóként( ) a Hozzáférés-vezérlés (IAM) alatt adjon meg legalább Storage blobadatok közreműködője szerepkört.

Ezek a tulajdonságok támogatottak az Azure Blob Storage-beli csatolt szolgáltatásokhoz:

Tulajdonság Leírás Kötelező
típus A típus tulajdonságot AzureBlobStorage -re kell állítani. Yes
serviceEndpoint Adja meg az Azure Blob Storage szolgáltatásvégpontot a https://<accountName>.blob.core.windows.net/ mintával. Yes
accountKind (fiókhoz hasonló) Adja meg a tárfiók fajtáját. Megengedett értékek: Storage (általános célú v1), StorageV2 (általános célú v2), BlobStorage, vagy BlockBlobStorage.

Ha az adatfolyamban Azure Blob-beli csatolt szolgáltatást használ, a felügyelt identitás vagy szolgáltatásnév hitelesítése nem támogatott, ha a fiók üres vagy "Storage". Adja meg a megfelelő fiók fajtáját, válasszon másik hitelesítést, vagy frissítse a tárfiókot általános célú v2-re.
No
connectVia Az adattárhoz való csatlakozáshoz használt integrációs futtatás. Használhatja az Azure integration runtime-t vagy a saját által üzemeltetett integrációskörnyezetet (ha az adattár egy magánhálózatban található). Ha ez a tulajdonság nincs megadva, a szolgáltatás az alapértelmezett Azure integration Runtime-t használja. No

Példa

{
    "name": "AzureBlobStorageLinkedService",
    "properties": {
        "type": "AzureBlobStorage",
        "typeProperties": {            
            "serviceEndpoint": "https://<accountName>.blob.core.windows.net/",
            "accountKind": "StorageV2" 
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Felhasználó által hozzárendelt felügyelt identitás hitelesítése

Egy adat-előállító egy vagy több felhasználó által hozzárendelt felügyelt identitással is hozzárendelhető. Ezt a felhasználó által hozzárendelt felügyelt identitást blobtároló-hitelesítéshez használhatja, amely lehetővé teszi az adatok blobtárolóból vagy blobtárolóba való hozzáférését és másolását. Az Azure-erőforrások felügyelt identitásokkal kapcsolatos további információért lásd: Azure-erőforrások felügyelt identitása

Az Azure Storage-hitelesítéssel kapcsolatos általános információkért lásd: Az Azure-fiókhoz való hozzáférés hitelesítése Storage a Azure Active Directory. Felhasználó által hozzárendelt felügyelt identitásos hitelesítéshez kövesse az alábbi lépéseket:

  1. Hozzon létre egy vagy több felhasználó által hozzárendelt felügyelt identitást, és adjon engedélyt az Azure Blob Storage-ban. A szerepkörökkel kapcsolatos további információkért lásd: Azure Portal azure-beli szerepkör hozzárendelése a blob- és üzenetsoradatokhoz való hozzáféréshez.

    • Forrásként a Hozzáférés-vezérlés (IAM) alatt adjon meg legalább Storage blobadat-olvasó szerepkört.
    • Fogadóként a Hozzáférés-vezérlés (IAM) alatt adjon meg legalább Storage Blobadatok közreműködője szerepkört.
  2. Rendeljen hozzá egy vagy több felhasználó által hozzárendelt felügyelt identitást az adat-előállítóhoz, és hozzon létre hitelesítő adatokat minden felhasználó által hozzárendelt felügyelt identitáshoz.

Ezek a tulajdonságok támogatottak az Azure Blob Storage-beli csatolt szolgáltatásokhoz:

Tulajdonság Leírás Kötelező
típus A típus tulajdonságot AzureBlobStorage -re kell állítani. Yes
serviceEndpoint Adja meg az Azure Blob Storage szolgáltatásvégpontot a https://<accountName>.blob.core.windows.net/ mintával. Yes
accountKind (fiókhoz hasonló) Adja meg a tárfiók fajtáját. Megengedett értékek: Storage (általános célú v1), StorageV2 (általános célú v2), BlobStorage, vagy BlockBlobStorage.

Ha az adatfolyamban Azure Blob-beli csatolt szolgáltatást használ, a felügyelt identitás vagy szolgáltatásnév hitelesítése nem támogatott, ha a fiók üres vagy "Storage". Adja meg a megfelelő fiók fajtáját, válasszon másik hitelesítést, vagy frissítse a tárfiókot általános célú v2-re.
No
hitelesítő adatok Adja meg a felhasználó által hozzárendelt felügyelt identitást hitelesítő objektumként. Yes
connectVia Az adattárhoz való csatlakozáshoz használt integrációs futtatás. Használhatja az Azure integration runtime-t vagy a saját által üzemeltetett integrációskörnyezetet (ha az adattár egy magánhálózatban található). Ha ez a tulajdonság nincs megadva, a szolgáltatás az alapértelmezett Azure integration Runtime-t használja. No

Példa

{
    "name": "AzureBlobStorageLinkedService",
    "properties": {
        "type": "AzureBlobStorage",
        "typeProperties": {            
            "serviceEndpoint": "https://<accountName>.blob.core.windows.net/",
            "accountKind": "StorageV2",
            "credential": {
                "referenceName": "credential1",
                "type": "CredentialReference"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Fontos

Ha a PolyBase vagy a COPY utasítás használatával tölt be adatokat a Blob Storage-ból (forrásként vagy előkészítésként) az Azure Synapse Analytics-be, a Blob Storage-hoz felügyelt identitásos hitelesítés használata esetén ügyeljen arra, hogy az útmutató 1–3. lépését is kövesse. Ezek a lépések regisztrálják a kiszolgálót az Azure AD-ban, és hozzárendelik Storage blobadatok közreműködője szerepkört a kiszolgálóhoz. Data Factory a többit kezeli. Ha egy Azure Virtual Network-végponttal konfigurálja a Blob Storage-et, akkor az Azure Storage-fiók Tűzfalak és virtuális hálózatok beállításai menüjében be kell kapcsolva a Tárfiók hozzáférésének engedélyezése a megbízható Microsoft-szolgáltatások számára beállítást az Azure Synapse.

Megjegyzés

  • Ha a blobfiók engedélyezi a soft deleteparancsot, az Adattárolók nem támogatják a rendszer által hozzárendelt/felhasználó által hozzárendelt felügyelt identitások Flow.
  • Ha privát végponton keresztül fér hozzá a Blob Storage-hoz a Data Flow használatával, vegye figyelembe, ha rendszer által hozzárendelt/felhasználó által hozzárendelt felügyelt identitásos hitelesítést használ. Az Flow blobvégpont helyett a ADLS Gen2-végponthoz csatlakozik. A hozzáférés engedélyezéséhez hozza létre a megfelelő privát végpontot az ADF-ben.

Megjegyzés

A rendszer által hozzárendelt/felhasználó által hozzárendelt felügyelt identitások hitelesítését csak az "AzureBlobStorage" típusú társított szolgáltatás támogatja, a korábbi "AzureStorage" típusú társított szolgáltatás nem.

Adatkészlet tulajdonságai

Az adatkészletek meghatározásához elérhető szakaszok és tulajdonságok teljes listáját az Adatkészletek cikkben olvashatja el.

Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokról az egyes cikkben talál további részleteket.

Az Azure Blob Storage a következő tulajdonságokat támogatja location a formátumalapú adatkészlet beállításainál:

Tulajdonság Leírás Kötelező
típus Az adatkészletben található hely type (típus) tulajdonságát AzureBlobStorageLocation (AzureBlobStorageLocation) helyre kell állítani. Yes
tároló A blobtároló. Yes
folderPath Az adott tároló alatti mappa elérési útja. Ha helyettesítő karakter használatával szeretné szűrni a mappát, hagyja ki ezt a beállítást, és adja meg a tevékenység forrásbeállításában. No
fileName A fájlnév a megadott tároló és mappa elérési útja alatt. Ha helyettesítő karaktereket szeretne használni a fájlok szűréséhez, hagyja ki ezt a beállítást, és adja meg a tevékenység forrásbeállításában. No

Példa

{
    "name": "DelimitedTextDataset",
    "properties": {
        "type": "DelimitedText",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, auto retrieved during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder"
            },
            "columnDelimiter": ",",
            "quoteChar": "\"",
            "firstRowAsHeader": true,
            "compressionCodec": "gzip"
        }
    }
}

Másolási tevékenység tulajdonságai

A tevékenységek meghatározásához elérhető szakaszok és tulajdonságok teljes listáját a Folyamatok cikkben olvashatja el. Ez a szakasz felsorolja a Blob Storage-forrás és -fogadó által támogatott tulajdonságokat.

Blob Storage mint forrástípus

Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokról az egyes cikkben talál további részleteket.

Az Azure Blob Storage a következő tulajdonságokat támogatja a formátumalapú másolási storeSettings forrás beállításainál:

Tulajdonság Leírás Kötelező
típus Az alatt található típus storeSettings tulajdonságot AzureBlobStorageReadSettings beállításra kell állítani. Yes
Keresse meg a másolni szükséges fájlokat:
1. LEHETŐSÉG: statikus elérési út
Másolja ki a adatokat az adatkészletben megadott tárolóból vagy mappából/fájlból. Ha az összes blobot ki szeretné másolni egy tárolóból vagy mappából, adja meg a következőt wildcardFileName is: * .
2. LEHETŐSÉG: blobelőtag
- előtag
A forrásblobok szűréséhez egy adatkészletben konfigurált adott tárolóban lévő blobnév előtagja. Ki vannak választva azok a blobok, amelyeknek a neve container_in_dataset/this_prefix a kezdettől kezdődik. A Szolgáltatásoldali szűrőt használja a Blob Storage-hoz, amely jobb teljesítményt nyújt, mint a helyettesítő karakteres szűrők.

Ha előtagot használ, és a fájlalapú fogadóba másol a hierarchiát megőrző hierarchiával, vegye figyelembe, hogy az előtag utolsó "/" utáni alútvonala megmarad. Például a forrás , az előtag pedig a következő: , akkor container/folder/subfolder/file.txt folder/sub a megőrzött fájl elérési útja subfolder/file.txt .
No
3. LEHETŐSÉG: helyettesítő karakter
- wildcardFolderPath
A mappa elérési útja helyettesítő karakterekkel a megadott tároló alatt, amely egy adatkészletben van konfigurálva a forrásmappák szűréséhez.
Megengedett helyettesítő karakterek: (nulla vagy több * karakterre illeszkedik) és ? (nulla vagy egyetlen karakterre illeszkedik). Ha a mappanévben helyettesítő karakter vagy ez a escape-karakter található, használja a parancsot ^ a escape-karakterrel való escape-karakterre.
További példákat a Mappa- és fájlszűrő példákban talál.
No
3. LEHETŐSÉG: helyettesítő karakter
- helyettesítő fájlnév
A fájl neve helyettesítő karakterekkel a megadott tároló és mappa elérési útja (vagy helyettesítő mappa elérési útja) alatt a forrásfájlok szűréséhez.
Megengedett helyettesítő karakterek: (nulla vagy több karakterre illeszkedik) és * ? (nulla vagy egy karakterre illeszkedik). Ha a fájlnévben helyettesítő karakter vagy ez a escape-karakter található, ^ használja az escape-t az escape karakterrel. További példákat a Mappa- és fájlszűrő példák között talál.
Yes
4. LEHETŐSÉG: a fájlok listája
- fileListPath
Egy adott fájlkészlet másolását jelzi. Mutasson egy szövegfájlra, amely soronként egy fájlt tartalmaz a másolni kívánt fájlok listájával, amely az adatkészletben konfigurált elérési út relatív elérési útja.
Ha ezt a beállítást használja, ne adjon meg fájlnevet az adatkészletben. További példákat a Fájllista-példákban talál.
No
További beállítások:
Rekurzív Azt jelzi, hogy az adatok rekurzívan vannak-e beolvasva az almappákból, vagy csak a megadott mappából. Vegye figyelembe, hogy ha a rekurzív true (igaz) értékre van állítva, és a fogadó fájlalapú tároló, a rendszer nem másol vagy hoz létre üres mappát vagy almappát a fogadóban.
Az engedélyezett értékek true (default) (igaz) (alapértelmezett) és false (hamis).
Ez a tulajdonság a konfigurálásakor nem fileListPath érvényes.
No
deleteFilesAfterCompletion Azt jelzi, hogy a bináris fájlok törlődnek-e a forrástárolóból a céltárolóba való sikeres áthelyezés után. A fájl törlése fájlonként történik, így ha a másolási tevékenység meghiúsul, néhány fájlt már átmásoltak a célhelyre, és törölve vannak a forrásból, míg mások továbbra is a forrástárban maradnak.
Ez a tulajdonság csak bináris fájlok másolási forgatókönyvében érvényes. Az alapértelmezett érték: false (hamis).
No
modifiedDatetimeStart A fájlok a következő attribútum alapján vannak szűrve: utolsó módosítás.
A fájlok akkor lesznek kiválasztva, ha az utolsó módosításuk időpontja a és a közötti időtartományon modifiedDatetimeStart belül modifiedDatetimeEnd van. A rendszer a "2018-12-01T05:00:00Z" formátumban alkalmazza az időt egy UTC-időzónára.
A tulajdonságok null értékűek is lehetnek, ami azt jelenti, hogy a rendszer nem alkalmaz fájlattribútum-szűrőt az adatkészletre. Ha a dátum/idő értékkel rendelkezik, de NULL értékű, akkor azok a fájlok lesznek kiválasztva, amelyek utolsó módosítási attribútuma nagyobb vagy egyenlő, mint a modifiedDatetimeStart modifiedDatetimeEnd datetime érték. Ha a dátum/idő értékkel rendelkezik, de NULL értékű, akkor azok a fájlok lesznek kiválasztva, amelyek utolsó módosítási attribútuma kisebb, mint a modifiedDatetimeEnd modifiedDatetimeStart datetime érték.
Ez a tulajdonság a konfigurálásakor nem fileListPath érvényes.
No
modifiedDatetimeEnd (módosítás dátuma és időpontja) Lásd fentebb. No
enablePartitionDiscovery Particionált fájlok esetén adja meg, hogy elemezze-e a partíciókat a fájl elérési útján, és adja hozzá őket további forrásoszlopokként.
Az engedélyezett értékek hamisak (alapértelmezett) és true (igaz).
No
partitionRootPath Ha a partíciófelderítés engedélyezve van, adja meg az abszolút gyökérútvonalat a particionált mappák adatoszlopként való beolvassa.

Ha nincs megadva, alapértelmezés szerint a
– Ha fájlútvonalat használ az adatkészletben vagy a forrásfájlok listájában, a partíció gyökérútvonala az adatkészletben konfigurált elérési út.
– Helyettesítő karakteres mappaszűrő használatakor a partíció gyökérútvonala az első helyettesítő karakter előtti alútvonal.
- Ha előtagot használ, a partíció gyökérútvonala az utolsó "/" előtti alútvonal.

Feltéve például, hogy az adatkészletben az elérési utat "root/folder/year=2020/month=08/day=27" értékként konfigurálja:
- Ha a partíció gyökérútvonalát "root/folder/year=2020" értékkel adja meg, a másolási tevékenység két további oszlopot hoz létre, amelyek értéke month day "08", illetve "27", a fájlokban lévő oszlopok mellett.
– Ha a partíció gyökérútvonala nincs megadva, a rendszer nem hoz létre további oszlopot.
No
maxConcurrentConnections Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. No

Megjegyzés

Parquet/tagolt szöveges formátum esetén a következő szakaszban említett Copy tevékenység forrás BlobSource-típusa továbbra is támogatott, mivel a visszamenőleges kompatibilitás érdekében. Javasoljuk, hogy addig használja az új modellt, amíg a szerzői felhasználói felület át nem vált az új típusok létrehozására.

Példa

"activities":[
    {
        "name": "CopyFromBlob",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delimited text input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "DelimitedTextSource",
                "formatSettings":{
                    "type": "DelimitedTextReadSettings",
                    "skipLineCount": 10
                },
                "storeSettings":{
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true,
                    "wildcardFolderPath": "myfolder*A",
                    "wildcardFileName": "*.csv"
                }
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Megjegyzés

A tároló, amely akkor jön létre automatikusan, Storage Analytics engedélyezve van egy tárfiókhoz, nem jelenik meg, ha a felhasználói felületen tárolólista-műveletet $logs hajt végre. A fájl elérési útját meg kell adni közvetlenül az adat-előállítóhoz vagy a Synapse-folyamathoz, hogy fájlokat használjon fel a $logs tárolóból.

Blob Storage mint fogadótípus

Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkben talál.

Az Azure Blob Storage a következő tulajdonságokat támogatja storeSettings a formátumalapú másolási fogadó beállításainál:

Tulajdonság Leírás Kötelező
típus Az type alatt található storeSettings tulajdonságot a következőre kell beállítani: AzureBlobStorageWriteSettings . Yes
copyBehavior Meghatározza a másolási viselkedést, ha a forrás fájlalapú adattárból származó fájlok.

Az engedélyezett értékek a következőek:
- PreserveHierarchy (alapértelmezett):Megőrzi a fájlhierarchiát a célmappában. A forrásfájl és a forrásmappa relatív elérési útja megegyezik a célfájl és a célmappa relatív elérési útjának értékében.
- FlattenHierarchy:A forrásmappa összes fájlja a célmappa első szintjén található. A célfájloknak automatikusan létrehozott neveik vannak.
- MergeFiles:Egyesíti a forrásmappában lévő összes fájlt egy fájlba. Ha a fájl vagy blob neve meg van adva, az egyesített fájlnév lesz a megadott név. Ellenkező esetben ez egy automatikusan létrehozott fájlnév.
No
blockSizeInMB Adja meg a blokk méretét (megabájtban), amely a blokkblobok adatainak írására használható. További információ a blokkblobokról.
Az engedélyezett érték 4 MB és 100 MB között lehet.
Alapértelmezés szerint a szolgáltatás automatikusan meghatározza a blokkméretet a forrástár típusa és adatai alapján. A blobtárolóba való nembináris másolás esetén az alapértelmezett blokkméret 100 MB, így (legalább) 4,95 TB adatba elfér. Előfordulhat, hogy nem optimális, ha az adatok nem túl nagyok, különösen akkor, ha a saját üzemeltetésű integrációskörnyezetet gyenge hálózati kapcsolatokkal használja, amelyek a művelet időtúllépését vagy teljesítményével kapcsolatos problémákat eredményeznek. Explicit módon megadhatja a blokkméretet, ugyanakkor gondoskodhat arról, hogy az blockSizeInMB*50000 elég nagy legyen az adatok tárolására. Ellenkező esetben a Copy tevékenység sikertelen lesz.
No
maxConcurrentConnections Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. No
metaadatok Egyéni metaadatok beállítása a fogadóba másoláskor. A tömb alatti metadata összes objektum egy további oszlopot képvisel. A határozza meg a metaadatkulcs nevét, a pedig jelzi a kulcs name value adatértékét. Ha az attribútumok megőrzése funkciót használja, a megadott metaadatok a forrásfájl metaadataival egyesednek/felülírnak.

Az engedélyezett adatértékek a következőek:
- $$LASTMODIFIED: a reserved (fenntartott) változó azt jelzi, hogy a forrásfájlok utolsó módosítási ideje van tárolva. Csak bináris formátumú fájlalapú forrásra vonatkozik.
- Kifejezés
- Statikus érték
No

Példa

"activities":[
    {
        "name": "CopyFromBlob",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Parquet output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "ParquetSink",
                "storeSettings":{
                    "type": "AzureBlobStorageWriteSettings",
                    "copyBehavior": "PreserveHierarchy",
                    "metadata": [
                        {
                            "name": "testKey1",
                            "value": "value1"
                        },
                        {
                            "name": "testKey2",
                            "value": "value2"
                        },
                        {
                            "name": "lastModifiedKey",
                            "value": "$$LASTMODIFIED"
                        }
                    ]
                }
            }
        }
    }
]

Példák mappa- és fájlszűrőkre

Ez a szakasz a mappa elérési útjának és fájlnevének a helyettesítő karakteres szűrőkkel való viselkedését ismerteti.

folderPath fileName Rekurzív Forrásmappa szerkezete és szűrő eredménye (a rendszer félkövérrel szedett fájlokat ad vissza)
container/Folder* (üres, használja az alapértelmezett értéket) hamis tároló
    FolderA (A mappa)
        File1.csv
        File2.json
        Almappa1
            File3.csv
            File4.json
            File5.csv
    AnotherFolderB
        File6.csv
container/Folder* (üres, használja az alapértelmezett értéket) true tároló
    FolderA (A mappa)
        File1.csv
        File2.json
        Almappa1
            File3.csv
            File4.json
            File5.csv
    AnotherFolderB
        File6.csv
container/Folder* *.csv hamis tároló
    FolderA (A mappa)
        File1.csv
        File2.json
        Almappa1
            File3.csv
            File4.json
            File5.csv
    AnotherFolderB
        File6.csv
container/Folder* *.csv true tároló
    FolderA (A mappa)
        File1.csv
        File2.json
        Almappa1
            File3.csv
            File4.json
            File5.csv
    AnotherFolderB
        File6.csv

Példák fájllista használatára

Ez a szakasz a fájllista elérési útjának a forrásban való használatának Copy tevékenység működését ismerteti.

Tegyük fel, hogy rendelkezik a következő forrásmappa-struktúrával, és félkövérrel szeretné másolni a fájlokat:

Minta forrásstruktúra Tartalom a FileListToCopy.txt Konfiguráció
tároló
    FolderA (A mappa)
        File1.csv
        File2.json
        Almappa1
            File3.csv
            File4.json
            File5.csv
    Metaadat
        FileListToCopy.txt
File1.csv
Almappa1/File3.csv
Almappa1/File5.csv
Az adatkészletben:
- Tároló: container
- Mappa elérési útja: FolderA

A Copy tevékenység forrásban:
- Fájllista elérési útja: container/Metadata/FileListToCopy.txt

A fájllista elérési útja egy ugyanabban az adattárban található szövegfájlra mutat, amely a másolni kívánt fájlok listáját tartalmazza soronként egy fájllal, valamint az adatkészletben konfigurált elérési út relatív elérési útját.

Rekurzív és copyBehavior példák

Ez a szakasz a másolási műveletnek a rekurzív és a copyBehavior értékek különböző kombinációi esetében keletkező viselkedését ismerteti.

Rekurzív copyBehavior Forrásmappa szerkezete Eredményül kapott cél
true preserveHierarchy Folder1 (Mappa1)
    File1 (1. fájl)
    2. fájl
    Almappa1
        3. fájl
        4. fájl
        5. fájl
A Mappa1 nevű célmappa ugyanazokkal a struktúrával jön létre, mint a forrás:

Folder1 (Mappa1)
    File1 (1. fájl)
    2. fájl
    Almappa1
        3. fájl
        4. fájl
        5. fájl
true flattenHierarchy Folder1 (Mappa1)
    File1 (1. fájl)
    2. fájl
    Almappa1
        3. fájl
        4. fájl
        5. fájl
A Folder1 nevű célmappa a következő struktúrával jön létre:

Folder1 (Mappa1)
    automatikusan létrehozott név az 1. fájlhoz
    automatikusan létrehozott név a File2-hez
    automatikusan létrehozott név a File3 számára
    automatikusan létrehozott név a File4-hez
    automatikusan létrehozott név az 5. fájlhoz
true mergeFiles Folder1 (Mappa1)
    File1 (1. fájl)
    2. fájl
    Almappa1
        3. fájl
        4. fájl
        5. fájl
A Folder1 nevű célmappa a következő struktúrával jön létre:

Folder1 (Mappa1)
    A File1 + File2 + File3 + File4 + File5 tartalmak egy automatikusan létrehozott fájlnévvel egyesülnek egy fájlban.
hamis preserveHierarchy Folder1 (Mappa1)
    File1 (1. fájl)
    2. fájl
    Almappa1
        3. fájl
        4. fájl
        5. fájl
A Folder1 nevű célmappa a következő struktúrával jön létre:

Folder1 (Mappa1)
    File1 (1. fájl)
    2. fájl

A File3, File4 és File5 almappák1 nem lesz átveve.
hamis flattenHierarchy Folder1 (Mappa1)
    File1 (1. fájl)
    2. fájl
    Almappa1
        3. fájl
        4. fájl
        5. fájl
A Folder1 nevű célmappa a következő struktúrával jön létre:

Folder1 (Mappa1)
    automatikusan létrehozott név az 1. fájlhoz
    automatikusan létrehozott név a File2-hez

A File3, File4 és File5 almappák1 nem lesz átveve.
hamis mergeFiles Folder1 (Mappa1)
    File1 (1. fájl)
    2. fájl
    Almappa1
        3. fájl
        4. fájl
        5. fájl
A Folder1 nevű célmappa a következő struktúrával jön létre:

Folder1 (Mappa1)
    A File1 + File2 tartalma egy automatikusan létrehozott fájlnévvel van egyesülve. automatikusan létrehozott név az 1. fájlhoz

A File3, File4 és File5 almappák1 nem lesz átveve.

Metaadatok megőrzése másolás közben

Amikor fájlokat másol az Amazon S3-ból, az Azure Blob Storage-ból vagy az Azure Data Lake Storage Gen2-ről az Azure Data Lake Storage Gen2-be vagy az Azure Blob Storage-ba, dönthet úgy, hogy megőrzi a fájl metaadatait és adatait. További információ: Metaadatok megőrzése.

Adatfolyam-tulajdonságok leképezése

Amikor leképezési adatfolyamokban alakítja át az adatokat, a következő formátumokban olvashat és írhat fájlokat az Azure Blob Storage-ból:

A formátumspecifikus beállítások a formátum dokumentációjában találhatók. További információ: Forrásátalakítás az adatfolyam leképezésében és Fogadó-átalakítás a leképezési adatfolyamban.

Forrásátalakítás

A forrásátalakítás során olvashat egy tárolóból, mappából vagy az Azure Blob Storage-ban található egyes fájlokból. A Forrásbeállítások lapon kezelheti a fájlok olvasásának a mikéntét.

Forrásbeállítások

Helyettesítő elérési utak: Helyettesítő karakteres minta használata arra utasítja a szolgáltatást, hogy egyetlen forrásátalakításban végighurkítsa az egyező mappákat és fájlokat. Ez egy hatékony módszer több fájl feldolgozására egyetlen folyamaton belül. Adjon hozzá több helyettesítő karakterrel egyező mintát a pluszjel használatával, amely akkor jelenik meg, ha a kurzort a meglévő helyettesítő karakteres minta fölé húzza.

A forrástárolóban válasszon egy mintának megfelelő fájlsorozatot. Az adatkészletben csak tárolót lehet megadni. A helyettesítő karakteres elérési útnak ezért tartalmaznia kell a mappa elérési útját is a gyökérmappában.

Helyettesítő karakterek – példák:

  • * Bármilyen karakterkészletet képvisel.

  • ** Rekurzív könyvtárbe ágyazásnak jelöli.

  • ? Egy karaktert cserél le.

  • [] Egy vagy több karakterre illeszkedik a szögletes zárójelben.

  • /data/sales/**/*.csv Lekérte .csv összes fájlt a /data/sales alatt.

  • /data/sales/20??/**/ A 20. század összes fájlját lekérte.

  • /data/sales/*/*/*.csv Le .csv fájlokat két szinttel a /data/sales alatt.

  • /data/sales/2004/*/12/[XY]1?.csv Le .csv 2004 decemberi összes fájlját, amely egy kétjegyű számmal előtaggal előtaggal és X vagy Y előtaggal kezdődik.

Partíció gyökérútvonala: Ha a fájlforrásban particionált mappák találhatók formátumban (például ), akkor a partíciómappa fa legfelső szintjét hozzárendelheti egy oszlopnévhez az adatfolyam key=value year=2019 adatfolyamában.

Először állítson be helyettesítő karaktereket, amelyek tartalmazzák az összes elérési utat, amelyek a particionált mappák, valamint az olvasni kívánt levélfájlok.

Forrásfájl beállításainak particionálása

A Partíció gyökérútvonala beállítással adhatja meg a mappastruktúra legfelső szintjét. Amikor egy adatelőnézeten keresztül megtekinti az adatok tartalmát, láthatja, hogy a szolgáltatás hozzáadja az egyes mappaszintek között talált feloldott partíciókat.

Partíció gyökérútvonala

Fájlok listája: Ez egy fájlkészlet. Hozzon létre egy szövegfájlt, amely tartalmazza a feldolgozni kívánt relatív elérési utak fájljainak listáját. Mutasson erre a szövegfájlra.

A fájlnév tárolására kívánt oszlop: Tárolja a forrásfájl nevét az adatok egy oszlopában. Adjon meg egy új oszlopnevet a fájlnév sztring tárolására.

A befejezés után: Ha nem szeretne semmit tenni a forrásfájllal az adatfolyam futtatása után, törölje a forrásfájlt, vagy helyezze át a forrásfájlt. Az áthelyezés elérési útjai relatívak.

A forrásfájlok feldolgozás utáni másik helyre való áthelyezéséhez először válassza az "Áthelyezés" lehetőséget a fájlművelethez. Ezután állítsa be a "from" könyvtárat. Ha nem használ helyettesítő karaktereket az elérési úthoz, akkor a "forrás" beállítás a forrásmappával azonos mappa lesz.

Ha helyettesítő karakteres forrásútvonala van, a szintaxis a következő lesz:

/data/sales/20??/**/*.csv

A "from" a következőként adható meg:

/data/sales

A "to" a következőként adható meg:

/backup/priorSales

Ebben az esetben a alatt található összes fájl átkerül a /data/sales következőbe: /backup/priorSales .

Megjegyzés

A fájlműveletek csak akkor futnak, ha az adatfolyamot egy folyamatfuttatásból (folyamat hibakeresése vagy végrehajtási futtatás) indítja el, amely az Adatok végrehajtása Flow tevékenységet használja egy folyamatban. A fájlműveletek nem futnak adatkeresési Flow módban.

Szűrés az utolsó módosítás alapján: A feldolgozott fájlokat a legutóbbi módosításuk dátumtartományának megadásával szűrheti. Az összes dátum és idő UTC időzónában van megadva.

Fogadó tulajdonságai

A fogadóátalakítás során írhat egy tárolóba vagy egy Azure Blob Storage-beli mappába. A Gépház lapon kezelheti a fájlok írásának a mikéntét.

Fogadóbeállítások

Törölje a mappát: Meghatározza, hogy a célmappa törlődjön-e az adatok írása előtt.

Fájlnév beállítás: Meghatározza, hogy a célfájlok hogyan vannak elnevezve a célmappában. A fájlnév-beállítások a következőek:

  • Alapértelmezett: Engedélyezi, hogy a Spark a rész alapértelmezései alapján nevezze el a fájlokat.
  • Minta: Adjon meg egy mintát, amely számba veszi a kimeneti fájlokat partíciónként. A létrehoz például loans[n].csv , , és így loans1.csv loans2.csv tovább.
  • Partíciónként: Partíciónként egy fájlnevet adjon meg.
  • As data in column (Adatok az oszlopban): Állítsa a kimeneti fájlt egy oszlop értékére. Az elérési út nem a célmappára, de az adatkészlet tárolójához képest relatív. Ha az adatkészlet tartalmaz mappaútvonalat, az felül lesz bírálva.
  • Kimenet egyetlen fájlba: Kombinálja a particionált kimeneti fájlokat egyetlen elnevezett fájlban. Az elérési út az adatkészlet mappához képest relatív. Vegye figyelembe, hogy az egyesítési művelet a csomópont mérete alapján meghiúsulhat. Nagy adatkészletek esetén ez a lehetőség nem ajánlott.

Idézzük fel az összeset: Meghatározza, hogy az összes értéket idézőjelek közé kell-e tenni.

Keresési tevékenység tulajdonságai

A tulajdonságokkal kapcsolatos részletekért tekintse meg a keresési tevékenységet.

A GetMetadata tevékenység tulajdonságai

A tulajdonságokkal kapcsolatos részletekért tekintse meg a GetMetadata tevékenységet.

Tevékenység tulajdonságainak törlése

A tulajdonságokkal kapcsolatos részletekért tekintse meg a Delete activity (Tevékenység törlése) jelölőnégyzetet.

Örökölt modellek

Megjegyzés

A visszamenőleges kompatibilitás érdekében az alábbi modellek továbbra is támogatottak. Javasoljuk, hogy a korábban említett új modellt használja. A szerzői felhasználói felület az új modell generálása lett.

Örökölt adatmodell

Tulajdonság Leírás Kötelező
típus Az type adatkészlet tulajdonságát a következőre kell beállítani: AzureBlob . Yes
folderPath A blobtároló tárolójának és mappájának elérési útja.

Az elérési úthoz helyettesítő karakteres szűrő is használható, a tároló neve nélkül. Megengedett helyettesítő karakterek: (nulla vagy több * karakterre illeszkedik) és ? (nulla vagy egyetlen karakterre illeszkedik). Ha a mappanévben helyettesítő karakter vagy ez a escape-karakter található, használja a parancsot a ^ escape-karakterrel való escape-karakterre.

Erre példa a következő: myblobcontainer/myblobfolder/ . További példákat a Mappa- és fájlszűrő példákban talál.
Igen a másolási vagy keresési tevékenységhez, nem a GetMetadata tevékenységhez
fileName A megadott érték alatti blobok név- vagy helyettesítő karakteres folderPath szűrője. Ha nem ad meg értéket ehhez a tulajdonsághoz, az adatkészlet a mappában lévő összes blobra mutat.

A szűrő megengedett helyettesítő karakterei: (nulla vagy több karakterre illeszkedik) és (nulla vagy * ? egyetlen karakterre illeszkedik).
– 1. példa: "fileName": "*.csv"
– 2. példa: "fileName": "???20180427.txt"
Ha a fájlnévben helyettesítő karakter vagy ez a escape-karakter ^ található, használja az escape-t a karakterrel.

Ha nincs megadva a kimeneti adatkészlethez, és nincs megadva a tevékenység fogadóban, a Copy tevékenység automatikusan létrehozza a blob nevét a fileName preserveHierarchy következő mintával: "Data.[ tevékenységfuttassa azonosító GUID]. [GUID if FlattenHierarchy]. [format if configured]. [compression if configured]". Például: "Data.0a405f8a-93ff-4c6f-b3be-f69616f1df7a.txt.gz".

Ha egy táblázatos forrásból lekérdezés helyett táblanévvel másol, a névminta [table name].[format].[compression if configured] a következő: . Például: "MyTable.csv".
No
modifiedDatetimeStart A fájlok a következő attribútum alapján vannak szűrve: utolsó módosítás. A fájlok akkor lesznek kiválasztva, ha az utolsó módosításuk időpontja a és a közötti modifiedDatetimeStart időtartományon belül modifiedDatetimeEnd van. A rendszer a "2018-12-01T05:00:00Z" formátumban alkalmazza az időt az UTC időzónára.

Vegye figyelembe, hogy a beállítás engedélyezése hatással van az adatátmozgatás általános teljesítményére, ha nagy mennyiségű fájlt szeretne szűrni.

A tulajdonságok értéke lehet , ami azt jelenti, hogy a rendszer nem alkalmaz fájlattribútum-szűrőt NULL az adatkészletre. Ha modifiedDatetimeStart a dátum/idő értékkel rendelkezik, de értéke , akkor a rendszer a datetime értéknél nagyobb vagy egyenlő attribútummal módosított fájlokat modifiedDatetimeEnd választja NULL ki. Ha a datetime (dátum/idő) értékkel rendelkezik, de értéke , akkor azok a fájlok lesznek kiválasztva, amelyek utolsó módosítási attribútuma kisebb, mint a modifiedDatetimeEnd modifiedDatetimeStart NULL datetime érték.
No
modifiedDatetimeEnd (módosítás dátuma és időpontja) A fájlok a következő attribútum alapján vannak szűrve: utolsó módosítás. A fájlok akkor lesznek kiválasztva, ha az utolsó módosításuk időpontja a és a közötti modifiedDatetimeStart időtartományon belül modifiedDatetimeEnd van. A rendszer a "2018-12-01T05:00:00Z" formátumban alkalmazza az időt az UTC időzónára.

Vegye figyelembe, hogy a beállítás engedélyezése hatással van az adatátmozgatás általános teljesítményére, ha nagy mennyiségű fájlt szeretne szűrni.

A tulajdonságok értéke lehet , ami azt jelenti, hogy a rendszer nem alkalmaz NULL fájlattribútum-szűrőt az adatkészletre. Ha a dátum/idő értékkel rendelkezik, de a értéke , akkor a rendszer kiválasztja a fájlokat, amelyeknek az utolsó módosított attribútuma nagyobb vagy egyenlő, mint a modifiedDatetimeStart modifiedDatetimeEnd NULL datetime érték. Ha a dátum/idő értékkel rendelkezik, de a értéke , akkor a rendszer kiválasztja a fájlokat, amelyeknek az utolsó módosított attribútuma kisebb, mint a modifiedDatetimeEnd modifiedDatetimeStart NULL datetime érték.
No
Formátum Ha a fájlokat a fájlalapú tárolók (bináris másolat) között is úgy szeretné másolni, hagyja ki a formátum szakaszt mind a bemeneti, mind a kimeneti adatkészlet definíciójában.

Ha adott formátumú fájlokat szeretne elemezni vagy létrehozni, a következő fájlformátumtípusok támogatottak: TextFormat, JsonFormat, AvroFormat, OrcFormat és ParquetFormat. Állítsa a type (típus) tulajdonságot a format (formátum) alatt az alábbi értékek egyikére. További információ: Szövegformátum, JSONformátum, Avro formátum, Orc formátum,és Parquet formátum.
Nem (csak bináris másolási forgatókönyv esetén)
tömörítés Adja meg az adatok tömörítésének típusát és szintjét. További információ: Támogatott fájlformátumok és tömörítési kodekek.
Támogatott típusok: GZip, Deflate, BZip2 és ZipDeflate.
A támogatott szintek az Optimális és a Leggyorsabb.
No

Tipp

Ha egy mappában található összes blobot ki kell másolnia, csak a folderPath értéket adja meg.
Ha egyetlen blobot másol egy adott névvel, adja meg a folderPath paramétert a mappa részhez, a fileName értéket pedig a fájlnévhez.
A blobok egy részkészletének egy mappában való másoláshoz adja meg a folderPath paramétert a mappa részéhez, a fileName értéket pedig egy helyettesítő karakteres szűrővel.

Példa

{
    "name": "AzureBlobDataset",
    "properties": {
        "type": "AzureBlob",
        "linkedServiceName": {
            "referenceName": "<Azure Blob storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "folderPath": "mycontainer/myfolder",
            "fileName": "*",
            "modifiedDatetimeStart": "2018-12-01T05:00:00Z",
            "modifiedDatetimeEnd": "2018-12-01T06:00:00Z",
            "format": {
                "type": "TextFormat",
                "columnDelimiter": ",",
                "rowDelimiter": "\n"
            },
            "compression": {
                "type": "GZip",
                "level": "Optimal"
            }
        }
    }
}

Régi forrásmodell a Copy tevékenység

Tulajdonság Leírás Kötelező
típus A type forrás Copy tevékenység tulajdonságát a következőre kell beállítani: BlobSource . Yes
Rekurzív Azt jelzi, hogy az adatok rekurzívan vannak-e beolvasva az almappákból, vagy csak a megadott mappából. Vegye figyelembe, hogy ha a és a fogadó egy fájlalapú tároló, a rendszer nem másol vagy hoz létre egy üres mappát vagy almappát a recursive true fogadóban.
Az engedélyezett értékek true a (alapértelmezett) és false a .
No
maxConcurrentConnections Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. No

Példa

"activities":[
    {
        "name": "CopyFromBlob",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Azure Blob input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "BlobSource",
                "recursive": true
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Örökölt fogadómodell a Copy tevékenység

Tulajdonság Leírás Kötelező
típus A type fogadó Copy tevékenység tulajdonságát a következőre kell beállítani: BlobSink . Yes
copyBehavior Meghatározza a másolási viselkedést, ha a forrás fájlalapú adattárból származó fájlok.

Az engedélyezett értékek a következőek:
- PreserveHierarchy (alapértelmezett):Megőrzi a fájlhierarchiát a célmappában. A forrásfájl és a forrásmappa relatív elérési útja megegyezik a célfájl célmappába való relatív elérési útjának értékében.
- FlattenHierarchy:A forrásmappa összes fájlja a célmappa első szintjén található. A célfájloknak automatikusan létrehozott neveik vannak.
- MergeFiles:Egyesíti a forrásmappában lévő összes fájlt egy fájlba. Ha a fájl vagy blob neve meg van adva, az egyesített fájlnév lesz a megadott név. Ellenkező esetben ez egy automatikusan létrehozott fájlnév.
No
maxConcurrentConnections Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. No

Példa

"activities":[
    {
        "name": "CopyToBlob",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Azure Blob output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "BlobSink",
                "copyBehavior": "PreserveHierarchy"
            }
        }
    }
]

Következő lépések

A forrásként és fogadóként támogatott adatt Copy tevékenység listáját lásd: Támogatott adattárak.