Adatok másolása és átalakítása az Amazon Simple Storage Service-ben az Azure Data Factory vagy az Azure Synapse Analytics használatával

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Ez a cikk bemutatja, hogyan másolhat adatokat az Amazon Simple Storage Service-ből (Amazon S3), és hogyan alakíthat át adatokat az Amazon S3-ban Adatfolyam használatával. További információkért olvassa el az Azure Data Factory és a Synapse Analytics bevezető cikkeit.

Tipp.

Az Amazon S3-ból az Azure Storage-ba történő adatmigrálási forgatókönyvről további információt az Adatok migrálása az Amazon S3-ból az Azure Storage-ba című témakörben talál.

Támogatott képességek

Ez az Amazon S3-összekötő a következő képességeket támogatja:

Támogatott képességek IR
Copy tevékenység (forrás/-) ① ②
Adatfolyam leképezése (forrás/fogadó)
Keresési tevékenység ① ②
GetMetadata-tevékenység ① ②
Tevékenység törlése ① ②

(1) Azure-integrációs modul (2) Saját üzemeltetésű integrációs modul

Ez az Amazon S3-összekötő támogatja a fájlok másolását, illetve a fájlok elemzését a támogatott fájlformátumokkal és tömörítési kodekekkel. Dönthet úgy is, hogy a másolás során megőrzi a fájl metaadatait. Az összekötő az AWS Signature 4-es verziójával hitelesíti az S3-nak küldött kérelmeket.

Tipp.

Ha bármilyen S3-kompatibilis tárolószolgáltatóról szeretne adatokat másolni, tekintse meg az Amazon S3-kompatibilis tárolót.

Szükséges engedélyek

Ha adatokat szeretne másolni az Amazon S3-ból, győződjön meg arról, hogy megkapta a következő engedélyeket az Amazon S3 objektumműveletekhez: s3:GetObject és s3:GetObjectVersion.

Ha a Data Factory felhasználói felületét használja a létrehozáshoz, további s3:ListAllMyBuckets és s3:ListBucket/s3:GetBucketLocation engedélyekre van szükség olyan műveletekhez, mint a társított szolgáltatáshoz való kapcsolódás tesztelése és a gyökérszintű böngészés. Ha nem szeretné megadni ezeket az engedélyeket, a felhasználói felületen választhatja a "Kapcsolat tesztelése a fájl elérési útján" vagy a "Tallózás a megadott elérési útból" lehetőséget.

Az Amazon S3-engedélyek teljes listájáért tekintse meg az Engedélyek megadása az AWS-webhelyen található szabályzatokban című témakört.

Első lépések

A Copy tevékenység folyamattal való végrehajtásához használja az alábbi eszközök vagy SDK-k egyikét:

Amazon Simple Storage Service (S3) társított szolgáltatás létrehozása felhasználói felületen

Az alábbi lépéseket követve hozzon létre egy Amazon S3 társított szolgáltatást az Azure Portal felhasználói felületén.

  1. Keresse meg az Azure Data Factory vagy a Synapse-munkaterület Kezelés lapját, és válassza a Társított szolgáltatások lehetőséget, majd kattintson az Új gombra:

  2. Keresse meg az Amazont, és válassza ki az Amazon S3-összekötőt.

    Screenshot of the Amazon S3 connector.

  3. Konfigurálja a szolgáltatás részleteit, tesztelje a kapcsolatot, és hozza létre az új társított szolgáltatást.

    Screenshot of configuration for an Amazon S3 linked service.

Csatlakozás or konfigurációjának részletei

Az alábbi szakaszok az Amazon S3-ra jellemző Data Factory-entitások meghatározásához használt tulajdonságok részleteit ismertetik.

Társított szolgáltatás tulajdonságai

Amazon S3 társított szolgáltatás esetén a következő tulajdonságok támogatottak:

Property Leírás Required
típus A típustulajdonságot AmazonS3 értékre kell állítani. Igen
authenticationType Adja meg az Amazon S3-hoz való csatlakozáshoz használt hitelesítési típust. Dönthet úgy, hogy hozzáférési kulcsokat használ egy AWS-identitás- és hozzáférés-kezelési (IAM-) fiókhoz, vagy ideiglenes biztonsági hitelesítő adatokat.
Az engedélyezett értékek a következők: AccessKey (alapértelmezett) és TemporarySecurityCredentials.
Nem
accessKeyId A titkos hozzáférési kulcs azonosítója. Igen
secretAccessKey Maga a titkos hozzáférési kulcs. Jelölje meg ezt a mezőt SecureStringként, hogy biztonságosan tárolja, vagy hivatkozzon az Azure Key Vaultban tárolt titkos kódra. Igen
sessionToken Ideiglenes biztonsági hitelesítő adatok hitelesítése esetén alkalmazható. Megtudhatja, hogyan kérhet ideiglenes biztonsági hitelesítő adatokat az AWS-től.
Megjegyzés: Az AWS ideiglenes hitelesítő adatai a beállítások alapján 15 perc és 36 óra között járnak le. Győződjön meg arról, hogy a hitelesítő adatok érvényesek a tevékenységek végrehajtásakor, különösen az üzembe helyezett számítási feladatok esetében – például rendszeresen frissítheti és tárolhatja az Azure Key Vaultban.
Jelölje meg ezt a mezőt SecureStringként, hogy biztonságosan tárolja, vagy hivatkozzon az Azure Key Vaultban tárolt titkos kódra.
Nem
serviceUrl Adja meg az egyéni S3-végpontot https://<service url>.
Csak akkor módosítsa, ha másik szolgáltatásvégpontot szeretne kipróbálni, vagy https és http között szeretne váltani.
Nem
connectVia Az adattárhoz való csatlakozáshoz használandó integrációs modul . Használhatja az Azure integrációs modult vagy a saját üzemeltetésű integrációs modult (ha az adattár magánhálózaton található). Ha ez a tulajdonság nincs megadva, a szolgáltatás az alapértelmezett Azure-integrációs modult használja. Nem

Példa: hozzáférési kulcs hitelesítése

{
    "name": "AmazonS3LinkedService",
    "properties": {
        "type": "AmazonS3",
        "typeProperties": {
            "accessKeyId": "<access key id>",
            "secretAccessKey": {
                "type": "SecureString",
                "value": "<secret access key>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Példa: ideiglenes biztonsági hitelesítő adatok hitelesítése

{
    "name": "AmazonS3LinkedService",
    "properties": {
        "type": "AmazonS3",
        "typeProperties": {
            "authenticationType": "TemporarySecurityCredentials",
            "accessKeyId": "<access key id>",
            "secretAccessKey": {
                "type": "SecureString",
                "value": "<secret access key>"
            },
            "sessionToken": {
                "type": "SecureString",
                "value": "<session token>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Adathalmaz tulajdonságai

Az adathalmazok meghatározásához elérhető szakaszok és tulajdonságok teljes listáját az Adathalmazok című cikkben találja.

Az Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.

Az Amazon S3 formátumalapú adatkészlet beállításai között location az alábbi tulajdonságok támogatottak:

Property Leírás Required
típus Az adathalmaz típustulajdonságának location AmazonS3Location értékre kell állítania. Igen
bucketName Az S3 gyűjtő neve. Igen
folderPath Az adott gyűjtő alatti mappa elérési útja. Ha helyettesítő karakterrel szeretné szűrni a mappát, hagyja ki ezt a beállítást, és adja meg a tevékenység forrásbeállításaiban. Nem
fileName A megadott gyűjtő és mappa elérési útja alatti fájlnév. Ha helyettesítő karakterrel szeretné szűrni a fájlokat, hagyja ki ezt a beállítást, és adja meg a tevékenység forrásbeállításaiban. Nem
Verzió Az S3 objektum verziója, ha engedélyezve van az S3 verziószámozása. Ha nincs megadva, a rendszer lekéri a legújabb verziót. Nem

Példa

{
    "name": "DelimitedTextDataset",
    "properties": {
        "type": "DelimitedText",
        "linkedServiceName": {
            "referenceName": "<Amazon S3 linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, auto retrieved during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AmazonS3Location",
                "bucketName": "bucketname",
                "folderPath": "folder/subfolder"
            },
            "columnDelimiter": ",",
            "quoteChar": "\"",
            "firstRowAsHeader": true,
            "compressionCodec": "gzip"
        }
    }
}

Másolási tevékenység tulajdonságai

A tevékenységek meghatározásához elérhető szakaszok és tulajdonságok teljes listáját a Folyamatok című cikkben találja. Ez a szakasz az Amazon S3-forrás által támogatott tulajdonságok listáját tartalmazza.

Amazon S3 mint forrástípus

Az Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.

Az Amazon S3 formátumalapú másolási forrás beállításai között storeSettings az alábbi tulajdonságok támogatottak:

Property Leírás Required
típus Az alatta lévő storeSettings típustulajdonságnak AmazonS3Read Gépház értékre kell állítania. Igen
Keresse meg a másolandó fájlokat:
1. LEHETŐSÉG: statikus elérési út
Másolja ki az adathalmazban megadott gyűjtőből vagy mappa/fájl elérési útjából. Ha az összes fájlt egy gyűjtőből vagy mappából szeretné másolni, adja meg wildcardFileName a következőt *is: .
2. LEHETŐSÉG: S3 előtag
-Előtag
Az S3-kulcs nevének előtagja az adathalmazban konfigurált adott gyűjtőben a forrás S3-fájlok szűréséhez. Az S3-kulcsok, amelyek nevével bucket_in_dataset/this_prefix kezdődnek, ki vannak jelölve. Az S3 szolgáltatásoldali szűrőjét használja, amely jobb teljesítményt nyújt, mint a helyettesítő karakterek szűrői.

Ha előtagot használ, és úgy dönt, hogy a hierarchiát megőrző fájlalapú fogadóba másol, vegye figyelembe, hogy az előtag utolsó "/" előtagja utáni alelérési útvonal megmarad. Például rendelkezik forrásokkalbucket/folder/subfolder/file.txt, és konfigurálja az előtagot a következőképpenfolder/sub, majd a megőrzött fájl elérési útja.subfolder/file.txt
Nem
3. LEHETŐSÉG: helyettesítő karakter
- helyettesítő karakterekFolderPath
A mappa elérési útja helyettesítő karakterekkel az adott gyűjtő alatt, amely egy adatkészletben konfigurálva van a forrásmappák szűrésére.
Az engedélyezett helyettesítő karakterek a következők: * (nulla vagy több karakternek felel meg) és ? (nulla vagy egyetlen karakternek felel meg). A feloldás akkor használható ^ , ha a mappa neve helyettesítő karakterrel vagy ezzel a feloldó karakterrel rendelkezik.
További példák a mappa- és fájlszűrő példákban.
Nem
3. LEHETŐSÉG: helyettesítő karakter
- wildcardFileName
A forrásfájlok szűréséhez használt fájlnév helyettesítő karakterekkel a megadott gyűjtő- és mappaútvonal (vagy helyettesítő mappa elérési útja) alatt.
Az engedélyezett helyettesítő karakterek a következők: * (nulla vagy több karakternek felel meg) és ? (nulla vagy egyetlen karakternek felel meg). A feloldás akkor használható ^ , ha a fájlnévben helyettesítő karakter vagy ez a feloldó karakter található. További példák a mappa- és fájlszűrő példákban.
Igen
4. LEHETŐSÉG: a fájlok listája
- fileListPath
Egy adott fájlkészlet másolását jelzi. Mutasson egy szövegfájlra, amely tartalmazza a másolandó fájlok listáját, soronként egy fájlt, amely az adathalmazban konfigurált elérési út relatív elérési útja.
Ha ezt a lehetőséget használja, ne adjon meg fájlnevet az adathalmazban. További példák a Fájllista példákban.
Nem
További beállítások:
Rekurzív Azt jelzi, hogy az adatok rekurzív módon vannak-e beolvasva az almappákból vagy csak a megadott mappából. Vegye figyelembe, hogy ha a rekurzív értéke igaz, és a fogadó fájlalapú tároló, akkor a rendszer nem másol vagy hoz létre üres mappát vagy almappát a fogadóban.
Az engedélyezett értékek értéke igaz (alapértelmezett) és hamis.
Ez a tulajdonság nem érvényes a konfiguráláskor fileListPath.
Nem
deleteFilesAfterCompletion Azt jelzi, hogy a bináris fájlok törölve lesznek-e a forrástárból a céltárolóba való sikeres áthelyezés után. A fájltörlés fájlonként történik, ezért ha a másolási tevékenység meghiúsul, látni fogja, hogy egyes fájlok már át lettek másolva a célhelyre, és törölve lettek a forrásból, míg mások továbbra is a forrástárban maradnak.
Ez a tulajdonság csak bináris fájlok másolási forgatókönyvében érvényes. Az alapértelmezett érték: hamis.
Nem
modifiedDatetimeStart A fájlok szűrése a legutóbb módosított attribútum alapján történik.
A fájlok akkor lesznek kijelölve, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő, modifiedDatetimeStart mint modifiedDatetimeEnda . Az idő a "2018-12-01T05:00:00Z" formátumú UTC időzónára lesz alkalmazva.
A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy az adathalmazra nem alkalmaz fájlattribútum-szűrőt. Ha modifiedDatetimeStart dátum/idő érték van megadva, de modifiedDatetimeEndNULL értékű, a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma nagyobb vagy egyenlő a datetime értéknél. Ha modifiedDatetimeEnd dátum/idő érték van megadva, de modifiedDatetimeStart NULL értékű, a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma kisebb a datetime értéknél.
Ez a tulajdonság nem érvényes a konfiguráláskor fileListPath.
Nem
modifiedDatetimeEnd Lásd fentebb. Nem
enablePartitionDiscovery Particionált fájlok esetén adja meg, hogy elemezni szeretné-e a partíciókat a fájl elérési útján, és további forrásoszlopokként adja hozzá őket.
Az engedélyezett értékek hamisak (alapértelmezett) és igazak.
Nem
partitionRootPath Ha a partíciófelderítés engedélyezve van, adja meg az abszolút gyökér elérési utat a particionált mappák adatoszlopként való olvasásához.

Ha nincs megadva, alapértelmezés szerint
– Ha fájlelérési utat használ az adathalmazban vagy a forrásban lévő fájlok listájában, a partíció gyökérútvonala az adathalmazban konfigurált elérési út.
– Helyettesítő karakteres mappaszűrő használata esetén a partíció gyökérútvonala az első helyettesítő karakter előtti alútvonal.
- Előtag használata esetén a partíció gyökérútvonala az utolsó "/" előtti alútvonal.

Tegyük fel például, hogy az adathalmaz elérési útját "root/folder/year=2020/month=08/day=27" értékre konfigurálja:
- Ha a partíció gyökér elérési útját "root/folder/year=2020" értékként adja meg, a másolási tevékenység a fájlokon belüli oszlopok mellett két további oszlopot monthday hoz létre, valamint a "08" és a "27" értéket.
– Ha nincs megadva partíciógyökér elérési útja, a rendszer nem hoz létre további oszlopot.
Nem
maxConcurrent Csatlakozás ions Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. Nem

Példa

"activities":[
    {
        "name": "CopyFromAmazonS3",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delimited text input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "DelimitedTextSource",
                "formatSettings":{
                    "type": "DelimitedTextReadSettings",
                    "skipLineCount": 10
                },
                "storeSettings":{
                    "type": "AmazonS3ReadSettings",
                    "recursive": true,
                    "wildcardFolderPath": "myfolder*A",
                    "wildcardFileName": "*.csv"
                }
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Mappa- és fájlszűrő példák

Ez a szakasz a mappa elérési útjának és a fájlnévnek helyettesítő karaktereket tartalmazó viselkedését ismerteti.

Vödör kulcs Rekurzív A forrásmappa struktúrája és a szűrés eredménye (a félkövér fájlokat a rendszer lekéri)
Vödör Folder*/* false Vödör
    FolderA
        File1.csv
        File2.json
        Almappák1
            File3.csv
            File4.json
            File5.csv
    MásikFolderB
        File6.csv
Vödör Folder*/* true Vödör
    FolderA
        File1.csv
        File2.json
        Almappák1
            File3.csv
            File4.json
            File5.csv
    MásikFolderB
        File6.csv
Vödör Folder*/*.csv false Vödör
    FolderA
        File1.csv
        File2.json
        Almappák1
            File3.csv
            File4.json
            File5.csv
    MásikFolderB
        File6.csv
Vödör Folder*/*.csv true Vödör
    FolderA
        File1.csv
        File2.json
        Almappák1
            File3.csv
            File4.json
            File5.csv
    MásikFolderB
        File6.csv

Példák fájllistára

Ez a szakasz a fájllista elérési útjának Copy tevékenység forrásban való használatának eredő viselkedését ismerteti.

Tegyük fel, hogy a következő forrásmappa-struktúrával rendelkezik, és félkövér formátumban szeretné másolni a fájlokat:

Minta forrásstruktúra Tartalom a FileListToCopy.txt fájlban Konfiguráció
Vödör
    FolderA
        File1.csv
        File2.json
        Almappák1
            File3.csv
            File4.json
            File5.csv
    Metaadatok
        FileListToCopy.txt
File1.csv
Almappák1/File3.csv
Almappák1/File5.csv
Adatkészletben:
-Vödör: bucket
- Mappa elérési útja: FolderA

Copy tevékenység forrásban:
- Fájllista elérési útja: bucket/Metadata/FileListToCopy.txt

A fájllista elérési útja egy szövegfájlra mutat ugyanabban az adattárban, amely tartalmazza a másolni kívánt fájlok listáját, soronként egy fájlt, az adathalmazban konfigurált elérési út relatív elérési útjával.

Metaadatok megőrzése másolás közben

Amikor fájlokat másol az Amazon S3-ból az Azure Data Lake Storage Gen2-be vagy az Azure Blob Storage-ba, dönthet úgy, hogy az adatokkal együtt megőrzi a fájl metaadatait. További információ a metaadatok megőrzéséről.

Adatfolyam-tulajdonságok leképezése

A leképezési adatfolyamok adatainak átalakításakor a következő formátumokban olvashat fájlokat az Amazon S3-ból:

A formátumspecifikus beállítások az adott formátum dokumentációjában találhatók. További információ: Forrásátalakítás a leképezési adatfolyamban.

Forrásátalakítás

A forrásátalakítás során egy tárolóból, mappából vagy egyéni fájlból olvashat az Amazon S3-ban. A Forrásbeállítások lapon kezelheti a fájlok olvasási módját.

Screenshot of Source options.

Helyettesítő karakterek elérési útjai: A helyettesítő karakterek mintája arra utasítja a szolgáltatást, hogy egyetlen forrásátalakítás során végighaladjon az egyes egyező mappákon és fájlokon. Ez egy hatékony módja annak, hogy több fájlt dolgozzanak fel egyetlen folyamaton belül. Adjon hozzá több helyettesítő karakterillesztési mintát a meglévő helyettesítő karakterminta fölé rámutatáskor megjelenő pluszjellel.

A forrástárolóban válasszon ki egy mintának megfelelő fájlsorozatot. Az adathalmazban csak tároló adható meg. A helyettesítő karakter elérési útjának ezért tartalmaznia kell a gyökérmappából származó mappa elérési útját is.

Példák helyettesítő karakterekre:

  • * Bármilyen karakterkészletet jelöl.

  • ** Rekurzív könyvtárbe ágyazást jelöl.

  • ? Egy karaktert cserél le.

  • [] Egy vagy több karaktert tartalmaz a szögletes zárójelekben.

  • /data/sales/**/*.csv Lekéri az összes .csv fájlt a /data/sales területen.

  • /data/sales/20??/**/ Lekéri az összes fájlt a 20.

  • /data/sales/*/*/*.csv Lekéri a .csv fájlokat két szinttel a /data/sales alatt.

  • /data/sales/2004/*/12/[XY]1?.csv 2004 decemberében lekéri az összes .csv fájlt, amely egy kétjegyű számmal ellátott X vagy Y előtaggal kezdődik.

Partíció gyökérútvonala: Ha a fájlforrásban key=value vannak olyan particionált mappák, year=2019amelyek formátuma (például), akkor a partíciómappa fának felső szintjét hozzárendelheti az adatfolyam egyik oszlopnevére.

Először állítson be egy helyettesítő karaktert, hogy tartalmazza a particionált mappák összes elérési útját, valamint az elolvasni kívánt levélfájlokat.

Screenshot of partition source file settings.

A partíció gyökérútvonal-beállításával meghatározhatja, hogy mi a mappastruktúra legfelső szintje. Ha az adatok tartalmát egy adatelőnézeten keresztül tekinti meg, láthatja, hogy a szolgáltatás hozzáadja az egyes mappaszinteken található feloldott partíciókat.

Screenshot of partition root path.

Fájlok listája: Ez egy fájlkészlet. Hozzon létre egy szövegfájlt, amely tartalmazza a feldolgozandó relatív elérésiút-fájlok listáját. Mutasson erre a szövegfájlra.

A fájlnév tárolására használt oszlop: Tárolja a forrásfájl nevét az adatok egyik oszlopában. Itt adjon meg egy új oszlopnevet a fájlnév-sztring tárolásához.

Befejezés után: Válassza ki, hogy az adatfolyam futtatása után nem szeretne semmit tenni a forrásfájllal, törli a forrásfájlt, vagy áthelyezi a forrásfájlt. Az áthelyezés elérési útjai relatívek.

Ha a forrásfájlokat egy másik helyre szeretné áthelyezni a feldolgozás után, először válassza az "Áthelyezés" lehetőséget a fájlművelethez. Ezután állítsa be a "from" könyvtárat. Ha nem használ helyettesítő karaktereket az elérési úthoz, akkor a "from" beállítás ugyanaz lesz, mint a forrásmappa.

Ha helyettesítő karakterrel rendelkező forrásútvonallal rendelkezik, a szintaxis a következőképpen fog kinézni:

/data/sales/20??/**/*.csv

A következő módon adhatja meg a "from" értéket:

/data/sales

A "to" értéket pedig a következő módon adhatja meg:

/backup/priorSales

Ebben az esetben a rendszer az alattuk /data/sales forrásként kapott összes fájlt áthelyezi a fájlba /backup/priorSales.

Megjegyzés:

A fájlműveletek csak akkor futnak, ha egy folyamatfuttatásból (folyamat hibakereséséből vagy végrehajtási futtatásából) indítja el az adatfolyamot, amely a folyamat végrehajtási Adatfolyam tevékenységét használja. A fájlműveletek nem Adatfolyam hibakeresési módban futnak.

Szűrés utoljára módosítva: A legutóbb módosított fájlok dátumtartományának megadásával szűrheti a feldolgozott fájlokat. Minden dátumidő UTC-ben van.

Keresési tevékenység tulajdonságai

A tulajdonságok részleteinek megismeréséhez tekintse meg a keresési tevékenységet.

GetMetadata tevékenység tulajdonságai

A tulajdonságok részleteinek megismeréséhez tekintse meg a GetMetadata tevékenységét.

Tevékenységtulajdonságok törlése

A tulajdonságok részleteinek megismeréséhez ellenőrizze a Törlési tevékenységet.

Örökölt modellek

Megjegyzés:

A visszamenőleges kompatibilitáshoz hasonlóan az alábbi modellek továbbra is támogatottak. Javasoljuk, hogy használja a korábban említett új modellt. A szerzői felhasználói felület az új modell létrehozására váltott.

Örökölt adathalmaz-modell

Property Leírás Required
típus Az adathalmaz típustulajdonságának AmazonS3Object értékre kell állítania. Igen
bucketName Az S3 gyűjtő neve. A helyettesítő karakter szűrője nem támogatott. Igen a Másolás vagy keresés tevékenységhez, nem a GetMetadata tevékenységhez
kulcs Az S3 objektumkulcs neve vagy helyettesítő karakter szűrője a megadott gyűjtő alatt. Csak akkor érvényes, ha az előtag tulajdonság nincs megadva.

A helyettesítő karakterek szűrője mind a mapparész, mind a fájlnév rész esetében támogatott. Az engedélyezett helyettesítő karakterek a következők: * (nulla vagy több karakternek felel meg) és ? (nulla vagy egyetlen karakternek felel meg).
- 1. példa: "key": "rootfolder/subfolder/*.csv"
- 2. példa: "key": "rootfolder/subfolder/???20180427.txt"
További példa a mappa- és fájlszűrő példákban. A feloldás akkor használható ^ , ha a tényleges mappában vagy fájlnévben helyettesítő karakter vagy ez a feloldó karakter található.
Nem
Előtag Az S3 objektumkulcs előtagja. A program kijelöli azokat az objektumokat, amelyek kulcsai ezzel az előtaggal kezdődnek. Csak akkor érvényes, ha a kulcstulajdonság nincs megadva. Nem
Verzió Az S3 objektum verziója, ha engedélyezve van az S3 verziószámozása. Ha nincs megadva verzió, a rendszer lekéri a legújabb verziót. Nem
modifiedDatetimeStart A fájlok szűrése a legutóbb módosított attribútum alapján történik. A fájlok akkor lesznek kijelölve, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő, modifiedDatetimeStart mint modifiedDatetimeEnda . Az idő az UTC időzónára "2018-12-01T05:00:00Z" formátumban lesz alkalmazva.

Vegye figyelembe, hogy a beállítás engedélyezése hatással lesz az adatáthelyezés általános teljesítményére, ha nagy mennyiségű fájlt szeretne szűrni.

A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy az adathalmazra nem alkalmaz fájlattribútum-szűrőt. Ha modifiedDatetimeStart dátum/idő érték van megadva, de modifiedDatetimeEndNULL értékű, a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma nagyobb vagy egyenlő a datetime értéknél. Ha modifiedDatetimeEnd dátum/idő érték van megadva, de modifiedDatetimeStart NULL értékű, a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma kisebb a datetime értéknél.
Nem
modifiedDatetimeEnd A fájlok szűrése a legutóbb módosított attribútum alapján történik. A fájlok akkor lesznek kijelölve, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő, modifiedDatetimeStart mint modifiedDatetimeEnda . Az idő az UTC időzónára "2018-12-01T05:00:00Z" formátumban lesz alkalmazva.

Vegye figyelembe, hogy a beállítás engedélyezése hatással lesz az adatáthelyezés általános teljesítményére, ha nagy mennyiségű fájlt szeretne szűrni.

A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy az adathalmazra nem alkalmaz fájlattribútum-szűrőt. Ha modifiedDatetimeStart dátum/idő érték van megadva, de modifiedDatetimeEndNULL értékű, a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma nagyobb vagy egyenlő a datetime értéknél. Ha modifiedDatetimeEnd dátum/idő érték van megadva, de modifiedDatetimeStart NULL értékű, a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma kisebb a datetime értéknél.
Nem
format Ha fájlokat szeretne másolni a fájlalapú tárolók (bináris másolás) között, hagyja ki a formátumszakaszt a bemeneti és kimeneti adatkészlet-definíciókban.

Ha adott formátumú fájlokat szeretne elemezni vagy létrehozni, a következő fájlformátumtípusok támogatottak: TextFormat, JsonFormat, AvroFormat, OrcFormat, ParquetFormat. A formátum alatti típustulajdonság beállítása az alábbi értékek egyikére. További információ: Szöveg, JSON formátum, Avro formátum, Orc formátum és Parquet formátum szakaszok.
Nem (csak bináris másolási forgatókönyv esetén)
tömörítés Adja meg az adatok tömörítési típusát és szintjét. További információ: Támogatott fájlformátumok és tömörítési kodekek.
A támogatott típusok a GZip, a Deflate, a BZip2 és a ZipDeflate.
A támogatott szintek optimálisak és leggyorsabbak.
Nem

Tipp.

A mappa alatti összes fájl másolásához adja meg a gyűjtő nevét és a mapparész előtagját .

Ha egy adott nevű fájlt szeretne másolni, adja meg a gyűjtő nevét és a mapparész kulcsát , valamint a fájlnevet.

A fájlok egy részhalmazának mappa alatti másolásához adja meg a gyűjtőnév és a mapparész kulcsának nevét, valamint a helyettesítő karakterszűrőt.

Példa: előtag használata

{
    "name": "AmazonS3Dataset",
    "properties": {
        "type": "AmazonS3Object",
        "linkedServiceName": {
            "referenceName": "<Amazon S3 linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "bucketName": "testbucket",
            "prefix": "testFolder/test",
            "modifiedDatetimeStart": "2018-12-01T05:00:00Z",
            "modifiedDatetimeEnd": "2018-12-01T06:00:00Z",
            "format": {
                "type": "TextFormat",
                "columnDelimiter": ",",
                "rowDelimiter": "\n"
            },
            "compression": {
                "type": "GZip",
                "level": "Optimal"
            }
        }
    }
}

Példa: kulcs és verzió használata (nem kötelező)

{
    "name": "AmazonS3Dataset",
    "properties": {
        "type": "AmazonS3",
        "linkedServiceName": {
            "referenceName": "<Amazon S3 linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "bucketName": "testbucket",
            "key": "testFolder/testfile.csv.gz",
            "version": "XXXXXXXXXczm0CJajYkHf0_k6LhBmkcL",
            "format": {
                "type": "TextFormat",
                "columnDelimiter": ",",
                "rowDelimiter": "\n"
            },
            "compression": {
                "type": "GZip",
                "level": "Optimal"
            }
        }
    }
}

Örökölt forrásmodell a Copy tevékenység

Property Leírás Required
típus A Copy tevékenység forrás típustulajdonságának a FileSystemSource értékre kell állítania. Igen
Rekurzív Azt jelzi, hogy az adatok rekurzív módon vannak-e beolvasva az almappákból vagy csak a megadott mappából. Vegye figyelembe, hogy ha a rekurzív értéke igaz, és a fogadó fájlalapú tároló, a rendszer nem másol vagy hoz létre üres mappát vagy almappát a fogadóban.
Az engedélyezett értékek értéke igaz (alapértelmezett) és hamis.
Nem
maxConcurrent Csatlakozás ions Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. Nem

Példa

"activities":[
    {
        "name": "CopyFromAmazonS3",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Amazon S3 input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "FileSystemSource",
                "recursive": true
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Azoknak az adattáraknak a listáját, amelyeket a Copy tevékenység forrásként és fogadóként támogat, tekintse meg a támogatott adattárakat.