Copy tevékenység a Azure Data Factory és a Azure Synapse Analytics

A KÖVETKEZŐKRE VONATKOZIK: Azure Data Factory Azure Synapse Analytics

A Azure Data Factory és Synapse-folyamatokban a Copy tevékenység használatával másolhat adatokat a helyszínen és a felhőben található adattárak között. Az adatok másolása után más tevékenységekkel tovább átalakíthatja és elemezheti őket. A jelentést az üzleti intelligencia (BI) Copy tevékenység elemzési eredmények közzétételére is használhatja az üzleti intelligencia (BI) és az alkalmazások használata érdekében.

A szerepkör Copy tevékenység

A Copy tevékenység integrációskörnyezetben lesz végrehajtva. Különböző típusú integrációskörnyezeteket használhat különböző adatmásoló forgatókönyvekhez:

  • Ha két, az interneten keresztül ip-címről nyilvánosan elérhető adattár között másol adatokat, a másolási tevékenységhez használhatja az Azure integration Runtime-t. Ez az integrációs környezet biztonságos, megbízható, skálázható és globálisan elérhető.
  • Amikor helyszíni vagy hozzáférés-vezérléssel (például Azure-beli virtuális hálózatban) található adattárakba vagy adattáraiból másol adatokat, be kell állítania egy helyi integrációskörnyezetet.

Minden forrás- és fogadóadattárhoz egy integrációstime-t kell társítanunk. További információ arról, hogy a Copy tevékenység határozza meg, hogy melyik integrációskörnyezetet kell használnia, lásd: Annak meghatározása, hogy melyik integrációskörnyezetet kell használni.

Ha adatokat másol egy forrásból egy fogadóba, az adatokat Copy tevékenység szolgáltatás végrehajtja:

  1. Adatokat olvas be egy forrásadattárból.
  2. Szerializálást/deserializálást, tömörítést/kibontást, oszlopleképezést stb. hajt végre. Ezeket a műveleteket a bemeneti adatkészlet, a kimeneti adatkészlet és a kimeneti adatkészlet konfigurációja alapján Copy tevékenység.
  3. Adatokat ír a fogadó/céladattárba.

Copy tevékenység áttekintése

Támogatott adattárak és formátumok

Kategória Adattár Forrásként támogatott Fogadóként támogatott Az Azure IR által támogatott Helyi integrációs modul által támogatott
Azure Azure Blob Storage
  Az Azure Cognitive Search indexe
  Azure Cosmos DB (SQL API)
  MongoDB-hez készült Azure Cosmos DB API
  Azure Data Explorer
  1. generációs Azure Data Lake Storage
  Azure Data Lake Storage Gen2
  Azure Database for MariaDB
  Azure Database for MySQL
  Azure Database for PostgreSQL
  Azure Databricks Delta Lake
  Azure Files
  Azure SQL Database
  Felügyelt Azure SQL-példány
  Azure Synapse Analytics
  Azure Table storage
Adatbázis Amazon RDS for Oracle
  Amazon RDS for SQL Server
  Amazon Redshift
  DB2
  Drill
  Google BigQuery
  Greenplum
  HBase
  Hive
  Apache Impala
  Informix
  MariaDB
  Microsoft Access
  MySQL
  Netezza
  Oracle
  Phoenix
  PostgreSQL
  Presto
  SAP Business Warehouse via Open Hub
  SAP Business Warehouse via MDX
  SAP HANA
  SAP-tábla
  Snowflake
  Spark
  SQL Server
  Sybase
  Teradata
  Vertica
NoSQL Cassandra
  Couchbase (előzetes verzió)
  MongoDB
  MongoDB Atlas
Fájl Amazon S3
  Amazon S3 Compatible Storage
  Fájlrendszer
  FTP
  Google Cloud Storage
  HDFS
  Oracle Cloud Storage
  SFTP
Általános protokoll Általános HTTP
  Általános OData
  Általános ODBC
  Általános REST
Szolgáltatások és alkalmazások Amazon Marketplace Web Service
  Concur (előzetes verzió)
  Dataverse
  Dynamics 365
  Dynamics AX
  Dynamics CRM
  Google AdWords
  HubSpot
  Jira
  Magento (előzetes verzió)
  Marketo (előzetes verzió)
  Microsoft 365
  Oracle Eloqua (előzetes verzió)
  Oracle Responsys (előzetes verzió)
  Oracle Service Cloud (előzetes verzió)
  PayPal (előzetes verzió)
  QuickBooks (előzetes verzió)
  Salesforce
  Salesforce Service Cloud
  Salesforce Marketing Cloud
  SAP Cloud for Customer (C4C)
  SAP ECC
  ServiceNow
SharePoint Online-lista
  Shopify (előzetes verzió)
  Square (előzetes verzió)
  Webtábla (HTML-tábla)
  Xero
  Zoho (előzetes verzió)

Megjegyzés

Az előzetes verzió jelzéssel ellátott összekötőket kipróbálhatja, és visszajelzést küldhet róluk. Ha függőséget szeretne felvenni a megoldásában található előzetes verziójú összekötőkre, lépjen kapcsolatba az Azure-támogatással.

Támogatott fájlformátumok

Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkben talál.

A fájlok Copy tevékenység két fájlalapú adattár között, ebben az esetben az adatok szerializálás vagy deserializálás nélkül, hatékonyan vannak másolhatók. Emellett egy adott formátumú fájlt is elemezhet vagy létrehozhat, például a következőket hajthatja végre:

  • Adatok másolása egy SQL Server adatbázisból és írás az Azure Data Lake Storage Gen2-be Parquet formátumban.
  • Másolja a fájlokat szöveges (CSV) formátumban egy helyszíni fájlrendszerből, és írjon az Azure Blob Storage-ba Avro formátumban.
  • Tömörített fájlok másolása egy helyszíni fájlrendszerből, azok kibontása használat közben, majd kicsomagolt fájlok írása az Azure Data Lake Storage Gen2-be.
  • Másolja az adatokat Gzip tömörített szöveges (CSV) formátumban az Azure Blob Storage-ból, és írja Azure SQL Database.
  • Számos további, szerializálást/deerializálást vagy tömörítést/kifejtést igénylő tevékenység.

Támogatott régiók

Az Azure integrációs Copy tevékenység helyeken felsorolt régiókban és földrajzi helyeken globálisan elérhető a szolgáltatást. A globálisan elérhető topológia hatékony adatátvitelt biztosít, amely általában elkerüli a régiók közötti ugrásokat. A termékek régiónkénti elérhetőségének ellenőrzéséhez tekintse meg a Data Factory, Synapse-munkaterületek és adatátmozgatások elérhetőségét egy adott régióban.

Konfiguráció

A Copy tevékenység folyamatokkal való végrehajtásához használhatja az alábbi eszközök vagy az SDK-k egyikét:

A Copy tevékenység synapse Azure Data Factory általában a következőt kell használnia:

  1. Hozzon létre csatolt szolgáltatásokat a forrásadattárhoz és a fogadó adattárhoz. A támogatott összekötők listáját a cikk Támogatott adattárak és formátumok című szakaszában találja. A konfigurációs információkért és a támogatott tulajdonságokért tekintse meg az összekötővel kapcsolatos cikk "Csatolt szolgáltatás tulajdonságai" szakaszát.
  2. Adatkészletek létrehozása a forráshoz és a fogadóhoz. A konfigurációs információkért és a támogatott tulajdonságokért tekintse meg a forrás- és fogadó-összekötővel kapcsolatos cikkek "Adatkészlet tulajdonságai" szakaszát.
  3. Hozzon létre egy folyamatot a Copy tevékenység. A következő szakasz egy példát mutat be.

Syntax

Az alábbi sablon a Copy tevékenység a támogatott tulajdonságok teljes listáját tartalmazza. Adja meg a forgatókönyvnek megfelelőket.

"activities":[
    {
        "name": "CopyActivityTemplate",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<source dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<sink dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>",
                <properties>
            },
            "sink": {
                "type": "<sink type>"
                <properties>
            },
            "translator":
            {
                "type": "TabularTranslator",
                "columnMappings": "<column mapping>"
            },
            "dataIntegrationUnits": <number>,
            "parallelCopies": <number>,
            "enableStaging": true/false,
            "stagingSettings": {
                <properties>
            },
            "enableSkipIncompatibleRow": true/false,
            "redirectIncompatibleRowSettings": {
                <properties>
            }
        }
    }
]

Szintaxis részletei

Tulajdonság Leírás Kötelező?
típus A Copy tevékenység állítsa a Copy Yes
Bemenetek Adja meg a létrehozott adatkészletet, amely a forrásadatokra mutat. A Copy tevékenység csak egyetlen bemenetet támogat. Yes
Kimenetek Adja meg a létrehozott adatkészletet, amely a fogadóadatokra mutat. A Copy tevékenység csak egyetlen kimenetet támogat. Yes
typeProperties Adja meg a tulajdonságokat a Copy tevékenység. Yes
source Adja meg a másolás forrástípusát és az adatok lekért megfelelő tulajdonságait.
További információért tekintse meg az összekötőről Copy tevékenység tulajdonságokat" című szakaszt, amely a Támogatott adattárak és -formátumok című cikkben található.
Yes
Mosogató Adja meg a másolási fogadó típusát és a megfelelő tulajdonságokat az adatok írására.
További információért tekintse meg az összekötőről Copy tevékenység tulajdonságokat" című szakaszt, amely a Támogatott adattárak és -formátumok című cikkben található.
Yes
Fordító Adjon meg explicit oszlopleképezéseket a forrástól a fogadóhoz. Ez a tulajdonság akkor érvényes, ha az alapértelmezett másolási viselkedés nem felel meg az igényeinek.
További információ: Sémaleképezés a másolási tevékenységben.
No
dataIntegrationUnits Adjon meg egy mértéket, amely azt a teljesítményt jelöli, amit az Azure integration runtime az adatok másolására használ. Ezeket az egységeket korábban felhőalapú adatátviteli egységként (DMU) ismerték.
További információ: Adatintegrációs egységek.
No
parallelCopies Adja meg azt a párhuzamosságot, amely a Copy tevékenység használni, amikor adatokat olvas be a forrásból, és adatokat ír a fogadóba.
További információ: Párhuzamos másolás.
No
Megőrzése Adja meg, hogy meg kell-e őrizni a metaadatokat/ACL-eket az adatok másolása során.
További információ: Metaadatok megőrzése.
No
előkészítés engedélyezése
stagingSettings
Adja meg, hogy a köztes adatokat a Blob Storage-ban kell-e szakaszba másolni az adatoknak a forrásból a fogadóba való közvetlen másolása helyett.
További információ a hasznos forgatókönyvekről és a konfiguráció részleteiről: Szakaszos másolás.
No
enableSkipIncompatibleRow
redirectIncompatibleRowSettings
Válassza ki, hogyan kezelje a nem kompatibilis sorokat, amikor adatokat másol a forrásból a fogadóba.
További információ: Hibatűrés.
No

Figyelés

Az alkalmazás Copy tevékenység a Azure Data Factory Synapse-folyamatokban való futását vizuálisan és programozottan is monitorozhatja. Részletekért lásd: Másolási tevékenység figyelése.

Növekményes másolat

Data Factory és Synapse-folyamatok lehetővé teszik a változásadatok növekményes másolását egy forrásadattárból egy fogadó adattárba. Részletekért lásd: Oktatóanyag: Adatok növekményes másolása.

Teljesítmény és finomhangolás

A másolási tevékenység figyelési élménye megjeleníti az egyes tevékenységfutatok másolási teljesítménystatisztikáit. A Copy tevékenység teljesítményre és skálázhatóságra vonatkozó útmutató ismerteti azokat a fő tényezőket, amelyek hatással vannak az adatátmozgatási Copy tevékenység. Emellett felsorolja a tesztelés során megfigyelt teljesítményértékeket, és ismerteti, hogyan optimalizálható a Copy tevékenység.

Folytatás az utolsó sikertelen futtatás óta

Copy tevékenység támogatja a legutóbbi sikertelen futtatásból való folytatást, ha a fájlokat adott állapotban bináris formátumban másolja a fájlalapú tárolók között, és megőrzi a mappa-/fájlhierarchiát a forrásból a fogadóba, például az Adatok áttelepítése az Amazon S3-ból az Azure Data Lake Storage Gen2-be. A következő fájlalapú összekötőkre vonatkozik: Amazon S3, Amazon S3 Compatible Storage Azure Blob, Azure Data Lake Storage Gen1,Azure Data Lake Storage Gen2, Azure Files, Fájlrendszer, FTP, Google Cloud Storage, HDFS, Oracle Cloud Storage és SFTP.

A másolási tevékenység folytatása az alábbi két módon lehetséges:

  • Tevékenységszintű újrapróbálkozás: Beállíthatja a másolási tevékenység újrapróbálkozási számát. Ha a folyamat végrehajtása során a másolási tevékenység futtatása sikertelen, a következő automatikus újrapróbálkozás az utolsó próbaverzió sikertelen pontjától indul.

  • Újrafuttatás sikertelen tevékenységből: A folyamat végrehajtása után újrafuttatást is aktiválhat a sikertelen tevékenységből az ADF felhasználói felület monitorozási nézetében vagy programozott módon. Ha a sikertelen tevékenység egy másolási tevékenység, a folyamat nem csak ebből a tevékenységből fut újra, hanem az előző futtatás hibapontból is folytatódik.

    Folytatás másolása

Néhány fontos megjegyzés:

  • A folytatás fájlszinten történik. Ha a másolási tevékenység meghiúsul egy fájl másolása során, a következő futtatáskor a rendszer újra átmásolja ezt a fájlt.
  • A megfelelő folytatáshoz ne módosítsa a másolási tevékenység beállításait az újrafuttatás között.
  • Amikor adatokat másol az Amazon S3-ból, az Azure Blobból, az Azure Data Lake Storage Gen2-ről és a Google Cloud Storage-ból, a másolási tevékenység tetszőleges számú másolt fájlból folytatódhat. Míg a többi fájlalapú összekötő mint forrás, a másolási tevékenység jelenleg korlátozott számú fájlból támogatja a folytatást, általában több tízezer fájlból, és a fájl elérési útjának hosszától függően változik; Az ezen a számon túli fájlok újra lesznek másolhatók az újrafuttatások során.

A bináris fájlmásolaton kívül más esetekben a másolási tevékenység újrafuttatva az elejétől kezdődik.

Metaadatok és adatok megőrzése

Amikor adatokat másol a forrásból a fogadóba, a data lake-migráláshoz hasonló forgatókönyvekben a metaadatokat és az ACL-eket és az adatokat másolási tevékenységgel is megőrizheti. A részletekért lásd: Metaadatok megőrzése.

Séma- és adattípus-leképezés

A séma- és adattípus-leképezésről további információt arról, hogy a Copy tevékenység hogyan leképezi a forrásadatokat a fogadóhoz.

További oszlopok hozzáadása másolás során

Az adatok a forrásadattárból a fogadóba való másolása mellett további, a fogadóba másolható adatoszlopok hozzáadását is konfigurálhatja. Például:

  • Fájlalapú forrásból való másoláskor tárolja a relatív fájl elérési útját egy további oszlopként, amely nyomon követhető, melyik fájlból származik az adatok.
  • Duplikálja a megadott forrásoszlopot egy másik oszlopként.
  • Adjon hozzá egy ADF-kifejezést tartalmazó oszlopot az ADF rendszerváltozók csatolásához, például a folyamat nevének/folyamatazonosítójának csatolásához, vagy más dinamikus érték tárolására a upstream tevékenység kimenetében.
  • Adjon hozzá egy statikus értékkel bíró oszlopot, hogy megfeleljen az lefelé irányuló használatra vonatkozó nak.

A következő konfigurációt a másolási tevékenység forrása lapon találja. Ezeket a további oszlopokat a szokásos módon leképezheti a másolási tevékenység sémaleképezésében a megadott oszlopnevek használatával.

További oszlopok hozzáadása a másolási tevékenységhez

Tipp

Ez a funkció a legújabb adatmodellel működik. Ha nem látja ezt a lehetőséget a felhasználói felületen, próbáljon meg létrehozni egy új adatkészletet.

A programozott konfiguráláshoz adja hozzá a additionalColumns tulajdonságot a másolási tevékenység forrásában:

Tulajdonság Leírás Kötelező
additionalColumns (továbbioszlopok) Adjon hozzá további adatoszlopokat a fogadóba való másoláshoz.

A tömb alatti additionalColumns összes objektum egy további oszlopot képvisel. A határozza meg az oszlop nevét, a pedig az oszlop name value adatértékét jelzi.

Az engedélyezett adatértékek a következőek:
- $$FILEPATH – a reserved (fenntartott) változó azt jelzi, hogy a forrásfájlok relatív elérési útja az adatkészletben megadott mappaútvonalra mutat. Fájlalapú forrásra érvényes.
- $$COLUMN:<source_column_name> – fenntartott változó mintája azt jelzi, hogy a megadott forrásoszlopot egy másik oszlopként duplikálja
- Kifejezés
- Statikus érték
No

Példa

"activities":[
    {
        "name": "CopyWithAdditionalColumns",
        "type": "Copy",
        "inputs": [...],
        "outputs": [...],
        "typeProperties": {
            "source": {
                "type": "<source type>",
                "additionalColumns": [
                    {
                        "name": "filePath",
                        "value": "$$FILEPATH"
                    },
                    {
                        "name": "newColName",
                        "value": "$$COLUMN:SourceColumnA"
                    },
                    {
                        "name": "pipelineName",
                        "value": {
                            "value": "@pipeline().Pipeline",
                            "type": "Expression"
                        }
                    },
                    {
                        "name": "staticValue",
                        "value": "sampleValue"
                    }
                ],
                ...
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Fogadótáblák automatikus létrehozása

Ha az adatokat SQL adatbázisba/adatbázisba Azure Synapse Analytics, ha a céltábla nem létezik, a másolási tevékenység támogatja a forrásadatok alapján történő automatikus létrehozást. Célja, hogy gyorsan nekiveselkedhet az adatok betöltésének és a SQL/adatbázis Azure Synapse Analytics. Az adatbevallást követően áttekintheti és igény szerint módosíthatja a fogadótábla sémáját.

Ez a funkció akkor támogatott, ha adatokat másol bármely forrásból a következő fogadóadattárakba. A beállítás az ADF szerzői felhasználói felületen –> Copy tevékenység fogadó –> Tábla lehetőség –> tábla automatikus létrehozása vagy a másolási tevékenység fogadó hasznos adatában található tableOption tulajdonságon keresztül érhető el.

Fogadótáblák létrehozása

Hibatűrés

Alapértelmezés szerint a Copy tevékenység nem másol adatokat, és hibát ad vissza, ha a forrásadatsorok nem kompatibilisek a fogadó adatsorokkal. A másolás sikerességéhez konfigurálhatja a Copy tevékenység a nem kompatibilis sorok kihagyása és naplózása, és csak a kompatibilis adatok másolása érdekében. További Copy tevékenység tekintse meg a hibatűrést.

Adatkonzisztencia-ellenőrzés

Amikor adatokat mozgat a forrástárból a céltárba, a másolási tevékenység lehetővé teszi további adatkonzisztencia-ellenőrzéssel, hogy az adatok ne csak a forrástárból a céltárba legyenek másolhatók, hanem a forrás- és a céltár között is konzisztensnek kell lenniük. Ha inkonzisztens fájlokat talált az adatátmozgatás során, megszakíthatja a másolási tevékenységet, vagy folytathatja a másolást a hibatűrési beállítás engedélyezésével, hogy kihagyja az inkonzisztens fájlokat. A kihagyott fájlneveket a másolási tevékenység munkamenetnapló-beállításának engedélyezésével kaphatja meg. A részletekért lásd: Adatkonzisztencia-ellenőrzés a másolási tevékenységben.

Munkamenetnapló

Naplózhatja a másolt fájlneveket, így a másolási tevékenység munkamenetnaplóinak áttekintésével biztosíthatja, hogy az adatok ne csak a forrástárból a céltárba legyenek átmásolva, hanem a forrás- és a céltár között is konzisztensek legyenek. A részletekért lásd: Munkamenet-bejelentkezés másolási tevékenysége.

Következő lépések

Tekintse meg az alábbi rövid útmutatókat, oktatóanyagokat és mintákat: