Aktivita kopírování v Azure Data Factory a Azure synapse Analytics

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

V Azure Data Factory a kanálech synapse můžete použít aktivitu kopírování ke kopírování dat mezi úložišti dat umístěnými místně a v cloudu. Po zkopírování dat můžete použít jiné aktivity k dalšímu transformaci a analýze. Aktivitu kopírování můžete použít také k publikování transformačních a analytických výsledků pro business intelligence (BI) a využití aplikací.

Role aktivity kopírování

Aktivita kopírování se spustí v prostředí Integration runtime. Pro různé scénáře kopírování dat můžete použít různé typy prostředí Integration Runtime:

  • Pokud kopírujete data mezi dvěma úložišti dat, která jsou veřejně přístupná prostřednictvím Internetu z jakékoli IP adresy, můžete pro aktivitu kopírování použít prostředí Azure Integration runtime. Tento modul runtime integrace je zabezpečený, spolehlivý, škálovatelný a globálně dostupný.
  • Pokud kopírujete data do a z úložišť dat umístěných místně nebo v síti s řízením přístupu (například virtuální sítí Azure), musíte nastavit prostředí Integration runtime v místním prostředí.

Prostředí Integration runtime musí být spojeno s každým zdrojem a úložištěm dat jímky. Informace o tom, jak aktivita kopírování určuje, který modul runtime integrace se má použít, najdete v tématu určení toho, který IR se má použít.

Chcete-li kopírovat data ze zdroje do jímky, služba, která spouští aktivitu kopírování, provede tyto kroky:

  1. Načte data ze zdrojového úložiště dat.
  2. Provádí serializaci/deserializaci, kompresi/dekompresi, mapování sloupců atd. Provede tyto operace na základě konfigurace vstupní datové sady, výstupní datové sady a aktivity kopírování.
  3. Zapisuje data do jímky nebo cílového úložiště dat.

Přehled aktivit kopírování

Podporovaná úložiště a formáty dat

Kategorie Úložiště dat Podporované jako zdroj Podporované jako jímka Podporované prostředím Azure IR Podporované místním prostředím IR
Azure Azure Blob Storage
  Index služby Azure Cognitive Search
  Azure Cosmos DB (SQL API)
  Rozhraní API služby Azure Cosmos DB pro MongoDB
  Azure Data Explorer
  Azure Data Lake Storage Gen1
  Azure Data Lake Storage Gen2
  Azure Database for MariaDB
  Azure Database for MySQL
  Azure Database for PostgreSQL
  Azure Databricks Delta Lake
  Azure Files
  Azure SQL Database
  Spravovaná instance Azure SQL
  Azure Synapse Analytics
  Azure Table storage
Database Amazon RDS for Oracle
  Amazon RDS for SQL Server
  Amazon Redshift
  DB2
  Drill
  Google BigQuery
  Greenplum
  HBase
  Hive
  Apache Impala
  Informix
  MariaDB
  Microsoft Access
  MySQL
  Netezza
  Oracle
  Phoenix
  PostgreSQL
  Presto
  SAP Business Warehouse přes Open Hub
  SAP Business Warehouse přes MDX
  SAP HANA Jímka podporovaná jenom s konektorem ODBC a ovladačem SAP HANA ODBC
  Tabulka SAP
  Snowflake
  Spark
  SQL Server
  Sybase
  Teradata
  Vertica
NoSQL Cassandra
  Couchbase (Preview)
  MongoDB
  MongoDB Atlas
File Amazon S3
  Kompatibilní s Amazon S3 Storage
  Systém souborů
  FTP
  Cloudové úložiště Googlu
  HDFS
  Oracle Cloud Storage
  SFTP
Obecný protokol Obecná rozhraní HTTP
  Obecná OData
  Obecná rozhraní ODBC
  Obecný standard REST
Služby a aplikace Webová služba Amazon Marketplace
  Concur (Preview)
  Dataverse
  Dynamics 365
  Dynamics AX
  Dynamics CRM
  Google AdWords
  HubSpot
  Jira
  Magento (Preview)
  Marketo (Preview)
  Microsoft 365
  Oracle Eloqua (Preview)
  Oracle Responsys (Preview)
  Oracle Service Cloud (Preview)
  PayPal (Preview)
  QuickBooks (Preview)
  Salesforce
  Cloud služeb Salesforce
  Salesforce Marketing Cloud
  SAP Cloud for Customer (C4C)
  SAP ECC
  ServiceNow
Seznam služby SharePoint Online
  Shopify (Preview)
  Square (Preview)
  Webová tabulka (tabulka HTML)
  Xero
  Zoho (Preview)

Poznámka

Konektory s označením Preview si můžete vyzkoušet a poskytnout nám k nim zpětnou vazbu. Pokud do svého řešení chcete zavést závislost na konektorech ve verzi Preview, kontaktujte podporu Azure.

Podporované formáty souborů

Azure Data Factory podporuje následující formáty souborů. Nastavení založená na formátu najdete v každém článku.

Aktivitu kopírování můžete použít ke kopírování souborů mezi dvěma úložišti dat založených na souborech. v takovém případě se data zkopírují bez jakékoli serializace nebo deserializace. Kromě toho můžete také analyzovat nebo generovat soubory daného formátu, například můžete provést následující:

  • zkopírujte data z databáze SQL Server a zapište do Azure Data Lake Storage Gen2 ve formátu Parquet.
  • Kopírování souborů ve formátu textu (CSV) z místního systému souborů a zápis do úložiště objektů BLOB v Azure ve formátu Avro
  • zkopírujte soubory zip z místního systému souborů, dekomprimujte je průběžně a zapište extrahované soubory do Azure Data Lake Storage Gen2.
  • Z úložiště objektů BLOB v Azure zkopírujte data ve formátu. komprimovaný text (CSV) gzip a napište ho do Azure SQL Database.
  • Mnoho dalších aktivit, které vyžadují serializaci/deserializaci nebo kompresi/dekompresi.

Podporované oblasti

Služba, která umožňuje aktivitu kopírování, je globálně dostupná v oblastech a zeměpisných oblastech uvedených v umístěních prostředí Azure Integration runtime. Globálně dostupná topologie zajišťuje efektivní přesun dat, který obvykle brání směrování mezi oblastmi. Informace o dostupnosti Data Factory, pracovních prostorech a přesunech dat v konkrétní oblasti najdete v článku produkty podle oblasti .

Konfigurace

K provedení aktivita Copy s kanálem můžete použít jeden z následujících nástrojů nebo sady SDK:

Obecně platí, že pokud chcete použít aktivitu kopírování v Azure Data Factory nebo kanálech synapse, musíte:

  1. Vytvořte propojené služby pro zdrojové úložiště dat a úložiště dat jímky. Seznam podporovaných konektorů najdete v části podporované datové úložiště a formáty v tomto článku. Informace o konfiguraci a podporovaných vlastnostech najdete v části "vlastnosti propojených služeb" v článku konektoru.
  2. Vytvořte datové sady pro zdroj a jímku. Informace o konfiguraci a podporovaných vlastnostech najdete v článcích "vlastnosti datové sady" v článcích konektor zdroje a jímky.
  3. Vytvořte kanál s aktivitou kopírování. V další části najdete příklad.

Syntax

Následující šablona aktivity kopírování obsahuje úplný seznam podporovaných vlastností. Zadejte ty, které vyhovují vašemu scénáři.

"activities":[
    {
        "name": "CopyActivityTemplate",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<source dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<sink dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>",
                <properties>
            },
            "sink": {
                "type": "<sink type>"
                <properties>
            },
            "translator":
            {
                "type": "TabularTranslator",
                "columnMappings": "<column mapping>"
            },
            "dataIntegrationUnits": <number>,
            "parallelCopies": <number>,
            "enableStaging": true/false,
            "stagingSettings": {
                <properties>
            },
            "enableSkipIncompatibleRow": true/false,
            "redirectIncompatibleRowSettings": {
                <properties>
            }
        }
    }
]

Podrobnosti syntaxe

Vlastnost Popis Povinné?
typ U aktivity kopírování nastavte na Copy Yes
vztahují Určete datovou sadu, kterou jste vytvořili, která odkazuje na zdrojová data. Aktivita kopírování podporuje pouze jeden vstup. Yes
činnosti Určete datovou sadu, kterou jste vytvořili, která odkazuje na data jímky. Aktivita kopírování podporuje pouze jeden výstup. Yes
typeProperties Zadejte vlastnosti pro konfiguraci aktivity kopírování. Yes
source Zadejte typ zdroje kopie a odpovídající vlastnosti pro načtení dat.
Další informace najdete v části "vlastnosti aktivity kopírování" v článku konektoru, který je uvedený v části podporovaná úložiště a formáty dat.
Yes
jímkou Zadejte typ jímky kopírování a odpovídající vlastnosti pro zápis dat.
Další informace najdete v části "vlastnosti aktivity kopírování" v článku konektoru, který je uvedený v části podporovaná úložiště a formáty dat.
Yes
Překladač Zadejte explicitní mapování sloupců ze zdroje do jímky. Tato vlastnost se používá v případě, že výchozí chování kopírování nevyhovuje vašim potřebám.
Další informace najdete v tématu mapování schématu v aktivitě kopírování.
No
dataIntegrationUnits Zadejte míru, která představuje množství energie, kterou prostředí Azure Integration runtime používá pro kopírování dat. Tyto jednotky se dřív jmenovaly jako jednotky pro pohyb dat v cloudu (DMU).
Další informace najdete v tématu jednotky pro integraci dat.
No
parallelCopies Zadejte paralelismus, které má aktivita kopírování použít při čtení dat ze zdroje a zápisu dat do jímky.
Další informace najdete v tématu paralelní kopírování.
No
chovají Určete, jestli se při kopírování dat mají zachovat metadata nebo seznamy ACL.
Další informace najdete v tématu zachování metadat.
No
enableStaging
stagingSettings
Určete, jestli se mají připravit dočasná data v úložišti objektů BLOB místo přímého kopírování dat ze zdroje do jímky.
Informace o užitečných scénářích a podrobnostech konfigurace najdete v tématu Příprava kopírování.
No
enableSkipIncompatibleRow
redirectIncompatibleRowSettings
Zvolte způsob zpracování nekompatibilních řádků při kopírování dat ze zdroje do jímky.
Další informace najdete v tématu Odolnost proti chybám.
No

Monitorování

Spuštění služby můžete aktivita Copy v kanálech Azure Data Factory a Synapse vizuálně i programově. Podrobnosti najdete v tématu Monitorování aktivity kopírování.

Přírůstkové kopírování

Data Factory a Synapse umožňují přírůstkově kopírovat rozdílová data ze zdrojového úložiště dat do úložiště dat jímky. Podrobnosti najdete v tématu Kurz: Přírůstkové kopírování dat.

Výkon a ladění

Prostředí pro monitorování aktivity kopírování zobrazuje statistiku výkonu kopírování pro každé spuštění aktivity. Průvodce aktivita Copy výkonu a škálovatelnosti popisuje klíčové faktory, které ovlivňují výkon přesunu dat přes aktivita Copy. Uvádí také hodnoty výkonu pozorované během testování a popisuje, jak optimalizovat výkon aktivita Copy.

Obnovení od posledního neúspěšného spuštění

aktivita Copy podporuje obnovení od posledního neúspěšného spuštění, když kopírujete velké soubory tak, jak jsou, s binárním formátem mezi úložištěmi založenými na souborech a rozhodnete se zachovat hierarchii složek a souborů ze zdroje do jímky, například k migraci dat z Amazonu S3 do Azure Data Lake Storage Gen2. Platí pro následující souborové konektory: Amazon S3, Amazon S3 Compatible Storage Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, Oracle Cloud Storage a SFTP.

Obnovení aktivity kopírování můžete využít následujícími dvěma způsoby:

  • Opakování na úrovni aktivity: U aktivity kopírování můžete nastavit počet opakování. Pokud během provádění kanálu dojde k selhání tohoto spuštění aktivity kopírování, spustí se další automatické opakování od bodu selhání poslední zkušební verze.

  • Opětovné spuštění z neúspěšné aktivity: Po dokončení provádění kanálu můžete také aktivovat opětovné spuštění z neúspěšné aktivity v zobrazení monitorování uživatelského rozhraní ADF nebo programově. Pokud je neúspěšnou aktivitou aktivita kopírování, kanál se nejen znovu spustí z této aktivity, ale také se obnoví z bodu selhání předchozího spuštění.

    Obnovení kopírování

Je třeba poznamenat několik bodů:

  • Obnovení probíhá na úrovni souboru. Pokud aktivita kopírování selže při kopírování souboru, při dalším spuštění se tento konkrétní soubor znovu zkopíruje.
  • Aby obnovení fungovalo správně, neměňte nastavení aktivity kopírování mezi jednotlivými spuštěními.
  • Při kopírování dat ze služeb Amazon S3, Azure Blob, Azure Data Lake Storage Gen2 a Google Cloud Storage může aktivita kopírování pokračovat z libovolného počtu zkopírovaných souborů. Zatímco u zbývajících souborových konektorů jako zdroje podporuje aktivita kopírování obnovení z omezeného počtu souborů, obvykle v rozsahu desítek tisíc a liší se v závislosti na délce cest k souborům. Soubory nad tuto hodnotu se při opětovném spuštění znovu zkopírují.

V jiných scénářích než kopírování binárního souboru začíná opětovné spuštění aktivity kopírování od začátku.

Zachování metadat spolu s daty

Při kopírování dat ze zdroje do jímky můžete ve scénářích, jako je migrace data lake, také zachovat metadata a seznamy ACL spolu s daty pomocí aktivity kopírování. Podrobnosti najdete v tématu Zachování metadat.

Mapování schématu a datového typu

V tématu Mapování schématu a datového typu najdete informace o tom, aktivita Copy mapuje zdrojová data na jímku.

Přidání dalších sloupců během kopírování

Kromě kopírování dat ze zdrojového úložiště dat do jímky můžete také nakonfigurovat přidání dalších sloupců dat ke zkopírování do jímky. Příklad:

  • Při kopírování ze zdroje založeného na souboru uložte relativní cestu k souboru jako další sloupec pro trasování, ze kterého souboru data pochází.
  • Duplikuje zadaný zdrojový sloupec jako jiný sloupec.
  • Přidáním sloupce s výrazem ADF připojíte systémové proměnné ADF, jako je název kanálu nebo ID kanálu, nebo uložíte jinou dynamickou hodnotu z výstupu aktivity upstreamu.
  • Přidejte sloupec se statickou hodnotou, který bude splňovat vaše požadavky na příjem dat.

Následující konfiguraci najdete na kartě zdroje aktivity kopírování. Pomocí definovaných názvů sloupců můžete také mapovat tyto další sloupce v mapování schématu aktivity kopírování jako obvykle.

Přidání dalších sloupců v aktivitě kopírování

Tip

Tato funkce funguje s nejnovějším modelem datové sady. Pokud tuto možnost v uživatelském rozhraní nevidíte, zkuste vytvořit novou datovou sadu.

Pokud ho chcete nakonfigurovat programově, additionalColumns přidejte vlastnost do zdroje aktivity kopírování:

Vlastnost Popis Povinné
additionalColumns Přidejte další datové sloupce, které chcete zkopírovat do jímky.

Každý objekt pod additionalColumns polem představuje další sloupec. Definuje name název sloupce a označuje hodnotu dat tohoto value sloupce.

Povolené hodnoty dat jsou:
- $$FILEPATH – rezervovaná proměnná označuje, že se má uložit relativní cesta zdrojových souborů k cestě ke složce zadané v datové sadě. Platí pro zdroj založený na souboru.
- $$COLUMN:<source_column_name> – Vzor rezervované proměnné indikuje duplikování zadaného zdrojového sloupce jako jiného sloupce.
- Výraz
- Statická hodnota
No

Příklad:

"activities":[
    {
        "name": "CopyWithAdditionalColumns",
        "type": "Copy",
        "inputs": [...],
        "outputs": [...],
        "typeProperties": {
            "source": {
                "type": "<source type>",
                "additionalColumns": [
                    {
                        "name": "filePath",
                        "value": "$$FILEPATH"
                    },
                    {
                        "name": "newColName",
                        "value": "$$COLUMN:SourceColumnA"
                    },
                    {
                        "name": "pipelineName",
                        "value": {
                            "value": "@pipeline().Pipeline",
                            "type": "Expression"
                        }
                    },
                    {
                        "name": "staticValue",
                        "value": "sampleValue"
                    }
                ],
                ...
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Automatické vytváření tabulek jímky

Při kopírování dat do SQL databáze nebo Azure Synapse Analytics platí, že pokud cílová tabulka neexistuje, aktivita kopírování podporuje automatické vytvoření na základě zdrojových dat. Jejím cílem je pomoct vám rychle začít načítat data a vyhodnocovat SQL databáze a Azure Synapse Analytics. Po příjmu dat můžete zkontrolovat a upravit schéma tabulky jímky podle svých potřeb.

Tato funkce se podporuje při kopírování dat z libovolného zdroje do následujících úložišť dat jímky. Možnost najdete v uživatelském rozhraní pro vytváření ADF – > aktivita Copy jímka – > možnost Tabulka > Automaticky vytvořit tabulku nebo prostřednictvím vlastnosti v datové části jímky aktivity tableOption kopírování.

Vytvoření tabulek jímky

Odolnost proti chybám

Ve výchozím nastavení aplikace aktivita Copy kopírování dat a vrátí chybu, pokud jsou řádky zdrojových dat nekompatibilní s řádky dat jímky. Pokud chcete, aby kopírování bylo úspěšné, můžete nakonfigurovat aktivita Copy přeskočit a protokolovat nekompatibilní řádky a kopírovat pouze kompatibilní data. Podrobnosti aktivita Copy v tématu Odolnost proti chybám.

Ověření konzistence dat

Když přesunete data ze zdrojového do cílového úložiště, aktivita kopírování vám poskytne možnost provést další ověření konzistence dat, abyste zajistili, že se data nejen úspěšně zkopírují ze zdrojového do cílového úložiště, ale také ověří, že jsou konzistentní mezi zdrojovým a cílovým úložištěm. Jakmile během přesunu dat najdete nekonzistentní soubory, můžete buď přerušit aktivitu kopírování, nebo pokračovat v kopírování zbývajících souborů tím, že povolíte nastavení odolnosti proti chybám, které přeskočí nekonzistentní soubory. Přeskočené názvy souborů můžete získat povolením nastavení protokolu relace v aktivitě kopírování. Podrobnosti najdete v tématu Ověření konzistence dat v aktivitě kopírování.

Protokol relace

Zkopírované názvy souborů můžete protokolovat, což vám pomůže zajistit, aby se data nejen úspěšně zkopírovaná ze zdrojového do cílového úložiště, ale také konzistentní mezi zdrojovým a cílovým úložištěm, a to tak, že si prohlédněte protokoly relace aktivity kopírování. Podrobnosti najdete v tématu Aktivita kopírování v protokolu relace.

Další kroky

Projděte si následující rychlé starty, kurzy a ukázky: