Aktivita kopírování v Azure Data Factory a Azure synapse Analytics
PLATÍ PRO:
Azure Data Factory
Azure Synapse Analytics
V Azure Data Factory a kanálech synapse můžete použít aktivitu kopírování ke kopírování dat mezi úložišti dat umístěnými místně a v cloudu. Po zkopírování dat můžete použít jiné aktivity k dalšímu transformaci a analýze. Aktivitu kopírování můžete použít také k publikování transformačních a analytických výsledků pro business intelligence (BI) a využití aplikací.
Aktivita kopírování se spustí v prostředí Integration runtime. Pro různé scénáře kopírování dat můžete použít různé typy prostředí Integration Runtime:
- Pokud kopírujete data mezi dvěma úložišti dat, která jsou veřejně přístupná prostřednictvím Internetu z jakékoli IP adresy, můžete pro aktivitu kopírování použít prostředí Azure Integration runtime. Tento modul runtime integrace je zabezpečený, spolehlivý, škálovatelný a globálně dostupný.
- Pokud kopírujete data do a z úložišť dat umístěných místně nebo v síti s řízením přístupu (například virtuální sítí Azure), musíte nastavit prostředí Integration runtime v místním prostředí.
Prostředí Integration runtime musí být spojeno s každým zdrojem a úložištěm dat jímky. Informace o tom, jak aktivita kopírování určuje, který modul runtime integrace se má použít, najdete v tématu určení toho, který IR se má použít.
Chcete-li kopírovat data ze zdroje do jímky, služba, která spouští aktivitu kopírování, provede tyto kroky:
- Načte data ze zdrojového úložiště dat.
- Provádí serializaci/deserializaci, kompresi/dekompresi, mapování sloupců atd. Provede tyto operace na základě konfigurace vstupní datové sady, výstupní datové sady a aktivity kopírování.
- Zapisuje data do jímky nebo cílového úložiště dat.
Podporovaná úložiště a formáty dat
Poznámka
Konektory s označením Preview si můžete vyzkoušet a poskytnout nám k nim zpětnou vazbu. Pokud do svého řešení chcete zavést závislost na konektorech ve verzi Preview, kontaktujte podporu Azure.
Podporované formáty souborů
Azure Data Factory podporuje následující formáty souborů. Nastavení založená na formátu najdete v každém článku.
- Formát Avro
- Binární formát
- Formát textu s oddělovači
- Excelový formát
- Formát JSON
- Formát ORC
- Formát Parquet
- Formát XML
Aktivitu kopírování můžete použít ke kopírování souborů mezi dvěma úložišti dat založených na souborech. v takovém případě se data zkopírují bez jakékoli serializace nebo deserializace. Kromě toho můžete také analyzovat nebo generovat soubory daného formátu, například můžete provést následující:
- zkopírujte data z databáze SQL Server a zapište do Azure Data Lake Storage Gen2 ve formátu Parquet.
- Kopírování souborů ve formátu textu (CSV) z místního systému souborů a zápis do úložiště objektů BLOB v Azure ve formátu Avro
- zkopírujte soubory zip z místního systému souborů, dekomprimujte je průběžně a zapište extrahované soubory do Azure Data Lake Storage Gen2.
- Z úložiště objektů BLOB v Azure zkopírujte data ve formátu. komprimovaný text (CSV) gzip a napište ho do Azure SQL Database.
- Mnoho dalších aktivit, které vyžadují serializaci/deserializaci nebo kompresi/dekompresi.
Podporované oblasti
Služba, která umožňuje aktivitu kopírování, je globálně dostupná v oblastech a zeměpisných oblastech uvedených v umístěních prostředí Azure Integration runtime. Globálně dostupná topologie zajišťuje efektivní přesun dat, který obvykle brání směrování mezi oblastmi. Informace o dostupnosti Data Factory, pracovních prostorech a přesunech dat v konkrétní oblasti najdete v článku produkty podle oblasti .
Konfigurace
K provedení aktivita Copy s kanálem můžete použít jeden z následujících nástrojů nebo sady SDK:
- Nástroj Kopírování dat
- Azure Portal
- Sada .NET SDK
- Sada Python SDK
- Azure PowerShell
- Rozhraní REST API
- Šablona Azure Resource Manager
Obecně platí, že pokud chcete použít aktivitu kopírování v Azure Data Factory nebo kanálech synapse, musíte:
- Vytvořte propojené služby pro zdrojové úložiště dat a úložiště dat jímky. Seznam podporovaných konektorů najdete v části podporované datové úložiště a formáty v tomto článku. Informace o konfiguraci a podporovaných vlastnostech najdete v části "vlastnosti propojených služeb" v článku konektoru.
- Vytvořte datové sady pro zdroj a jímku. Informace o konfiguraci a podporovaných vlastnostech najdete v článcích "vlastnosti datové sady" v článcích konektor zdroje a jímky.
- Vytvořte kanál s aktivitou kopírování. V další části najdete příklad.
Syntax
Následující šablona aktivity kopírování obsahuje úplný seznam podporovaných vlastností. Zadejte ty, které vyhovují vašemu scénáři.
"activities":[
{
"name": "CopyActivityTemplate",
"type": "Copy",
"inputs": [
{
"referenceName": "<source dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<sink dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "<source type>",
<properties>
},
"sink": {
"type": "<sink type>"
<properties>
},
"translator":
{
"type": "TabularTranslator",
"columnMappings": "<column mapping>"
},
"dataIntegrationUnits": <number>,
"parallelCopies": <number>,
"enableStaging": true/false,
"stagingSettings": {
<properties>
},
"enableSkipIncompatibleRow": true/false,
"redirectIncompatibleRowSettings": {
<properties>
}
}
}
]
Podrobnosti syntaxe
| Vlastnost | Popis | Povinné? |
|---|---|---|
| typ | U aktivity kopírování nastavte na Copy |
Yes |
| vztahují | Určete datovou sadu, kterou jste vytvořili, která odkazuje na zdrojová data. Aktivita kopírování podporuje pouze jeden vstup. | Yes |
| činnosti | Určete datovou sadu, kterou jste vytvořili, která odkazuje na data jímky. Aktivita kopírování podporuje pouze jeden výstup. | Yes |
| typeProperties | Zadejte vlastnosti pro konfiguraci aktivity kopírování. | Yes |
| source | Zadejte typ zdroje kopie a odpovídající vlastnosti pro načtení dat. Další informace najdete v části "vlastnosti aktivity kopírování" v článku konektoru, který je uvedený v části podporovaná úložiště a formáty dat. |
Yes |
| jímkou | Zadejte typ jímky kopírování a odpovídající vlastnosti pro zápis dat. Další informace najdete v části "vlastnosti aktivity kopírování" v článku konektoru, který je uvedený v části podporovaná úložiště a formáty dat. |
Yes |
| Překladač | Zadejte explicitní mapování sloupců ze zdroje do jímky. Tato vlastnost se používá v případě, že výchozí chování kopírování nevyhovuje vašim potřebám. Další informace najdete v tématu mapování schématu v aktivitě kopírování. |
No |
| dataIntegrationUnits | Zadejte míru, která představuje množství energie, kterou prostředí Azure Integration runtime používá pro kopírování dat. Tyto jednotky se dřív jmenovaly jako jednotky pro pohyb dat v cloudu (DMU). Další informace najdete v tématu jednotky pro integraci dat. |
No |
| parallelCopies | Zadejte paralelismus, které má aktivita kopírování použít při čtení dat ze zdroje a zápisu dat do jímky. Další informace najdete v tématu paralelní kopírování. |
No |
| chovají | Určete, jestli se při kopírování dat mají zachovat metadata nebo seznamy ACL. Další informace najdete v tématu zachování metadat. |
No |
| enableStaging stagingSettings |
Určete, jestli se mají připravit dočasná data v úložišti objektů BLOB místo přímého kopírování dat ze zdroje do jímky. Informace o užitečných scénářích a podrobnostech konfigurace najdete v tématu Příprava kopírování. |
No |
| enableSkipIncompatibleRow redirectIncompatibleRowSettings |
Zvolte způsob zpracování nekompatibilních řádků při kopírování dat ze zdroje do jímky. Další informace najdete v tématu Odolnost proti chybám. |
No |
Monitorování
Spuštění služby můžete aktivita Copy v kanálech Azure Data Factory a Synapse vizuálně i programově. Podrobnosti najdete v tématu Monitorování aktivity kopírování.
Přírůstkové kopírování
Data Factory a Synapse umožňují přírůstkově kopírovat rozdílová data ze zdrojového úložiště dat do úložiště dat jímky. Podrobnosti najdete v tématu Kurz: Přírůstkové kopírování dat.
Výkon a ladění
Prostředí pro monitorování aktivity kopírování zobrazuje statistiku výkonu kopírování pro každé spuštění aktivity. Průvodce aktivita Copy výkonu a škálovatelnosti popisuje klíčové faktory, které ovlivňují výkon přesunu dat přes aktivita Copy. Uvádí také hodnoty výkonu pozorované během testování a popisuje, jak optimalizovat výkon aktivita Copy.
Obnovení od posledního neúspěšného spuštění
aktivita Copy podporuje obnovení od posledního neúspěšného spuštění, když kopírujete velké soubory tak, jak jsou, s binárním formátem mezi úložištěmi založenými na souborech a rozhodnete se zachovat hierarchii složek a souborů ze zdroje do jímky, například k migraci dat z Amazonu S3 do Azure Data Lake Storage Gen2. Platí pro následující souborové konektory: Amazon S3, Amazon S3 Compatible Storage Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, Oracle Cloud Storage a SFTP.
Obnovení aktivity kopírování můžete využít následujícími dvěma způsoby:
Opakování na úrovni aktivity: U aktivity kopírování můžete nastavit počet opakování. Pokud během provádění kanálu dojde k selhání tohoto spuštění aktivity kopírování, spustí se další automatické opakování od bodu selhání poslední zkušební verze.
Opětovné spuštění z neúspěšné aktivity: Po dokončení provádění kanálu můžete také aktivovat opětovné spuštění z neúspěšné aktivity v zobrazení monitorování uživatelského rozhraní ADF nebo programově. Pokud je neúspěšnou aktivitou aktivita kopírování, kanál se nejen znovu spustí z této aktivity, ale také se obnoví z bodu selhání předchozího spuštění.
Je třeba poznamenat několik bodů:
- Obnovení probíhá na úrovni souboru. Pokud aktivita kopírování selže při kopírování souboru, při dalším spuštění se tento konkrétní soubor znovu zkopíruje.
- Aby obnovení fungovalo správně, neměňte nastavení aktivity kopírování mezi jednotlivými spuštěními.
- Při kopírování dat ze služeb Amazon S3, Azure Blob, Azure Data Lake Storage Gen2 a Google Cloud Storage může aktivita kopírování pokračovat z libovolného počtu zkopírovaných souborů. Zatímco u zbývajících souborových konektorů jako zdroje podporuje aktivita kopírování obnovení z omezeného počtu souborů, obvykle v rozsahu desítek tisíc a liší se v závislosti na délce cest k souborům. Soubory nad tuto hodnotu se při opětovném spuštění znovu zkopírují.
V jiných scénářích než kopírování binárního souboru začíná opětovné spuštění aktivity kopírování od začátku.
Zachování metadat spolu s daty
Při kopírování dat ze zdroje do jímky můžete ve scénářích, jako je migrace data lake, také zachovat metadata a seznamy ACL spolu s daty pomocí aktivity kopírování. Podrobnosti najdete v tématu Zachování metadat.
Mapování schématu a datového typu
V tématu Mapování schématu a datového typu najdete informace o tom, aktivita Copy mapuje zdrojová data na jímku.
Přidání dalších sloupců během kopírování
Kromě kopírování dat ze zdrojového úložiště dat do jímky můžete také nakonfigurovat přidání dalších sloupců dat ke zkopírování do jímky. Příklad:
- Při kopírování ze zdroje založeného na souboru uložte relativní cestu k souboru jako další sloupec pro trasování, ze kterého souboru data pochází.
- Duplikuje zadaný zdrojový sloupec jako jiný sloupec.
- Přidáním sloupce s výrazem ADF připojíte systémové proměnné ADF, jako je název kanálu nebo ID kanálu, nebo uložíte jinou dynamickou hodnotu z výstupu aktivity upstreamu.
- Přidejte sloupec se statickou hodnotou, který bude splňovat vaše požadavky na příjem dat.
Následující konfiguraci najdete na kartě zdroje aktivity kopírování. Pomocí definovaných názvů sloupců můžete také mapovat tyto další sloupce v mapování schématu aktivity kopírování jako obvykle.
Tip
Tato funkce funguje s nejnovějším modelem datové sady. Pokud tuto možnost v uživatelském rozhraní nevidíte, zkuste vytvořit novou datovou sadu.
Pokud ho chcete nakonfigurovat programově, additionalColumns přidejte vlastnost do zdroje aktivity kopírování:
| Vlastnost | Popis | Povinné |
|---|---|---|
| additionalColumns | Přidejte další datové sloupce, které chcete zkopírovat do jímky. Každý objekt pod additionalColumns polem představuje další sloupec. Definuje name název sloupce a označuje hodnotu dat tohoto value sloupce.Povolené hodnoty dat jsou: - $$FILEPATH – rezervovaná proměnná označuje, že se má uložit relativní cesta zdrojových souborů k cestě ke složce zadané v datové sadě. Platí pro zdroj založený na souboru.- $$COLUMN:<source_column_name> – Vzor rezervované proměnné indikuje duplikování zadaného zdrojového sloupce jako jiného sloupce.- Výraz - Statická hodnota |
No |
Příklad:
"activities":[
{
"name": "CopyWithAdditionalColumns",
"type": "Copy",
"inputs": [...],
"outputs": [...],
"typeProperties": {
"source": {
"type": "<source type>",
"additionalColumns": [
{
"name": "filePath",
"value": "$$FILEPATH"
},
{
"name": "newColName",
"value": "$$COLUMN:SourceColumnA"
},
{
"name": "pipelineName",
"value": {
"value": "@pipeline().Pipeline",
"type": "Expression"
}
},
{
"name": "staticValue",
"value": "sampleValue"
}
],
...
},
"sink": {
"type": "<sink type>"
}
}
}
]
Automatické vytváření tabulek jímky
Při kopírování dat do SQL databáze nebo Azure Synapse Analytics platí, že pokud cílová tabulka neexistuje, aktivita kopírování podporuje automatické vytvoření na základě zdrojových dat. Jejím cílem je pomoct vám rychle začít načítat data a vyhodnocovat SQL databáze a Azure Synapse Analytics. Po příjmu dat můžete zkontrolovat a upravit schéma tabulky jímky podle svých potřeb.
Tato funkce se podporuje při kopírování dat z libovolného zdroje do následujících úložišť dat jímky. Možnost najdete v uživatelském rozhraní pro vytváření ADF – > aktivita Copy jímka – > možnost Tabulka – > Automaticky vytvořit tabulku nebo prostřednictvím vlastnosti v datové části jímky aktivity tableOption kopírování.
Odolnost proti chybám
Ve výchozím nastavení aplikace aktivita Copy kopírování dat a vrátí chybu, pokud jsou řádky zdrojových dat nekompatibilní s řádky dat jímky. Pokud chcete, aby kopírování bylo úspěšné, můžete nakonfigurovat aktivita Copy přeskočit a protokolovat nekompatibilní řádky a kopírovat pouze kompatibilní data. Podrobnosti aktivita Copy v tématu Odolnost proti chybám.
Ověření konzistence dat
Když přesunete data ze zdrojového do cílového úložiště, aktivita kopírování vám poskytne možnost provést další ověření konzistence dat, abyste zajistili, že se data nejen úspěšně zkopírují ze zdrojového do cílového úložiště, ale také ověří, že jsou konzistentní mezi zdrojovým a cílovým úložištěm. Jakmile během přesunu dat najdete nekonzistentní soubory, můžete buď přerušit aktivitu kopírování, nebo pokračovat v kopírování zbývajících souborů tím, že povolíte nastavení odolnosti proti chybám, které přeskočí nekonzistentní soubory. Přeskočené názvy souborů můžete získat povolením nastavení protokolu relace v aktivitě kopírování. Podrobnosti najdete v tématu Ověření konzistence dat v aktivitě kopírování.
Protokol relace
Zkopírované názvy souborů můžete protokolovat, což vám pomůže zajistit, aby se data nejen úspěšně zkopírovaná ze zdrojového do cílového úložiště, ale také konzistentní mezi zdrojovým a cílovým úložištěm, a to tak, že si prohlédněte protokoly relace aktivity kopírování. Podrobnosti najdete v tématu Aktivita kopírování v protokolu relace.
Další kroky
Projděte si následující rychlé starty, kurzy a ukázky: