Datové sady ve službě Azure Data Factory a Azure Synapse Analytics

Článek
01/05/2024

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Tento článek popisuje, co jsou datové sady, jak jsou definované ve formátu JSON a jak se používají v kanálech Azure Data Factory a Synapse.

Pokud se službou Data Factory začínáte, přehled najdete v tématu Úvod do služby Azure Data Factory . Další informace o Azure Synapse najdete v tématu Co je Azure Synapse.

Přehled

Pracovní prostor Azure Data Factory nebo Synapse může mít jeden nebo více kanálů. Kanál je logické seskupení aktivit, které společně provádějí úlohu. Aktivity v kanálu definují akce, které se mají s daty provádět. Datová sada je pojmenované zobrazení dat, které jednoduše odkazuje nebo odkazuje na data, která chcete použít ve svých aktivitách jako vstupy a výstupy. Datové sady identifikují data v rámci různých úložišť dat, jako jsou tabulky, soubory, složky a dokumenty. Datová sada objektů blob Azure například určuje kontejner objektů blob a složku ve službě Blob Storage, ze které by aktivita měla číst data.

Než vytvoříte datovou sadu, musíte vytvořit propojenou službu , která propojí vaše úložiště dat se službou. Propojené služby jsou podobně jako připojovací řetězec, které definují informace o připojení potřebné pro připojení služby k externím prostředkům. Myslete na to tímto způsobem; datová sada představuje strukturu dat v rámci propojených úložišť dat a propojená služba definuje připojení ke zdroji dat. Například propojená služba Azure Storage propojuje účet úložiště. Datová sada Azure Blob představuje kontejner objektů blob a složku v rámci účtu služby Azure Storage, který obsahuje vstupní objekty blob, které se mají zpracovat.

Tady je ukázkový scénář. Pokud chcete kopírovat data z úložiště objektů blob do služby SQL Database, vytvoříte dvě propojené služby: Azure Blob Storage a Azure SQL Database. Pak vytvořte dvě datové sady: datovou sadu s oddělovači (která odkazuje na propojenou službu Azure Blob Storage za předpokladu, že máte textové soubory jako zdroj) a datovou sadu tabulky Azure SQL (která odkazuje na propojenou službu Azure SQL Database). Propojené služby Azure Blob Storage a Azure SQL Database obsahují připojovací řetězec, které služba používá za běhu pro připojení k azure Storage a Azure SQL Database. Datová sada text s oddělovači určuje kontejner objektů blob a složku objektů blob, která obsahuje vstupní objekty blob ve službě Blob Storage spolu s nastavením souvisejícím s formátem. Datová sada tabulky Azure SQL určuje tabulku SQL ve službě SQL Database, do které se mají data zkopírovat.

Následující diagram znázorňuje vztahy mezi kanálem, aktivitou, datovou sadou a propojenými službami:

Relationship between pipeline, activity, dataset, linked services

Vytvoření datové sady s uživatelským rozhraním

Azure Data Factory
Synapse Analytics

Pokud chcete vytvořit datovou sadu pomocí nástroje Azure Data Factory Studio, vyberte kartu Autor (s ikonou tužky) a pak ikonu znaménka plus a zvolte Datová sada.

Shows the Author tab of the Azure Data Factory Studio with the new dataset button selected.

Zobrazí se okno nové datové sady pro výběr libovolného konektoru dostupného ve službě Azure Data Factory pro nastavení existující nebo nové propojené služby.

Shows the new dataset window where you can choose the type of linked service to any of the supported data factory connectors.

Dále se zobrazí výzva k výběru formátu datové sady.

Shows the dataset format window allowing you to choose a format for the new dataset.

Nakonec můžete zvolit existující propojenou službu typu, který jste vybrali pro datovou sadu, nebo vytvořit novou, pokud ještě není definovaná.

Shows the set properties window where you can choose an existing dataset of the type selected previously, or create a new one.

Jakmile datovou sadu vytvoříte, můžete ji použít v libovolném kanálu ve službě Azure Data Factory.

JSON datové sady

Datová sada je definována v následujícím formátu JSON:

{
    "name": "<name of dataset>",
    "properties": {
        "type": "<type of dataset: DelimitedText, AzureSqlTable etc...>",
        "linkedServiceName": {
                "referenceName": "<name of linked service>",
                "type": "LinkedServiceReference",
        },
        "schema":[

        ],
        "typeProperties": {
            "<type specific property>": "<value>",
            "<type specific property 2>": "<value 2>",
        }
    }
}

Následující tabulka popisuje vlastnosti ve výše uvedeném formátu JSON:

Vlastnost	Popis	Povinní účastníci
name	Název datové sady Viz pravidla pojmenování.	Ano
type	Typ datové sady Zadejte jeden z typů podporovaných službou Data Factory (například: DelimitedText, AzureSqlTable). Podrobnosti najdete v tématu Typy datových sad.	Ano
schema	Schéma datové sady představuje fyzický datový typ a tvar.	No
typeProperties	Vlastnosti typu se pro každý typ liší. Podrobnosti o podporovaných typech a jejich vlastnostech najdete v tématu Typ datové sady.	Ano

Při importu schématu datové sady vyberte tlačítko Importovat schéma a zvolte import ze zdroje nebo z místního souboru. Ve většině případů schéma naimportujete přímo ze zdroje. Pokud ale už máte soubor místního schématu (soubor Parquet nebo CSV s hlavičkami), můžete službu nasměrovat tak, aby založil schéma na daném souboru.

V aktivitě kopírování se datové sady používají ve zdroji a jímce. Schéma definované v datové sadě je volitelné jako odkaz. Pokud chcete použít mapování sloupců a polí mezi zdrojem a jímkou, projděte si mapování schématu a typu.

V Tok dat se datové sady používají v transformacích zdroje a jímky. Datové sady definují základní schémata dat. Pokud data nemají žádné schéma, můžete pro zdroj a jímku použít posun schématu. Metadata z datových sad se zobrazí ve zdrojové transformaci jako zdrojová projekce. Projekce ve zdrojové transformaci představuje Tok dat data s definovanými názvy a typy.

Typ datové sady

Služba podporuje mnoho různých typů datových sad v závislosti na úložištích dat, která používáte. Seznam podporovaných úložišť dat najdete v článku s přehledem Připojení oru. Výběrem úložiště dat se dozvíte, jak pro ni vytvořit propojenou službu a datovou sadu.

Například u datové sady s oddělovači je typ datové sady nastavený na Oddělovač textu , jak je znázorněno v následující ukázce JSON:

{
    "name": "DelimitedTextInput",
    "properties": {
        "linkedServiceName": {
            "referenceName": "AzureBlobStorage",
            "type": "LinkedServiceReference"
        },
        "annotations": [],
        "type": "DelimitedText",
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "fileName": "input.log",
                "folderPath": "inputdata",
                "container": "adfgetstarted"
            },
            "columnDelimiter": ",",
            "escapeChar": "\\",
            "quoteChar": "\""
        },
        "schema": []
    }
}

Vytvoření datových sad

Datové sady můžete vytvářet pomocí jednoho z těchto nástrojů nebo sad SDK: .NET API, PowerShell, REST API, šablony Azure Resource Manageru a webu Azure Portal.

Aktuální verze vs. verze 1 – datové sady

Tady jsou některé rozdíly mezi datovými sadami v aktuální verzi služby Data Factory (a Azure Synapse) a starší verzí služby Data Factory verze 1:

V aktuální verzi není externí vlastnost podporovaná. Nahrazuje ji aktivační událost.
Vlastnosti zásad a dostupnosti nejsou v aktuální verzi podporované. Čas spuštění kanálu závisí na aktivačních událostech.
V aktuální verzi nejsou podporované datové sady s vymezeným oborem (datové sady definované v kanálu).

Podrobné pokyny k vytváření kanálů a datových sad pomocí některého z těchto nástrojů nebo sad SDK najdete v následujícím kurzu.