Adatkészletek a Azure Data Factory és Azure Synapse Analytics

A KÖVETKEZŐKRE VONATKOZIK: Azure Data Factory Azure Synapse Analytics

Ez a cikk bemutatja, mik azok az adatkészletek, hogyan vannak definiálva JSON formátumban, és hogyan használhatók a Azure Data Factory és Synapse-folyamatokban.

Ha még csak most Data Factory, tekintse meg az Azure Data Factory bevezetőt. További információ a Azure Synapse mi a Azure Synapse

Áttekintés

Egy adat-előállító vagy Synapse-munkaterület egy vagy több folyamatból is lehet. A folyamat olyan tevékenységek logikai csoportosítása, amelyek együtt végeznek el egy feladatot. A folyamat tevékenységei meghatározzák az adatokon végrehajtandó műveleteket. Az adatkészlet most már az adatok elnevezett nézete, amely egyszerűen rámutat vagy hivatkozik a tevékenységekben bemenetként és kimenetként használni kívánt adatokra. Az adatkészletek adatokat határoznak meg a különböző adattárakban, például táblákban, fájlokban, mappákban és dokumentumokban. Az Azure Blob-adatkészlet például meghatározza a blobtárolót és azt a Blob Storage-mappát, amelyből a tevékenység beolvassa az adatokat.

Mielőtt létrehoz egy adatkészletet, létre kell hoznia egy csatolt szolgáltatást, amely összekapcsolja az adattárat a szolgáltatással. A csatolt szolgáltatások hasonlóak a kapcsolati sztringekhoz, amelyek meghatározzák azokat a kapcsolati adatokat, amelyekre a szolgáltatásnak szüksége van a külső erőforrásokhoz való csatlakozáshoz. Gondoljon rá így; az adatkészlet a csatolt adattárakban található adatok struktúráját jelöli, a csatolt szolgáltatás pedig az adatforrással való kapcsolatot határozza meg. Egy Azure-beli virtuális Storage például egy tárfiókot kapcsol össze. Az Azure Blob-adatkészlet a feldolgozni kívánt bemeneti blobokat tartalmazó blobtárolót és az Azure Storage-fiókon belüli mappát jelöli.

Példaforgatókönyv. Ha adatokat másol a Blob Storage-ból egy SQL Database, hozzon létre két összekapcsolt szolgáltatást: az Azure Blob Storage és Azure SQL Database. Ezután hozzon létre két adatkészletet: tagolt szöveges adatkészletet (amely az Azure Blob Storage-beli csatolt szolgáltatásra hivatkozik, feltéve, hogy szöveges fájlokat tartalmaz forrásként) és az Azure SQL Table adatkészletet (amely az Azure SQL Database csatolt szolgáltatásra hivatkozik). Az Azure Blob Storage és Azure SQL Database-szolgáltatások olyan kapcsolati sztringeket tartalmaznak, amelyek használatával a szolgáltatás futásidőben csatlakozik az Azure Storage-hoz Azure SQL Database szolgáltatáshoz. A Tagolt szöveg adatkészlet meghatározza a blobtárolót és a blobmappát, amely a blobtárolóban található bemeneti blobokat tartalmazza, valamint a formátummal kapcsolatos beállításokat. Az Azure SQL Table adatkészlet határozza meg SQL tábla SQL Database, amelybe az adatokat másolni kell.

Az alábbi ábrán a folyamat, a tevékenység, az adatkészlet és a csatolt szolgáltatások közötti kapcsolatok láthatóak:

Folyamat, tevékenység, adatkészlet, csatolt szolgáltatások közötti kapcsolat

Adatkészlet JSON-adatai

Az adatkészletek a következő JSON-formátumban vannak definiálva:

{
    "name": "<name of dataset>",
    "properties": {
        "type": "<type of dataset: DelimitedText, AzureSqlTable etc...>",
        "linkedServiceName": {
                "referenceName": "<name of linked service>",
                "type": "LinkedServiceReference",
        },
        "schema":[

        ],
        "typeProperties": {
            "<type specific property>": "<value>",
            "<type specific property 2>": "<value 2>",
        }
    }
}

Az alábbi táblázat a fenti JSON-fájlban található tulajdonságokat ismerteti:

Tulajdonság Leírás Kötelező
name Az adatkészlet neve. Lásd: Elnevezési szabályok. Igen
típus Az adatkészlet típusa. Adja meg a függvény által támogatott Data Factory (például: Tagolt szöveg, AzureSqlTable).

Részletekért lásd: Adatkészlettípusok.
Igen
schema Az adatkészlet sémája a fizikai adattípust és alakzatot jelöli. Nem
typeProperties Az egyes típustulajdonságok eltérőek. A támogatott típusokkal és azok tulajdonságaival kapcsolatos részletekért lásd: Adatkészlet típusa. Igen

Amikor importálja az adatkészlet sémáját, válassza a Séma importálása gombot, és válassza a forrásból vagy egy helyi fájlból történő importálást. A legtöbb esetben közvetlenül a forrásból fogja importálni a sémát. Ha azonban már rendelkezik helyi sémafájllal (egy Parquet-fájllal vagy fejlécekkel egy CSV-fájllal), a szolgáltatást arra is irányíthatja, hogy a séma erre a fájlra legyen alapozva.

A másolási tevékenységben az adatkészletek a forrásban és a fogadóban vannak használva. Az adatkészletben definiált séma hivatkozásként nem kötelező. Ha oszlop-/mezőleképezést szeretne alkalmazni a forrás és a fogadó között, tekintse meg a séma- és típusleképezést.

Az Adat Flow adatkészletek forrás- és fogadóátalakítások során használatosak. Az adatkészletek határozzák meg az alapszintű adatsémát. Ha az adatok nem tartalmaznak sémát, használhatja a séma eltérését a forráshoz és a fogadóhoz. Az adatkészletek metaadatai forrás-leképezésként jelennek meg a forrásátalakításban. A forrásátalakítás leképezésében a Data Flow meghatározott nevekkel és típusokkal.

Adatkészlet típusa

A szolgáltatás számos különböző típusú adatkészletet támogat a használt adattáraktól függően. A támogatott adattárak listáját az összekötők áttekintését ismertető cikkben találja. Kattintson egy adattárra, hogy megtudja, hogyan hozhat létre hozzá csatolt szolgáltatást és adatkészletet.

Egy tagolt szöveges adatkészlet esetében például az adathalmaz típusa Tagolt Szövegre van állítva, ahogyan az a következő JSON-mintában látható:

{
    "name": "DelimitedTextInput",
    "properties": {
        "linkedServiceName": {
            "referenceName": "AzureBlobStorage",
            "type": "LinkedServiceReference"
        },
        "annotations": [],
        "type": "DelimitedText",
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "fileName": "input.log",
                "folderPath": "inputdata",
                "container": "adfgetstarted"
            },
            "columnDelimiter": ",",
            "escapeChar": "\\",
            "quoteChar": "\""
        },
        "schema": []
    }
}

Adatkészletek létrehozása

Adatkészleteket a következő eszközök vagy AZDK-k egyikének használatával hozhat létre: .NET API,PowerShell,REST API, Azure Resource ManagerSablon és Azure Portal

Az aktuális verzió és az 1. verzió adatkészletei

Íme néhány különbség a jelenlegi (Data Factory (és Azure Synapse) adatkészletek és az 1-es Data Factory között:

  • Az external tulajdonság az aktuális verzióban nem támogatott. Ezt egy eseményindító váltja fel.
  • A szabályzat és a rendelkezésre állás tulajdonságai az aktuális verzióban nem támogatottak. A folyamat kezdési ideje az eseményindítóktól függ.
  • A hatókörrel kapcsolatos adatkészletek (egy folyamatban definiált adatkészletek) az aktuális verzióban nem támogatottak.

Következő lépések

Az alábbi oktatóanyag lépésenként beható utasításokat tartalmaz folyamatok és adatkészletek létrehozásához ezen eszközök vagy az SDK-k egyikével.