Forrásátalakítás adatfolyam-leképezésben

A KÖVETKEZŐKRE VONATKOZIK: Azure Data Factory Azure Synapse Analytics

Az adatfolyamok a Azure Data Factory és Azure Synapse is elérhetők. Ez a cikk az adatfolyamok leképezésére vonatkozik. Ha még nem használja az átalakításokat, tekintse meg az Adatok átalakítása leképezési adatfolyam használatával bevezető cikket.

A forrásátalakítás konfigurálja az adatforrást az adatfolyamhoz. Adatfolyamok tervezésekor az első lépés mindig a forrásátalakítás konfigurálása. Forrás hozzáadásához válassza a Forrás hozzáadása mezőt az adatfolyam vásznán.

Minden adatfolyamhoz szükség van legalább egy forrásátalakításra, de az adatátalakítások befejezéséhez annyi forrást vehet fel, amennyire csak szüksége van. Ezeket a forrásokat illesztés, keresés vagy unióátalakítás együttesen is használhatja.

Minden forrásátalakítás pontosan egy adatkészlethez vagy társított szolgáltatáshoz van társítva. Az adatkészlet határozza meg annak az adatnak az alakját és helyét, amelybe írni vagy olvasni szeretne. Ha fájlalapú adatkészletet használ, helyettesítő karaktereket és fájllistákat használhat a forrásban egyszerre több fájllal való munkához.

Beágyazott adatkészletek

Forrásátalakítás létrehozásakor az első döntés az, hogy a forrásadatok egy adatkészlet-objektumban vagy a forrásátalakításban vannak-e definiálva. A legtöbb formátum csak az egyikben vagy a másikban érhető el. Egy adott összekötő használatának elsajátításért tekintse meg a megfelelő összekötő-dokumentumot.

Ha egy formátum beágyazott és adatkészlet-objektumban is támogatott, mindkettőnek vannak előnyei. Az adatkészlet-objektumok olyan újrahasználható entitások, amelyek más adatfolyamokhoz és tevékenységekhez, például a Másoláshoz használhatók. Ezek az újrahasználható entitások különösen akkor hasznosak, ha egy megsokosítható sémát használ. Az adatkészletek nem a Sparkban alapulnak. Esetenként előfordulhat, hogy felül kell bírálni bizonyos beállításokat vagy séma-leképezéseket a forrásátalakítás során.

Beágyazott adatkészletek használata rugalmas sémák, egyszeres forráspéldányok vagy paraméteres források használata esetén ajánlott. Ha a forrás nagymértékben paraméterezett, a beágyazott adatkészletek lehetővé teszik, hogy ne hozzon létre "hamis" objektumot. A beágyazott adatkészletek a Sparkban alapulnak, és tulajdonságaik natívak az adatfolyamban.

Beágyazott adatkészlethez válassza ki a kívánt formátumot a Forrástípus-választóban. Forrásadatkészlet kiválasztása helyett ki kell választania azt a csatolt szolgáltatást, amelyhez csatlakozni szeretne.

Screenshot that shows Inline selected.

Munkaterület-adatbázis (csak Synapse-munkaterületek)

A Azure Synapse munkaterületeken egy további lehetőség is rendelkezésre áll a nevű adatfolyam-forrásátalakításban. Workspace DB Így közvetlenül kiválaszthat bármilyen elérhető típusú munkaterület-adatbázist forrásadatként anélkül, hogy további csatolt szolgáltatásokra vagy adatkészletre lenne szükség.

Screenshot that shows workspacedb selected.

Támogatott forrástípusok

Az adatfolyam-leképezés egy kinyerési, betöltési és átalakítási (ELT) megközelítést követ, és olyan átmeneti adatkészletekkel működik, amelyek mind az Azure-ban vannak. Jelenleg a következő adatkészletek használhatók forrásátalakításhoz.

Összekötő Formátum Adatkészlet/beágyazott
Amazon S3 Avro
Tagolt szöveg
Delta
Excel
JSON
ORK
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Azure Blob Storage Avro
Tagolt szöveg
Delta
Excel
JSON
ORK
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Azure Cosmos DB (SQL API) ✓/-
1. generációs Azure Data Lake Storage Avro
Tagolt szöveg
Excel
JSON
ORK
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Azure Data Lake Storage Gen2 Avro
Common Data Service
Tagolt szöveg
Delta
Excel
JSON
ORK
Parquet
XML
✓/✓
-/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Azure Database for MySQL ✓/✓
Azure Database for PostgreSQL ✓/✓
Azure Data Explorer ✓/✓
Azure SQL Database ✓/✓
Felügyelt Azure SQL-példány ✓/✓
Azure Synapse Analytics ✓/✓
Dataverse ✓/✓
Dynamics 365 ✓/✓
Dynamics CRM ✓/✓
Hive -/✓
Snowflake ✓/✓
SQL Server ✓/✓
REST ✓/✓

Gépház összekötőkre vonatkozó információk a Forrásbeállítások lapon találhatók. Az ezekre a beállításokra vonatkozó információ- és adatfolyam-parancsfájlpélyák az összekötő dokumentációjában találhatók.

Azure Data Factory és Synapse-folyamatok több mint 90 natív összekötőhöz férnek hozzá. Ha más forrásokból származó adatokat is fel akar venni az adatfolyamba, a másolási tevékenységgel töltse be ezeket az adatokat az egyik támogatott átmeneti területre.

Forrásbeállítások

Miután hozzáadott egy forrást, konfigurálja a beállítást a Forrásbeállítások lapon. Itt választhatja ki vagy hozhatja létre azt az adatkészletet, amelynél a forráspontokat létrehozza. Az adatokhoz séma- és mintavételezési lehetőségeket is kiválaszthat.

Az adatkészlet-paraméterek fejlesztési értékei a hibakeresési beállításokban konfigurálhatóak. (A hibakeresési módot be kell kapcsolva.)

Screenshot that shows the Source settings tab.

Kimeneti stream neve:A forrásátalakítás neve.

Forrás típusa:Válassza ki, hogy beágyazott adatkészletet vagy meglévő adatkészlet-objektumot szeretne-e használni.

Kapcsolat tesztelése:Tesztelje, hogy az adatfolyam Spark-szolgáltatása sikeresen tud-e csatlakozni a forrásadatkészletben használt csatolt szolgáltatáshoz. A funkció csak akkor engedélyezhető, ha a hibakeresési mód be van kapcsolva.

Séma eltérése: A séma eltérése azt a képességet adja meg, hogy a szolgáltatás natív módon kezelje az adatfolyamok rugalmas sémáit anélkül, hogy explicit módon meg kellene határoznia az oszlop módosításait.

  • Jelölje be a Séma eltérésének engedélyezése jelölőnégyzetet, ha a forrásoszlopok gyakran változnak. Ezzel a beállítással az összes bejövő forrásmező áthalad a fogadóra való átalakításon.

  • A sodródott oszloptípusok kijelölése arra utasítja a szolgáltatást, hogy észlelje és határozza meg az adattípusokat az egyes felderített új oszlopokhoz. Ha ez a funkció ki van kapcsolva, minden eltolt oszlop sztring típusú lesz.

Séma ellenőrzése: Ha a Séma ellenőrzése beállítás van kiválasztva, az adatfolyam nem fog futni, ha a bejövő forrásadatok nem egyeznek meg az adatkészlet meghatározott sémával.

Sorok számának kihagyása:A Sorszám kihagyása mező határozza meg, hogy hány sort kell figyelmen kívül hagyni az adatkészlet elején.

Mintavételezés:Engedélyezze a mintavételezést a forrásból származó sorok számának korlátozására. Ezt a beállítást akkor használja, ha a forrásból származó adatokat teszteli vagy mintavétele során hibakeresési célokra használja. Ez nagyon hasznos, ha az adatfolyamokat hibakeresési módban futtatja egy folyamatból.

Annak ellenőrzéséhez, hogy a forrás megfelelően van-e konfigurálva, kapcsolja be a hibakeresési módot, és hívja le az adatelőnézetet. További információ: Hibakeresési mód.

Megjegyzés

Ha a hibakeresési mód be van kapcsolva, a hibakeresési beállítások sorkorlát-konfigurációja felülírja a mintavételezési beállítást a forrásban az adatok előnézete során.

Forrásbeállítások

A Forrásbeállítások lap az összekötőre és a választott formátumra vonatkozó beállításokat tartalmaz. További információt és példákat a megfelelő összekötő-dokumentációban talál.

Vetület

Az adatkészletek sémáihoz hasonló a forrás leképezése határozza meg a forrásadatokból származó adatoszlopokat, -típusokat és -formátumokat. A legtöbb adatkészlettípus, például a SQL és a Parquet esetében a forrás leképezés rögzített, hogy tükrözze az adatkészletben definiált sémát. Ha a forrásfájlok nincsenek erősen típusosak (például parquet-fájlok helyett .csv fájlok), a forrásátalakítás egyes mezőihez definiálhatja az adattípusokat.

Screenshot that shows settings on the Projection tab.

Ha a szövegfájl nem rendelkezik meghatározott sémával, válassza az Adattípus észlelése lehetőséget, így a szolgáltatás mintát fog venni az adattípusok közül, és ki fogja azt kihozni. Az alapértelmezett adatformátumok automatikus detektálása érdekében válassza az Alapértelmezett formátum megadása lehetőséget.

A séma alaphelyzetbe állítása visszaállítja a leképezéseket a hivatkozott adatkészletben meghatározottakra.

Az oszlop adattípusát egy lefelé irányuló származtatott oszlopátalakításban módosíthatja. Az oszlopnevek módosításához használjon select átalakítást.

Séma importálása

A Leképezés lapon válassza a Séma importálása gombot, ha aktív hibakeresési fürtöt használ a séma-leképezés létrehozásához. Minden forrástípusban elérhető. A séma importálása itt felülírja az adatkészletben definiált leképezéseket. Az adatkészlet-objektum nem módosul.

A séma importálása olyan adatkészletekben hasznos, mint az Avro és Azure Cosmos DB, amelyek olyan összetett adatstruktúrákat támogatnak, amelyek nem igényelnek sémadefiníciókat az adatkészletben. Beágyazott adatkészletek esetén a séma importálása az egyetlen mód az oszlopmetaadatok sémasomópont nélküli hivatkozására.

A forrásátalakítás optimalizálása

Az Optimalizálás lapon a partícióinformációk szerkeszthetők az egyes átalakítási lépésenként. A legtöbb esetben az Aktuális particionálás használata optimalizálja a forrás ideális particionálási struktúráját.

Ha egy forrásból olvas, Azure SQL Database egyéni forrás particionálás valószínűleg a leggyorsabban olvassa az adatokat. A szolgáltatás nagy méretű lekérdezéseket olvas be az adatbázishoz való párhuzamos csatlakozással. Ez a forrás particionálás egy oszlopon vagy egy lekérdezés használatával is használhatja.

Screenshot that shows the Source partition settings.

A leképezési adatfolyamon belüli optimalizálással kapcsolatos további információkért lásd az Optimalizálás lapot.

Következő lépések

Kezdje el az adatfolyamok építését egy származtatott oszlop-átalakítással és egy select átalakítással.