Adatmásolási eszköz az Azure Data Factoryben és a Synapse Analyticsben

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Az Adatok másolása eszköz megkönnyíti és optimalizálja az adatok data lake-be való betöltésének folyamatát, ami általában egy végpontok közötti adatintegrációs forgatókönyv első lépése. Időt takarít meg, különösen akkor, ha a szolgáltatással először használ adatokat egy adatforrásból. Az eszköz használatának néhány előnye:

  • Az Adatok másolása eszköz használatakor nincs szükség a társított szolgáltatások, adathalmazok, folyamatok, tevékenységek és eseményindítók szolgáltatásdefinícióinak megértésére.
  • Az Adatok másolása eszköz intuitív módon tölt be adatokat egy adattóba. Az eszköz automatikusan létrehozza az összes szükséges erőforrást, hogy adatokat másoljon a kijelölt forrásadattárból a kijelölt cél/fogadó adattárba.
  • Az Adatok másolása eszköz segít ellenőrizni azokat az adatokat, amelyeket a létrehozáskor betöltenek, ami segít elkerülni az esetleges hibákat az elején.
  • Ha összetett üzleti logikát kell implementálnia az adatok data lake-be való betöltéséhez, akkor is szerkesztheti az Adatok másolása eszköz által létrehozott erőforrásokat a felhasználói felületen végzett tevékenységenkénti létrehozással.

Az alábbi táblázat útmutatást nyújt az Adatok másolása eszköz és a felhasználói felületen végzett tevékenységenkénti szerzői műveletek használatához:

Adatok másolása eszköz Tevékenységenként (Copy tevékenység) szerzői tevékenységenként
Egyszerűen hozhat létre adatbetöltési feladatot entitások (társított szolgáltatások, adathalmazok, folyamatok stb.) megismerése nélkül. Összetett és rugalmas logikát szeretne implementálni az adatok tóba való betöltéséhez.
Nagy mennyiségű adatösszetevőt szeretne gyorsan betölteni egy adattóba. A Copy tevékenység az adatok megtisztítására vagy feldolgozására irányuló további tevékenységekhez szeretné láncolni.

Az Adatok másolása eszköz elindításához kattintson a Data Factory vagy a Synapse Studio felhasználói felületének kezdőlapján található Betöltési csempére.

A másolási adateszköz elindítása után kétféle feladattípus jelenik meg: az egyik a beépített másolási feladat , a másik pedig a metaadatalapú másolási feladat. A beépített másolási feladat öt percen belül létrehoz egy folyamatot az adatok replikálásához az entitások megismerése nélkül. A metaadatalapú másolási feladat megkönnyíti a paraméteres folyamatok és a külső vezérlőtábla létrehozását, hogy nagy mennyiségű objektumot (például több ezer táblát) nagy léptékben lehessen másolni. További részleteket a metaadat-alapú másolási adatokban tekinthet meg.

Intuitív folyamat adatok adattóba való betöltéséhez

Ez az eszköz lehetővé teszi az adatok egyszerű áthelyezését számos forrásból a célhelyekre percek alatt, intuitív folyamattal:

  1. Konfigurálja a forrás beállításait.

  2. Konfigurálja a célhely beállításait.

  3. Konfigurálja a másolási művelet speciális beállításait , például az oszlopleképezést, a teljesítménybeállításokat és a hibatűrési beállításokat.

  4. Adja meg az adatbetöltési feladat ütemezését.

  5. Tekintse át a létrehozandó entitások összegzését .

  6. Szerkessze a folyamatot a másolási tevékenység beállításainak szükség szerinti frissítéséhez.

    Az eszköz a big data szem előtt tartásával lett megtervezve, és támogatja a különböző adat- és objektumtípusokat. Segítségével több száz mappát, fájlt vagy táblát helyezhet át. Az eszköz támogatja az automatikus adatelőnézetet, a sémarögzítést és az automatikus leképezést, valamint az adatszűrést is.

Copy Data tool

Automatikus adatelőnézet

Megtekintheti az adatok egy részét a kijelölt forrásadattárból, így ellenőrizheti a másolt adatokat. Ha a forrásadatok szövegfájlban találhatóak, az Adatok másolása eszköz elemzi a szövegfájlt, hogy automatikusan észlelje a sor- és oszlophatárolókat, valamint a sémát.

File settings

Az észlelés után válassza az Előzetes verziójú adatok lehetőséget:

Detected file settings and preview

Sémarögzítés és automatikus leképezés

Előfordulhat, hogy az adatforrás sémája sok esetben nem azonos az adatcél sémával. Ebben a forgatókönyvben a forrásséma oszlopait a célséma oszlopaihoz kell képeznie.

Az Adatok másolása eszköz figyeli és megtanulja a viselkedését, amikor oszlopokat térképez le a forrás- és céltárolók között. Miután kiválasztott egy vagy néhány oszlopot a forrásadattárból, és megfelelteti őket a célsémához, az Adatok másolása eszköz elkezdi elemezni a mindkét oldalról kiválasztott oszloppárok mintáját. Ezután ugyanezt a mintát alkalmazza a többi oszlopra is. Ezért láthatja, hogy az összes oszlop megfeleltetve lett a célhelyre a kívánt módon, néhány kattintás után. Ha nem elégedett az Adatok másolása eszköz által biztosított oszlopleképezés kiválasztásával, figyelmen kívül hagyhatja, és folytathatja az oszlopok manuális leképezését. Közben az Adatok másolása eszköz folyamatosan tanulja és frissíti a mintát, és végül eléri a megfelelő mintát az elérni kívánt oszlopleképezéshez.

Megjegyzés:

Ha adatokat másol az SQL Serverről vagy az Azure SQL Database-ből az Azure Synapse Analyticsbe, ha a tábla nem létezik a céltárolóban, az Adatok másolása eszköz a forrásséma használatával automatikusan támogatja a tábla létrehozását.

Adatok szűrése

A forrásadatok szűrésével csak azokat az adatokat választhatja ki, amelyeket át kell másolni a fogadó adattárba. A szűrés csökkenti a fogadó adattárba másolandó adatok mennyiségét, és ezáltal növeli a másolási művelet átviteli sebességét. Az Adatok másolása eszköz rugalmas módot biztosít a relációs adatbázisok adatainak szűrésére az SQL-lekérdezési nyelv vagy egy Azure-blobmappában lévő fájlok használatával.

Adatok szűrése egy adatbázisban

Az alábbi képernyőképen egy SQL-lekérdezés látható az adatok szűréséhez.

Filter data in a database

Adatok szűrése Egy Azure Blob-mappában

A mappa elérési útján változók használatával adatokat másolhat egy mappából. A támogatott változók a következők: {year}, {month}, {day}, {hour} és {minute}. Például: inputfolder/{year}/{month}/{day}.

Tegyük fel, hogy a bemeneti mappák a következő formátumban vannak:

2016/03/01/01
2016/03/01/02
2016/03/01/03
...

Kattintson a Fájl vagy mappa Tallózás gombjára, keresse meg az egyik mappát (például 2016-03-01-02>>>), majd kattintson a Kiválasztás gombra. A szövegmezőben 2016.03.01.02.

Ezután cserélje le a 2016-ot a következőre: {year}, 03 a {month}, a 01 a {day}, a 02pedig {hour}, majd nyomja le a Tab billentyűt. Ha a Növekményes betöltést választja: az időparticionált mappa/fájlnevek a Fájlbetöltés viselkedése szakaszban, és a Tulajdonságok lapon az Ütemezés vagy a Átfedés ablak lehetőséget választja, a legördülő listákban meg kell jelennie a következő négy változó formátumának kiválasztásához:

Filter file or folder

Az Adatok másolása eszköz olyan kifejezéseket, függvényeket és rendszerváltozókat tartalmazó paramétereket hoz létre, amelyek a folyamat létrehozásakor {year}, {month}, {day}, {hour} és {minute} jelölésére használhatók.

Ütemezési beállítások

A másolási műveletet egyszer vagy ütemezés szerint (óránként, naponta stb.) futtathatja. Ezek a lehetőségek különböző környezetek összekötőihez használhatók, beleértve a helyszíni, a felhőbeli és a helyi asztalt is.

Az egyszeri másolási művelet csak egyszer teszi lehetővé a forrásból a célhelyre történő adatáthelyezést. Bármilyen méretű és bármilyen támogatott formátumú adatokra vonatkozik. Az ütemezett másolással adatokat másolhat egy megadott ismétlődésről. Az ütemezett másolat konfigurálásához gazdag beállításokat (például újrapróbálkozás, időtúllépés és riasztások) használhat.

Scheduling options

Próbálja ki az alábbi oktatóanyagokat, amelyek az Adatok másolása eszközt használják: