Adatintegrációs minták leírása

6 perc

A Microsoft Azure számos különböző adatplatform-szolgáltatást biztosít, amelyek lehetővé teszik a különböző típusú elemzések elvégzését. Legyen szó egy adattárházban található leíró elemzési megoldásról, a HDInsighton, az Azure Databricksen vagy a Machine Tanulás Servicesen belüli prediktív elemzéseken keresztül. Szükség van egy szolgáltatásra az adatintegráció fontos aspektusának kezeléséhez.

Az adatintegráció először egy vagy több forrásból származó adatok gyűjtését foglalja magában. Opcionálisan ez általában egy olyan folyamatot is magában foglal, amelyben az adatok megtisztíthatók és átalakíthatók, vagy esetleg további adatokkal bővíthetők és előkészíthetők. Végül az összeolvadt adatokat egy adatplatform-szolgáltatás tárolja, amely a végrehajtani kívánt elemzés típusát kezeli. Ezt a folyamatot az Azure Data Factory automatizálhatja a kinyerés, átalakítás és betöltés (ETL) néven ismert mintában.

Kinyerés

A kinyerés során az adatszakértők meghatározzák az adatokat és azok forrását:

Adja meg az adatforrást: Azonosítsa a forrásadatokat, például az erőforráscsoportot, az előfizetést és az identitásadatokat, például kulcsokat vagy titkos kulcsokat.
Adja meg az adatokat: Azonosítsa a kinyerni kívánt adatokat. Az adatokat definiálhatja adatbázis-lekérdezéssel, fájlkészlettel vagy egy Azure Blob Storage-névvel.

Átalakítás

Az adatátalakítás definiálása: Az adatátalakítási műveletek tartalmazhatnak oszlopok felosztását, kombinálását, származtatását, hozzáadását, eltávolítását vagy elforgatását. Az adatforrás és az adatcél közti mezők leképezése. Előfordulhat, hogy összesítenie vagy egyesítenie kell az adatokat.

Betöltés

Adja meg a célhelyet: A betöltés során számos Azure-célhely fogadhatja el a JavaScript Object Notation (JSON), fájl vagy blob formátumú adatokat. Előfordulhat, hogy kódot kell írnia az alkalmazás API-jával való működéshez.

Az Azure Data Factory beépített támogatást nyújt az Azure Functions szolgáltatáshoz. Emellett számos programnyelvet is támogat, így a Node.js, a .NET, a Python és a Java nyelveket is. Bár a múltban gyakori volt az Extensible Markup Language (XML) használata, a legtöbb rendszer JSON-ra migrált, mivel ez a formátum nagyobb rugalmasságot nyújt részben strukturált adattípusként.
Indítsa el a feladatot: Tesztelje az ETL-feladatot fejlesztési vagy tesztelési környezetben. Ezután migrálja a feladatot éles környezetbe az éles rendszer betöltéséhez.
A feladat monitorozása: Az ETL-műveletek számos összetett folyamatot tartalmazhatnak. Egy proaktív és reaktív figyelőrendszer beállításával információt nyerhet, ha hiba történik. Állítsa be a naplózást az azt használó technológiának megfelelően.

ETL-eszközök

Adatszakértőként számos eszköz áll rendelkezésre az ETL-hez. Az Azure Data Factory közel 100 nagyvállalati összekötőt és robusztus erőforrást biztosít kód nélküli és kódalapú felhasználók számára az adatáthelyezési és átalakítási igények teljesítéséhez.

Továbblépés az ETL-ről

Az Azure térnyerésével olyan technológiák is megjelentek, amelyek korlátlan mennyiségben képesek strukturálatlan adatokat kezelni. Ez a változás azt jelenteti, hogy az adatok betöltésének és átalakításának paradigmája az ETL felől a kinyerés, betöltés és átalakítás (ELT) felé tolódott el.

Az ELT előnye, hogy az adatok az eredeti formátumban tárolhatók, legyen az JSON, XML, PDF vagy kép. Az ELT módszerrel Ön adhatja meg az adatstruktúrát az átalakítási fázisban, így több lefelé irányuló rendszerben is használhatja a forrásadatokat.

Egy ELT folyamatban a rendszer natív formátumban nyeri ki és tölti be az adatokat. Ez csökkeni az adatbetöltéshez szükséges időt. A változás emellett az adatforrások erőforrásversenyét is korlátozza.

Az ELT folyamat lépései megegyeznek az ETL folyamat lépéseivel. Csak más sorrendben történnek.

Létezik még egy hasonló folyamat, amelyet kinyerés, betöltés, átalakítás és betöltés (ELTL) folyamatnak nevezünk. A ELTL annyiban tér el, hogy utolsó lépésként a célrendszerbe való betöltés szerepel.

Az Azure Data Factory kétféle adatintegrációs mintát támogat.

Modern adattárház számítási feladatai:

A Modern Adattárház egy központosított adattár, amely leíró elemzési és döntéstámogatási szolgáltatásokat nyújt az egész vállalat számára strukturált, strukturálatlan vagy streamelt adatforrások használatával. Az adatok rendszeresen több tranzakciós rendszerből, relációs adatbázisból és más adatforrásból áramlanak az adattárházba. A tárolt adatok előzmények és trendelemzések jelentéséhez használatosak. Az adattárház központi adattárként szolgál számos tárgyterületnél, és tartalmazza az „egyetlen hitelesítési forrást”.

Az Azure Data Factory általában az adatok kinyerésének, átalakításának és betöltésének folyamatának automatizálására szolgál kötegelt folyamaton keresztül strukturált és strukturálatlan adatforrásokkal.

Speciális analitikai számítási feladatok

Számos Azure-adatplatform-szolgáltatás használatával prediktív vagy preemptív elemzések formájában végezhet speciális elemzéseket. Az Azure Data Factory biztosítja a forrásrendszerek integrálását egy Data Lake-tárolóba, és olyan számítási erőforrásokat kezdeményezhet, mint az Azure Databricks vagy a HDInsight, hogy az adatokat a fejlett elemzési munka elvégzéséhez használják

Folytatás