Adatok átalakítása az Azure Data Factoryben és az Azure Synapse Analyticsben

Cikk
03/08/2024

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Fontos

Az Azure Machine Tanulás Studio (klasszikus) támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy a dátumig váltson az Azure Machine Tanulás.

2021. december 1-től nem hozhat létre új Machine Tanulás Studio-erőforrásokat (munkaterület- és webszolgáltatás-csomagot). 2024. augusztus 31-ig továbbra is használhatja a machine Tanulás Studio (klasszikus) kísérleteket és webszolgáltatásokat. További információkért lásd:

A Machine Tanulás Studio (klasszikus) dokumentációja kivezetés alatt áll, és előfordulhat, hogy a jövőben nem frissül.

Áttekintés

Ez a cikk az Azure Data Factory és a Synapse-folyamatok adatátalakítási tevékenységeit ismerteti, amelyekkel a nyers adatokat nagy léptékű előrejelzésekké és elemzésekké alakíthatja és feldolgozhatja. Az átalakítási tevékenység olyan számítástechnikai környezetben történik, mint az Azure Databricks vagy az Azure HDInsight. Az egyes átalakítási tevékenységekről részletes információkat tartalmazó cikkekre mutató hivatkozásokat tartalmaz.

A szolgáltatás az alábbi adatátalakítási tevékenységeket támogatja, amelyek egyenként vagy más tevékenységgel láncolt folyamatokhoz adhatók hozzá.

Natív átalakítás az Azure Data Factoryben és az Azure Synapse Analyticsben adatfolyamokkal

Adatfolyamok leképezése

A leképezési adatfolyamok vizuálisan megtervezett adatátalakítások az Azure Data Factoryben és az Azure Synapse-ban. Az adatfolyamokkal az adatmérnökök kódírás nélkül fejleszthetnek grafikus adatátalakítási logikát. Az eredményként kapott adatfolyamok olyan folyamatok tevékenységeiként lesznek végrehajtva, amelyek kibővített Spark-fürtöket használnak. Az adatfolyam-tevékenységek a szolgáltatáson belüli meglévő ütemezési, vezérlési, folyamat- és monitorozási képességekkel kezelhetők. További információ: adatfolyamok leképezése.

Adatkonvergálás

Az Azure Data Factory power queryje lehetővé teszi a felhőalapú adatkonvergálást, amely lehetővé teszi a kód nélküli adatelőkészítést felhőbeli skálázási iteratív módon. Az adatkonvergálás integrálható a Power Query Online-nal, és a Power Query M-függvényeket elérhetővé teszi a felhőbeli adatátszervezéshez spark-végrehajtással. További információkért tekintse meg az Azure Data Factory adatmegrendezését.

Feljegyzés

A Power Query jelenleg csak az Azure Data Factoryben támogatott, az Azure Synapse-ban nem. Az egyes szolgáltatásokban támogatott funkciók listáját az Azure Data Factory és az Azure Synapse Analytics-folyamatok elérhető funkciói című témakörben találja.

Külső átalakítások

Igény szerint manuálisan is elvégezheti az átalakításokat, és saját maga kezelheti a külső számítási környezetet.

HDInsight Hive-tevékenység

A folyamat HDInsight Hive-tevékenysége saját vagy igény szerinti Windows/Linux-alapú HDInsight-fürtön hajtja végre a Hive-lekérdezéseket. A tevékenység részleteiért tekintse meg a Hive-tevékenységről szóló cikket.

HDInsight Pig-tevékenység

A folyamat HDInsight Pig-tevékenysége saját vagy igény szerinti Windows/Linux-alapú HDInsight-fürtön hajtja végre a Pig-lekérdezéseket. A tevékenység részleteiért tekintse meg a Pig tevékenységről szóló cikket.

HDInsight MapReduce-tevékenység

A folyamat HDInsight MapReduce-tevékenysége a MapReduce-programokat saját vagy igény szerinti Windows/Linux-alapú HDInsight-fürtön hajtja végre. A tevékenység részleteiért tekintse meg a MapReduce tevékenységről szóló cikket.

HDInsight Streaming-tevékenység

A folyamat HDInsight Streaming-tevékenysége saját vagy igény szerinti Windows/Linux-alapú HDInsight-fürtön hajtja végre a Hadoop Streaming-programokat. Erről a tevékenységről további információt a HDInsight Streaming tevékenységében talál.

HDInsight Spark-tevékenység

A folyamat HDInsight Spark-tevékenysége Spark-programokat hajt végre a saját HDInsight-fürtöjén. További információ: Spark-programok meghívása az Azure Data Factory vagy az Azure Synapse Analytics használatával.

ML Studio (klasszikus) tevékenységek

Fontos

Az Azure Machine Tanulás Studio (klasszikus) támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy a dátumig váltson az Azure Machine Tanulás.

A Machine Tanulás Studio (klasszikus) dokumentációja kivezetés alatt áll, és előfordulhat, hogy a jövőben nem frissül.

A szolgáltatás lehetővé teszi, hogy könnyen hozzon létre folyamatokat, amelyek egy közzétett ML Studio (klasszikus) webszolgáltatást használnak prediktív elemzéshez. A Batch-végrehajtási tevékenység folyamaton belüli használatával meghívhat egy Studio (klasszikus) webszolgáltatást, amely előrejelzéseket készít a kötegben lévő adatokról.

Idővel a Studio (klasszikus) pontozási kísérleteinek prediktív modelljeit új bemeneti adatkészletek használatával kell újratanulni. Miután végzett az újratanítással, frissítenie kell a pontozó webszolgáltatást az újratanított gépi tanulási modellel. Az Erőforrás frissítése tevékenységgel frissítheti a webszolgáltatást az újonnan betanított modellel.

A Studio (klasszikus) tevékenységeinek részleteiért tekintse meg az ML Studio (klasszikus) tevékenységeinek használatát.

Tárolt eljárástevékenység

A Data Factory-folyamatokban az SQL Server tárolt eljárás tevékenységével meghívhat egy tárolt eljárást az alábbi adattárak egyikében: Azure SQL Database, Azure Synapse Analytics, SQL Server Database a vállalatában vagy egy Azure-beli virtuális gépen. Részletekért lásd a Tárolt eljárás tevékenységről szóló cikket.

Data Lake Analytics U-SQL-tevékenység

A Data Lake Analytics U-SQL-tevékenysége U-SQL-szkriptet futtat egy Azure Data Lake Analytics-fürtön. Részletekért tekintse meg a Data Analytics U-SQL-tevékenységről szóló cikkét.

Azure Synapse Notebook-tevékenység

A Synapse-folyamat Azure Synapse Notebook-tevékenysége egy Synapse-jegyzetfüzetet futtat az Azure Synapse-munkaterületen. Tekintse meg az adatok átalakítását egy Azure Synapse-jegyzetfüzet futtatásával.

Databricks Notebook-tevékenység

A folyamat Azure Databricks-jegyzetfüzet-tevékenysége egy Databricks-jegyzetfüzetet futtat az Azure Databricks-munkaterületen. Az Azure Databricks egy felügyelt platform az Apache Spark futtatásához. Lásd: Adatok átalakítása Databricks-jegyzetfüzet futtatásával.

Databricks Jar-tevékenység

Az Azure Databricks Jar-tevékenység egy folyamatban spark jart futtat az Azure Databricks-fürtön. Az Azure Databricks egy felügyelt platform az Apache Spark futtatásához. Lásd: Adatok átalakítása Jar-tevékenység azure Databricksben való futtatásával.

Databricks Python-tevékenység

A folyamat Azure Databricks Python-tevékenysége egy Python-fájlt futtat az Azure Databricks-fürtben. Az Azure Databricks egy felügyelt platform az Apache Spark futtatásához. Lásd: Adatok átalakítása Python-tevékenység Azure Databricksben való futtatásával.

Egyéni tevékenység

Ha olyan módon kell átalakítania az adatokat, amelyet a Data Factory nem támogat, létrehozhat egy egyéni tevékenységet saját adatfeldolgozási logikájával, és használhatja a folyamatot. Az egyéni .NET-tevékenységet úgy konfigurálhatja, hogy egy Azure Batch-szolgáltatás vagy egy Azure HDInsight-fürt használatával fusson. Részletekért lásd az Egyéni tevékenységek használata című cikket.

Létrehozhat egy egyéni tevékenységet R-parancsfájlok futtatására egy olyan HDInsight-fürtön, amelyen telepítve van az R. Lásd: R-szkript futtatása az Azure Data Factory és a Synapse-folyamatok használatával.

Számítási környezetek

Létrehoz egy társított szolgáltatást a számítási környezethez, majd egy átalakítási tevékenység definiálásakor használja a társított szolgáltatást. A számítási környezetek két támogatott típusa létezik.

Igény szerinti: Ebben az esetben a számítási környezetet teljes mértékben a szolgáltatás felügyeli. A szolgáltatás automatikusan létrehozza, mielőtt egy feladat elküldené az adatok feldolgozására, és eltávolítja a feladat befejezésekor. Konfigurálhatja és szabályozhatja az igény szerinti számítási környezet részletes beállításait a feladatok végrehajtásához, a fürtkezeléshez és a rendszerindítási műveletekhez.
Saját használat: Ebben az esetben regisztrálhatja a saját számítási környezetét (például HDInsight-fürtöt) társított szolgáltatásként. A számítási környezetet Ön felügyeli, és a szolgáltatás a tevékenységek végrehajtásához használja.

A támogatott számítási szolgáltatásokról a Compute Linked Services cikk nyújt tájékoztatást.

Az átalakítási tevékenység használatára az alábbi oktatóanyagban talál példát: Oktatóanyag: adatok átalakítása a Spark használatával