Oktatóanyag: Az első adatátalakítási folyamat létrehozása Hadoop-fürt használatával

Megjegyzés

Ez a cikk a Data Factory 1-es verziójára vonatkozik. Ha a Data Factory szolgáltatás aktuális verzióját használja, tekintse meg az adat-előállító Azure Data Factoryvel való létrehozását ismertető rövid útmutatót.

Ebben az oktatóanyagban az első Azure-beli adat-előállítóját egy folyamat segítségével építi fel. A folyamat úgy alakítja át a bemeneti adatokat, hogy Hive-szkriptet futtat egy Azure HDInsight -fürtön a kimeneti adatok előállításához.

Ez a cikk az oktatóanyag áttekintését és előfeltételeit biztosítja. Az előfeltételek befejezése után az oktatóanyagot a következő eszközök/SDK-k egyikével használhatja: Visual Studio, PowerShell, Resource Manager sablon, REST API. Válassza ki a cikk végén található legördülő lista egyik beállítását (vagy) a cikk végén található hivatkozásokat, hogy az oktatóanyagot ezen lehetőségek egyikének használatával tudja megtenni.

Az oktatóanyag áttekintése

Az oktatóanyagban az alábbi lépéseket fogja végrehajtani:

  1. Hozzon létre egy adat-előállítót. Egy adat-előállító egy vagy több olyan folyamatból is tartalmazhat, amely adatokat mozgat és alakít át.

    Ebben az oktatóanyagban egy folyamatot hoz létre az adat-előállítóban.

  2. Hozzon létre egy folyamatot. Egy folyamat egy vagy több tevékenységgel is lehet (például: másolási tevékenység, HDInsight Hive-tevékenység). Ez a minta a HDInsight Hive-tevékenységet használja, amely egy Hive-szkriptet futtat egy HDInsight Hadoop-fürtön. A szkript először létrehoz egy táblát, amely az Azure Blob Storage-ban tárolt nyers webes naplóadatokra hivatkozik, majd év és hónap szerint particionálta a nyers adatokat.

    Ebben az oktatóanyagban a folyamat a Hive-tevékenységgel alakítja át az adatokat egy Hive-lekérdezés futtatásával egy Azure HDInsight Hadoop fürtön.

  3. Hozzon létre összekapcsolt szolgáltatásokat. Létrehoz egy összekapcsolt szolgáltatást, amely egy adattárat vagy egy számítási szolgáltatást kapcsol az adat-előállítóhoz. Egy adattár, például az Azure Storage a folyamat tevékenységeinek bemeneti/kimeneti adatait tárolja. Egy számítási szolgáltatás, például a HDInsight Hadoop-fürt feldolgozza/átalakítja az adatokat.

    Ebben az oktatóanyagban két összekapcsolt szolgáltatást hoz létre: az Azure Storage és a Azure HDInsight. Az Azure Storage szolgáltatás összekapcsol egy Azure Storage-fiókot, amely a bemeneti/kimeneti adatokat az adat-előállítóhoz csatolja. Azure HDInsight szolgáltatás összekapcsol egy Azure HDInsight fürtöt, amely az adatok adat-előállítóvá való átalakítására használható.

  4. Bemeneti és kimeneti adatkészletek létrehozása. A bemeneti adatkészletek a folyamattevékenységek bemenetét jelölik, a kimeneti adatkészletek pedig a tevékenységek kimeneteit.

    Ebben az oktatóanyagban a bemeneti és kimeneti adatkészletek határozzák meg a bemeneti és kimeneti adatok helyét az Azure Blob Storage. Az Azure Storage szolgáltatás határozza meg a használt Azure Storage-fiókot. A bemeneti adatkészlet határozza meg a bemeneti fájlok helyének, a kimeneti adatkészlet pedig a kimeneti fájlok helyének a beállítását.

A Azure Data Factory részletes áttekintését a Bevezetés Azure Data Factory.

Itt látható az oktatóanyagban létrehozott mintaadat-előállító diagramnézete. A MyFirstPipeline egyetlen Hive típusú tevékenységgel rendelkezik, amely bemenetként az AzureBlobInput adatkészletet használja, és kimenetként állítja elő az AzureBlobOutput adatkészletet.

Diagramnézet a Data Factory oktatóanyagban

Ebben az oktatóanyagban az adfgetstarted Azure Blob-tároló inputdata mappája egy input.log nevű fájlt tartalmaz. Ez a naplófájl három hónap bejegyzéseiből áll: 2016. január, február és március. A bemeneti fájlban az egyes hónaphoz a következő mintasorok vannak bevetve.

2016-01-01,02:01:09,SAMPLEWEBSITE,GET,/blogposts/mvc4/step2.png,X-ARR-LOG-ID=2ec4b8ad-3cf0-4442-93ab-837317ece6a1,80,-,1.54.23.196,Mozilla/5.0+(Windows+NT+6.3;+WOW64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/31.0.1650.63+Safari/537.36,-,http://weblogs.asp.net/sample/archive/2007/12/09/asp-net-mvc-framework-part-4-handling-form-edit-and-post-scenarios.aspx,\N,200,0,0,53175,871
2016-02-01,02:01:10,SAMPLEWEBSITE,GET,/blogposts/mvc4/step7.png,X-ARR-LOG-ID=d7472a26-431a-4a4d-99eb-c7b4fda2cf4c,80,-,1.54.23.196,Mozilla/5.0+(Windows+NT+6.3;+WOW64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/31.0.1650.63+Safari/537.36,-,http://weblogs.asp.net/sample/archive/2007/12/09/asp-net-mvc-framework-part-4-handling-form-edit-and-post-scenarios.aspx,\N,200,0,0,30184,871
2016-03-01,02:01:10,SAMPLEWEBSITE,GET,/blogposts/mvc4/step7.png,X-ARR-LOG-ID=d7472a26-431a-4a4d-99eb-c7b4fda2cf4c,80,-,1.54.23.196,Mozilla/5.0+(Windows+NT+6.3;+WOW64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/31.0.1650.63+Safari/537.36,-,http://weblogs.asp.net/sample/archive/2007/12/09/asp-net-mvc-framework-part-4-handling-form-edit-and-post-scenarios.aspx,\N,200,0,0,30184,871

Ha a folyamat feldolgozta a fájlt a HDInsight Hive-tevékenységgel, a tevékenység egy Hive-szkriptet futtat a HDInsight-fürtön, amely év és hónap szerint particionálta a bemeneti adatokat. A szkript három kimeneti mappát hoz létre, amelyek minden hónapban egy-egy fájlt tartalmaznak.

adfgetstarted/partitioneddata/year=2016/month=1/000000_0
adfgetstarted/partitioneddata/year=2016/month=2/000000_0
adfgetstarted/partitioneddata/year=2016/month=3/000000_0

A fenti mintasorok közül az első (a 2016-01-01 értékekkel) a 000000_0 fájlba van írva a month=1 mappában. Hasonlóképpen, a második a month=2 mappában lévő fájlba, a harmadik pedig a month=3 mappába kerül.

Előfeltételek

Az oktatóanyag megkezdése előtt a következő előfeltételeknek kell megfelelnie:

  1. Azure-előfizetés – Ha nem rendelkezik Azure-előfizetéssel, néhány perc alatt létrehozhat egy ingyenes próbafiókot. Az ingyenes próbafiók beszerzéséről az ingyenes próbaverzióról olvashat.
  2. Azure Storage – Ebben az oktatóanyagban egy Azure Storage-fiókot fog használni az adatok tárolására. Ha még nincs Azure Storage-fiókja, tekintse meg a Tárfiók létrehozása cikket. A tárfiók létrehozása után jegyezze fel a fiók nevét és hozzáférési kulcsát. További információ a tárfiók hozzáférési kulcsának lekérésével kapcsolatban: Manage storage account access keys (Tárfiók hozzáférési kulcsának kezelése).
  3. Töltse le és tekintse át a Hive-lekérdezésfájlt (HQL), amely a következő helyen található: https://adftutorialfiles.blob.core.windows.net/hivetutorial/partitionweblogs.hql . Ez a lekérdezés átalakítja a bemeneti adatokat a kimeneti adatok előállításához.
  4. Töltse le és tekintse át a bemeneti mintafájlt (input.log), amely a következő helyen található: https://adftutorialfiles.blob.core.windows.net/hivetutorial/input.log
  5. Hozzon létre egy adfgetstarted nevű blobtárolót az Azure Blob Storage.
  6. Töltse fel a partitionweblogs.hql fájlt az adfgetstarted tároló script mappájába. Olyan eszközöket használjon, mint a Microsoft Azure Storage Explorer.
  7. Töltse fel az input.log fájlt az adfgetstarted tároló inputdata mappájába.

Az előfeltételek befejezése után válassza ki az alábbi eszközök/SDK-k egyikét az oktatóanyag éhez:

Visual Studio grafikus felhasználói felület biztosít az adat-üzemek építéséhez. Míg a PowerShell, Resource Manager template és REST API lehetőségek szkriptekkel/programozással biztosítják az adat-gyárak építésének módját.

Megjegyzés

Az oktatóanyagban található adatfolyamat átalakítja a bemeneti adatokat, hogy ezzel kimeneti adatokat hozzon létre. A forrásadattár adatait nem másolja egy céladattárba. Az adatok Azure Data Factory használatával történő másolásának útmutatásáért olvassa el az adatok Blob Storage-ból SQL Database-be történő másolását ismertető oktatóanyagot.

Összefűzhet két tevékenységet (vagyis egymás után futtathatja őket), ha az egyik tevékenység kimeneti adatkészletét a másik tevékenység bemeneti adatkészleteként állítja be. Lásd a Data Factorybeli ütemezést és végrehajtást ismertető cikket.