Tutorial: Membuat alur pertama untuk mengubah data menggunakan kluster Hadoop

Catatan

Artikel ini berlaku untuk versi 1 dari Data Factory. Jika Anda menggunakan versi layanan Data Factory saat ini, lihat Mulai Cepat: Membuat pabrik data menggunakan Azure Data Factory.

Dalam tutorial ini, Anda membuat pabrik data Azure pertama Anda dengan alur data. Alur mengubah data input dengan menjalankan skrip Apache Hive di kluster Microsoft Azure HDInsight (Hadoop) untuk menghasilkan data output.

Artikel ini memberikan gambaran umum dan prasyarat untuk tutorial. Setelah Anda menyelesaikan prasyarat, Anda dapat melakukan tutorial menggunakan salah satu alat/SDK berikut: Visual Studio, PowerShell, Template Resource Manager, REST API. Pilih salah satu opsi di menu drop-down di awal (atau) tautan di akhir artikel ini untuk melakukan tutorial menggunakan salah satu opsi ini.

Gambaran umum tutorial

Dalam tutorial ini, Anda akan melakukan langkah-langkah berikuti:

  1. Membuat pabrik data. Pabrik data dapat berisi satu atau beberapa alur data yang memindahkan dan mengubah data.

    Dalam tutorial ini, Anda akan membuat satu alur di pabrik data.

  2. Membuat alur. Alur dapat memiliki satu atau beberapa aktivitas (Contoh: Aktivitas Penyalinan, HDInsight Apache Hive Activity). Contoh ini menggunakan aktivitas HDInsight Hive yang menjalankan skrip Apache Hive pada kluster HDInsight Hadoop. Pertama-tama, skrip membuat tabel yang mereferensikan data log web mentah yang disimpan di penyimpanan blob Azure, lalu mempartisi data mentah menurut tahun dan bulan.

    Dalam tutorial ini, alur akan menggunakan Hive Activity untuk mengubah data dengan menjalankan kueri Apache Hive pada kluster Azure HDInsight Hadoop.

  3. Membuat layanan tertaut. Anda akan membuat layanan tertaut untuk menghubungkan penyimpanan data atau layanan komputasi ke pabrik data. Penyimpanan data seperti Microsoft Azure Storage menyimpan data input/output aktivitas di alur. Layanan komputasi seperti kluster HDInsight Hadoop memproses/mengubah data.

    Dalam tutorial ini, Anda akan membuat dua layanan tertaut: Microsoft Azure Storage dan Microsoft Azure HDInsight. Layanan tertaut Microsoft Azure Storage menautkan Akun Microsoft Azure Storage yang menyimpan data input/output ke pabrik data. Layanan tertaut Microsoft Azure HDInsight menautkan kluster Microsoft Azure HDInsight yang digunakan untuk mengubah data ke pabrik data.

  4. Membuat himpunan data input dan output. Himpunan data input mewakili input untuk aktivitas di alur dan himpunan data output mewakili output untuk aktivitas tersebut.

    Dalam tutorial ini, himpunan data input dan output menentukan lokasi data input dan output di Azure Blob Storage. Layanan tertaut Microsoft Azure Storage menentukan apa yang digunakan oleh Akun Microsoft Azure Storage. Himpunan data input menentukan tempat file input berada dan himpunan output menentukan tempat file output ditempatkan.

Lihat artikel Pengantar Azure Data Factory untuk gambaran umum terperinci tentang Azure Data Factory.

Berikut adalah tampilan diagram dari contoh pabrik data yang Anda buat dalam tutorial ini. MyFirstPipeline memiliki satu aktivitas Apache Hive yang menggunakan kumpulan data AzureBlobInput sebagai input dan menghasilkan kumpulan data AzureBlobOutput sebagai output.

Diagram view in Data Factory tutorial

Dalam tutorial ini, folder inputdata dari kontainer blob Azure adfgetstarted berisi satu file bernama input.log. File log ini memiliki entri dari tiga bulan: Januari, Februari, dan Maret 2016. Berikut adalah contoh baris untuk setiap bulan di file input.

2016-01-01,02:01:09,SAMPLEWEBSITE,GET,/blogposts/mvc4/step2.png,X-ARR-LOG-ID=2ec4b8ad-3cf0-4442-93ab-837317ece6a1,80,-,1.54.23.196,Mozilla/5.0+(Windows+NT+6.3;+WOW64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/31.0.1650.63+Safari/537.36,-,http://weblogs.asp.net/sample/archive/2007/12/09/asp-net-mvc-framework-part-4-handling-form-edit-and-post-scenarios.aspx,\N,200,0,0,53175,871
2016-02-01,02:01:10,SAMPLEWEBSITE,GET,/blogposts/mvc4/step7.png,X-ARR-LOG-ID=d7472a26-431a-4a4d-99eb-c7b4fda2cf4c,80,-,1.54.23.196,Mozilla/5.0+(Windows+NT+6.3;+WOW64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/31.0.1650.63+Safari/537.36,-,http://weblogs.asp.net/sample/archive/2007/12/09/asp-net-mvc-framework-part-4-handling-form-edit-and-post-scenarios.aspx,\N,200,0,0,30184,871
2016-03-01,02:01:10,SAMPLEWEBSITE,GET,/blogposts/mvc4/step7.png,X-ARR-LOG-ID=d7472a26-431a-4a4d-99eb-c7b4fda2cf4c,80,-,1.54.23.196,Mozilla/5.0+(Windows+NT+6.3;+WOW64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/31.0.1650.63+Safari/537.36,-,http://weblogs.asp.net/sample/archive/2007/12/09/asp-net-mvc-framework-part-4-handling-form-edit-and-post-scenarios.aspx,\N,200,0,0,30184,871

Ketika file diproses oleh alur dengan HDInsight Hive Activity, aktivitas menjalankan skrip Apache Hive di kluster HDInsight yang mempartisi data input menurut tahun dan bulan. Skrip akan membuat tiga folder output yang berisi file dengan entri dari setiap bulan.

adfgetstarted/partitioneddata/year=2016/month=1/000000_0
adfgetstarted/partitioneddata/year=2016/month=2/000000_0
adfgetstarted/partitioneddata/year=2016/month=3/000000_0

Dari baris contoh yang ditunjukkan di atas, yang pertama (dengan 01-01-2016) ditulis ke file 000000_0 di folder month=1. Demikian pula, yang kedua ditulis ke file di folder month=2 dan yang ketiga ditulis ke file di folder month=3.

Prasyarat

Sebelum memulai tutorial ini, Anda harus memiliki prasyarat berikut:

  1. Langganan Azure - Jika Anda tidak memiliki langganan Azure, Anda dapat membuat akun percobaan gratis hanya dalam waktu beberapa menit. Lihat artikel Coba Gratis tentang cara mendapatkan akun percobaan gratis.
  2. Microsoft Azure Storage – Anda menggunakan akun Microsoft Azure Storage untuk menyimpan data dalam tutorial ini. Jika Anda tidak memiliki akun Microsoft Azure Storage, lihat artikel Membuat akun penyimpanan. Setelah Anda membuat akun penyimpanan, catat nama akun dan kunci akses. Untuk informasi tentang cara mengambil kunci akses akun penyimpanan, lihat Mengelola kunci akses akun penyimpanan.
  3. Unduh dan tinjau file kueri Apache Hive (HQL) yang terletak di: https://adftutorialfiles.blob.core.windows.net/hivetutorial/partitionweblogs.hql. Kueri ini akan mengubah data input untuk menghasilkan data output.
  4. Unduh dan tinjau file input contoh (input.log) yang terletak di: https://adftutorialfiles.blob.core.windows.net/hivetutorial/input.log
  5. Buat kontainer blob bernama adfgetstarted di Azure Blob Storage Anda.
  6. Unggah file partitionweblogs.hql ke folder skrip dalam kontainer adfgetstarted. Gunakan alat seperti Microsoft Azure Storage Explorer.
  7. Unggah file input.log ke folder inputdata di kontainer adfgetstarted.

Setelah Anda menyelesaikan prasyarat, pilih salah satu alat/SDK berikut untuk mempraktikkan tutorial:

Visual Studio menyediakan cara GUI untuk membuat pabrik data Anda. Sedangkan opsi PowerShell, Templat Resource Manager, dan REST API menyediakan cara skrip/pemrograman untuk membuat pabrik data Anda.

Catatan

Alur data dalam tutorial ini mengubah data input untuk menghasilkan data output. Ini tidak menyalin data dari penyimpanan data sumber ke penyimpanan data tujuan. Untuk tutorial tentang cara menyalin data dengan menggunakan Azure Data Factory, lihat Tutorial: Menyalin data dari Azure Blob Storage ke Microsoft Azure SQL Database.

Anda dapat merangkai dua aktivitas (menjalankan satu aktivitas setelah aktivitas lainnya) dengan mengatur himpunan data output dari satu aktivitas sebagai himpunan data input dari aktivitas lainnya. Lihat Penjadwalan dan eksekusi di Azure Data Factory untuk informasi mendetail.