Tutorial: Membuat alur Data Factory yang memindahkan data menggunakan Azure PowerShell
Catatan
Artikel ini berlaku untuk versi 1 dari Data Factory. Jika Anda menggunakan versi layanan Data Factory saat ini, lihat tutorial aktivitas salin.
Di artikel ini, Anda mempelajari cara menggunakan PowerShell untuk membuat pabrik data dengan alur yang menyalin data dari penyimpanan blob Azure ke Azure SQL Database. Jika Anda baru menggunakan Azure Data Factory, baca artikel Pengenalan Azure Data Factory sebelum melakukan tutorial ini.
Dalam tutorial ini, Anda membuat alur dengan satu aktivitas di dalamnya: Aktivitas Salin. Aktivitas salin menyalin data dari penyimpanan data yang didukung ke penyimpanan data sink yang didukung. Untuk daftar penyimpanan data yang didukung sebagai sumber dan sink, lihat penyimpanan data yang didukung. Aktivitas ini didukung oleh layanan yang tersedia secara global yang dapat menyalin data antara berbagai penyimpanan data dengan cara yang aman, andal, dan dapat diskalakan. Untuk informasi selengkapnya tentang Aktivitas Salin, lihat Aktivitas Pergerakan Data.
Sebuah alur dapat memiliki lebih dari satu aktivitas. Selain itu, Anda dapat merangkai dua aktivitas (menjalankan satu demi satu aktivitas) dengan mengatur himpunan data output dari satu aktivitas sebagai himpunan data input aktivitas lainnya. Untuk informasi selengkapnya, lihat beberapa aktivitas dalam alur.
Catatan
Artikel ini tidak mencakup semua cmdlet Data Factory. Lihat Referensi Cmdlet Data Factory untuk dokumentasi komprehensif tentang cmdlet ini.
Alur data dalam tutorial ini menyalin data dari penyimpanan data sumber ke penyimpanan data tujuan. Untuk tutorial tentang cara mengubah data menggunakan Azure Data Factory, lihat Tutorial: Membangun alur untuk mengubah data menggunakan kluster Hadoop.
Prasyarat
Catatan
Artikel ini menggunakan modul Azure Az PowerShell, yang merupakan modul PowerShell yang direkomendasikan untuk berinteraksi dengan Azure. Untuk mulai menggunakan modul Az PowerShell, lihat Menginstal Azure PowerShell. Untuk mempelajari cara bermigrasi ke modul Az PowerShell, lihat Memigrasikan Azure PowerShell dari AzureRM ke Az.
- Prasyarat lengkap tercantum dalam artikel prasyarat tutorial.
- Instal Azure PowerShell. Ikuti instruksi di Cara menginstal dan mengonfigurasi Azure PowerShell.
Langkah-langkah
Berikut adalah langkah-langkah yang Anda lakukan sebagai bagian dari tutorial ini:
Membuat pabrik data Azure. Dalam langkah ini, Anda membuat pabrik data bernama ADFTutorialDataFactoryPSH.
Buat layanan tertaut di pabrik data. Dalam langkah ini, Anda membuat dua jenis layanan tertaut: Azure Storage dan Azure SQL Database.
AzureStorageLinkedService menautkan akun penyimpanan Azure Anda ke pabrik data. Anda membuat kontainer dan mengunggah data ke akun penyimpanan ini sebagai bagian dari prasyarat.
AzureSqlLinkedService menautkan Azure SQL Database ke pabrik data. Data yang disalin dari penyimpanan blob disimpan dalam database ini. Anda membuat tabel SQL dalam database ini sebagai bagian dari prasyarat.
Membuat himpunan data input dan output di pabrik data.
Layanan tertaut penyimpanan Azure menentukan string koneksi yang digunakan layanan Data Factory pada durasi untuk menyambungkan ke akun penyimpanan Azure Anda. Dan, himpunan data blob input menentukan kontainer dan folder yang berisi data input.
Demikian pula, layanan tertaut Azure SQL Database menentukan string koneksi yang digunakan layanan Data Factory pada durasi untuk menyambungkan ke database Anda. Dan, himpunan data tabel SQL output menentukan tabel dalam database tempat data dari penyimpanan blob disalin.
Buat alur di pabrik data. Dalam langkah ini, Anda membuat alur dengan aktivitas salin.
Aktivitas salin menyalin data dari blob di penyimpanan blob Azure ke tabel di Azure SQL Database. Anda dapat menggunakan aktivitas salin di alur untuk menyalin data dari sumber yang didukung ke tujuan yang didukung. Untuk daftar penyimpanan data yang didukung, lihat artikel aktivitas pergerakan data.
Pantau alur. Dalam langkah ini, Anda memantau potongan himpunan data input dan output dengan menggunakan PowerShell.
Buat pabrik data
Penting
Selesaikan prasyarat untuk tutorial jika Anda belum melakukannya.
Pabrik data dapat memiliki satu atau beberapa alur. Alur dapat memiliki satu atau beberapa aktivitas di dalamnya. Misalnya, Aktivitas Salin untuk menyalin data dari sumber ke penyimpanan data tujuan dan aktivitas HDInsight Apache Hive untuk menjalankan skrip Apache Hive untuk mengubah data input ke data output produk. Mari kita mulai dengan membuat pabrik data dengan langkah ini.
Luncurkan PowerShell. Biarkan Azure PowerShell terbuka hingga akhir tutorial ini. Jika Anda menutup dan membuka kembali, Anda perlu menjalankan perintah lagi.
Jalankan perintah berikut dan masukkan nama pengguna serta kata sandi yang Anda gunakan untuk masuk ke portal Microsoft Azure:
Connect-AzAccountJalankan perintah berikut untuk menampilkan semua langganan untuk akun ini:
Get-AzSubscriptionJalankan perintah berikut untuk memilih langganan yang ingin Anda gunakan. Ganti <NameOfAzureSubscription> dengan nama langganan Azure Anda:
Get-AzSubscription -SubscriptionName <NameOfAzureSubscription> | Set-AzContextBuat grup sumber daya Azure bernama ADFTutorialResourceGroup dengan menjalankan perintah berikut:
New-AzResourceGroup -Name ADFTutorialResourceGroup -Location "West US"Beberapa langkah dalam tutorial ini mengasumsikan bahwa Anda menggunakan grup sumber daya bernama ADFTutorialResourceGroup. Jika Anda menggunakan grup sumber daya yang berbeda, Anda perlu menggunakannya sebagai pengganti ADFTutorialResourceGroup dalam tutorial ini.
Jalankan cmdlet New-AzDataFactory untuk membuat pabrik data bernama ADFTutorialDataFactoryPSH:
$df=New-AzDataFactory -ResourceGroupName ADFTutorialResourceGroup -Name ADFTutorialDataFactoryPSH –Location "West US"Nama ini mungkin sudah digunakan. Oleh karena itu, buat nama pabrik data unik dengan menambahkan awalan atau akhiran (misalnya: ADFTutorialDataFactoryPSH05152017) dan jalankan perintah lagi.
Perhatikan poin berikut:
Nama pabrik data Azure harus bersifat unik secara global. Jika Anda menerima kesalahan berikut, ubah nama (misalnya, yournameADFTutorialDataFactoryPSH). Gunakan nama ini sebagai pengganti ADFTutorialFactoryPSH saat melakukan langkah-langkah dalam tutorial ini. Lihat Data Factory - Aturan Penamaan untuk artefak Data Factory.
Data factory name "ADFTutorialDataFactoryPSH" is not availableUntuk membuat instans Data Factory, Anda harus menjadi kontributor/administrator langganan Azure.
Nama pabrik data mungkin terdaftar sebagai nama DNS di masa mendatang, dan karenanya dapat dilihat oleh publik.
Anda mungkin menerima kesalahan berikut: "Langganan ini tidak terdaftar untuk menggunakan namespace Microsoft.DataFactory." Lakukan salah satu hal berikut, dan coba terbitkan lagi:
Di Azure PowerShell, jalankan perintah berikut ini untuk mendaftarkan penyedia Data Factory:
Register-AzResourceProvider -ProviderNamespace Microsoft.DataFactoryJalankan perintah berikut untuk mengonfirmasi bahwa penyedia Data Factory telah terdaftar:
Get-AzResourceProviderMasuk menggunakan langganan Azure ke portal Microsoft Azure. Buka bilah Data Factory, atau buat pabrik data di portal Microsoft Azure. Tindakan ini secara otomatis mendaftarkan penyedia untuk Anda.
Membuat layanan tertaut
Anda membuat layanan tertaut di pabrik data untuk menautkan penyimpanan data dan layanan komputasi ke pabrik data. Dalam tutorial ini, Anda tidak menggunakan layanan komputasi apa pun seperti Azure HDInsight atau Azure Data Lake Analytics. Anda menggunakan dua penyimpanan data jenis Azure Storage (sumber) dan Azure SQL Database (tujuan).
Oleh karena itu, Anda membuat dua jenis layanan tertaut bernama AzureStorageLinkedService dan AzureSqlLinkedService: AzureStorage dan AzureSqlDatabase.
AzureStorageLinkedService menautkan akun penyimpanan Azure Anda ke pabrik data. Akun penyimpanan ini adalah salah satu tempat Anda membuat kontainer dan mengunggah data sebagai bagian dari prasyarat.
AzureSqlLinkedService menautkan Azure SQL Database ke pabrik data. Data yang disalin dari penyimpanan blob disimpan dalam database ini. Anda membuat tabel emp dalam database ini sebagai bagian dari prasyarat.
Membuat layanan tertaut untuk akun penyimpanan Azure
Dalam langkah ini, Anda menautkan akun penyimpanan Azure ke pabrik data Anda.
Buat file JSON bernama AzureStorageLinkedService.json di folder C:\ADFGetStartedPSH dengan konten berikut: (Buat folder ADFGetStartedPSH jika belum ada.)
Penting
Ganti <accountname> dan <accountkey> dengan nama dan kunci akun penyimpanan Azure Anda sebelum menyimpan file.
{ "name": "AzureStorageLinkedService", "properties": { "type": "AzureStorage", "typeProperties": { "connectionString": "DefaultEndpointsProtocol=https;AccountName=<accountname>;AccountKey=<accountkey>" } } }Di Azure PowerShell, beralihlah ke folder ADFGetStarted.
Jalankan cmdlet New-AzDataFactoryLinkedService untuk membuat layanan tertaut: AzureStorageLinkedService. Cmdlet ini dan cmdlet Data Factory lainnya yang Anda gunakan dalam tutorial ini mengharuskan Anda untuk meneruskan nilai parameter ResourceGroupName dan DataFactoryName. Atau, Anda bisa meneruskan objek DataFactory yang dikembalikan oleh cmdlet New-AzDataFactory tanpa mengetik ResourceGroupName dan DataFactoryName setiap kali Anda menjalankan cmdlet.
New-AzDataFactoryLinkedService $df -File .\AzureStorageLinkedService.jsonBerikut sampel outputnya:
LinkedServiceName : AzureStorageLinkedService ResourceGroupName : ADFTutorialResourceGroup DataFactoryName : ADFTutorialDataFactoryPSH0516 Properties : Microsoft.Azure.Management.DataFactories.Models.LinkedServiceProperties ProvisioningState : SucceededCara lain membuat layanan tertaut ini adalah dengan menentukan nama grup sumber daya dan nama pabrik data alih-alih menentukan objek DataFactory.
New-AzDataFactoryLinkedService -ResourceGroupName ADFTutorialResourceGroup -DataFactoryName <Name of your data factory> -File .\AzureStorageLinkedService.json
Membuat layanan tertaut untuk Azure SQL Database
Dalam langkah ini, Anda menautkan Azure SQL Database ke pabrik data Anda.
Buat file JSON bernama AzureSqlLinkedService.json di folder C:\ADFGetStartedPSH dengan konten berikut:
Penting
Ganti <servername>, <databasename>, <username@servername>, dan <password> dengan nama server, database, akun pengguna, dan kata sandi Anda.
{ "name": "AzureSqlLinkedService", "properties": { "type": "AzureSqlDatabase", "typeProperties": { "connectionString": "Server=tcp:<server>.database.windows.net,1433;Database=<databasename>;User ID=<user>@<server>;Password=<password>;Trusted_Connection=False;Encrypt=True;Connection Timeout=30" } } }Jalankan perintah berikut ini untuk membuat layanan tertaut:
New-AzDataFactoryLinkedService $df -File .\AzureSqlLinkedService.jsonBerikut sampel outputnya:
LinkedServiceName : AzureSqlLinkedService ResourceGroupName : ADFTutorialResourceGroup DataFactoryName : ADFTutorialDataFactoryPSH0516 Properties : Microsoft.Azure.Management.DataFactories.Models.LinkedServiceProperties ProvisioningState : SucceededKonfirmasi bahwa Izinkan akses ke pengaturan layanan Azure diaktifkan untuk server Anda. Untuk memverifikasi dan mengaktifkannya, lakukan langkah-langkah berikut:
- Masuk ke portal Microsoft Azure
- Klik Layanan lainnya > di sebelah kiri, dan klik server SQL di kategori DATABASE.
- Pilih server Anda dalam daftar SQL server.
- Pada bilah SQL server, klik Tampilkan tautan pengaturan firewall.
- Di bilah Pengaturan firewall, klik AKTIF untuk Mengizinkan akses ke layanan Azure.
- Pilih Simpan pada toolbar.
Membuat himpunan data
Pada langkah sebelumnya, Anda membuat layanan tertaut untuk menautkan akun Azure Storage dan Azure SQL Database ke pabrik data Anda. Dalam langkah ini, Anda menentukan dua himpunan data bernama InputDataset dan OutputDataset yang mewakili data input dan output yang disimpan di penyimpanan data yang masing-masing dirujuk oleh AzureStorageLinkedService dan AzureSqlLinkedService.
Layanan tertaut penyimpanan Azure menentukan string koneksi yang digunakan layanan Data Factory pada durasi saat menyambungkan ke akun penyimpanan Azure Anda. Dan, himpunan data blob input (InputDataset) menentukan kontainer dan folder yang berisi data input.
Demikian pula, layanan tertaut Azure SQL Database menentukan string koneksi yang digunakan layanan Data Factory pada durasi untuk menyambungkan ke database Anda. Dan, himpunan data tabel SQL output (OutputDataset) menentukan tabel dalam database tempat data dari penyimpanan blob disalin.
Membuat himpunan data input
Dalam langkah ini, Anda membuat himpunan data bernama InputDataset yang menunjuk ke file blob (emp.txt) di folder akar kontainer blob (adftutorial) di Azure Storage yang diwakili oleh layanan tertaut AzureStorageLinkedService. Jika Anda tidak menentukan nilai untuk fileName (atau melewatinya), data dari semua blob di folder input akan disalin ke tujuan. Dalam tutorial ini, Anda menentukan nilai untuk fileName.
Buat file JSON bernama InputDataset.json di folder C:\ADFGetStartedPSH dengan konten berikut:
{ "name": "InputDataset", "properties": { "structure": [ { "name": "FirstName", "type": "String" }, { "name": "LastName", "type": "String" } ], "type": "AzureBlob", "linkedServiceName": "AzureStorageLinkedService", "typeProperties": { "fileName": "emp.txt", "folderPath": "adftutorial/", "format": { "type": "TextFormat", "columnDelimiter": "," } }, "external": true, "availability": { "frequency": "Hour", "interval": 1 } } }Tabel berikut ini menyediakan deskripsi untuk properti JSON yang digunakan dalam cuplikan:
Properti Deskripsi jenis Properti jenis disetel ke AzureBlob karena data berada di penyimpanan blob Azure. linkedServiceName Mengacu pada AzureStorageLinkedService yang Anda buat sebelumnya. folderPath Menentukan kontainer blob dan folder yang berisi blob input. Dalam tutorial ini, adftutorial adalah kontainer blob sedangkan folder adalah folder akar. fileName Properti ini bersifat opsional. Jika Anda menghilangkan properti ini, semua file dari folderPath akan dipilih. Dalam tutorial ini, emp.txt ditentukan untuk fileName, jadi hanya file tersebut yang diambil untuk diproses. format -> jenis File input berada dalam format teks, jadi kami menggunakanTextFormat. columnDelimiter Kolom dalam file input dibatasi oleh karakter koma ( ,) .frekuensi/interval Frekuensi diatur ke Jam dan interval diatur ke 1, yang berarti bahwa potongan input tersedia setiap jam. Dengan kata lain, layanan Data Factory mencari data input setiap jam di folder akar kontainer blob (adftutorial) yang Anda tentukan. Ini mencari data dalam waktu mulai dan selesai alur, bukan sebelum atau sesudah waktu ini. eksternal Properti ini disetel ke benar jika data tidak dihasilkan oleh alur ini. Data input dalam tutorial ini ada di file emp.txt, yang tidak dihasilkan oleh alur ini, jadi kami menetapkan properti ini menjadi benar. Untuk informasi selengkapnya tentang properti JSON ini, lihat artikel konektor Azure Blob.
Jalankan perintah berikut untuk membuat himpunan Data Factory.
New-AzDataFactoryDataset $df -File .\InputDataset.jsonBerikut sampel outputnya:
DatasetName : InputDataset ResourceGroupName : ADFTutorialResourceGroup DataFactoryName : ADFTutorialDataFactoryPSH0516 Availability : Microsoft.Azure.Management.DataFactories.Common.Models.Availability Location : Microsoft.Azure.Management.DataFactories.Models.AzureBlobDataset Policy : Microsoft.Azure.Management.DataFactories.Common.Models.Policy Structure : {FirstName, LastName} Properties : Microsoft.Azure.Management.DataFactories.Models.DatasetProperties ProvisioningState : Succeeded
Membuat himpunan data output
Dalam langkah ini, Anda membuat himpunan data output bernama OutputDataset. Himpunan data ini mengarah ke tabel SQL di Azure SQL Database yang diwakili oleh AzureSqlLinkedService.
Buat file JSON bernama OutputDataset.json di folder C:\ADFGetStartedPSH dengan konten berikut:
{ "name": "OutputDataset", "properties": { "structure": [ { "name": "FirstName", "type": "String" }, { "name": "LastName", "type": "String" } ], "type": "AzureSqlTable", "linkedServiceName": "AzureSqlLinkedService", "typeProperties": { "tableName": "emp" }, "availability": { "frequency": "Hour", "interval": 1 } } }Tabel berikut ini menyediakan deskripsi untuk properti JSON yang digunakan dalam cuplikan:
Properti Deskripsi jenis Properti jenis disetel ke AzureSqlTable karena data disalin ke tabel di Azure SQL Database. linkedServiceName Mengacu pada AzureSqlLinkedService yang Anda buat sebelumnya. tableName Menentukan tabel tempat data disalin. frekuensi/interval Frekuensi diatur ke Jam dan interval 1, yang berarti potongan output diproduksi setiap setap jam antara waktu mulai dan selesai alur, bukan sebelum atau sesudah waktu ini. Ada tiga kolom – ID, FirstName, dan LastName – dalam tabel emp di database. ID adalah kolom identitas, jadi Anda hanya perlu menentukan FirstName dan LastName di sini.
Untuk informasi selengkapnya tentang properti JSON ini, lihat artikel konektor Azure SQL.
Jalankan perintah berikut untuk membuat himpunan data pabrik data.
New-AzDataFactoryDataset $df -File .\OutputDataset.jsonBerikut sampel outputnya:
DatasetName : OutputDataset ResourceGroupName : ADFTutorialResourceGroup DataFactoryName : ADFTutorialDataFactoryPSH0516 Availability : Microsoft.Azure.Management.DataFactories.Common.Models.Availability Location : Microsoft.Azure.Management.DataFactories.Models.AzureSqlTableDataset Policy : Structure : {FirstName, LastName} Properties : Microsoft.Azure.Management.DataFactories.Models.DatasetProperties ProvisioningState : Succeeded
Membuat alur
Dalam langkah ini, Anda membuat alur dengan aktivitas salin yang menggunakan InputDataset sebagai input dan OutputDataset sebagai output.
Saat ini, himpunan data output adalah apa yang mendorong jadwal. Dalam tutorial ini, himpunan data output dikonfigurasi untuk menghasilkan potongan satu jam sekali. Alur memiliki waktu mulai dan waktu selesai yang terpisah satu hari, yaitu 24 jam. Oleh karena itu, 24 potongan himpunan data output diproduksi oleh alur.
Buat file JSON bernama ADFTutorialPipeline.json di folder C:\ADFGetStartedPSH dengan konten berikut:
{ "name": "ADFTutorialPipeline", "properties": { "description": "Copy data from a blob to Azure SQL table", "activities": [ { "name": "CopyFromBlobToSQL", "type": "Copy", "inputs": [ { "name": "InputDataset" } ], "outputs": [ { "name": "OutputDataset" } ], "typeProperties": { "source": { "type": "BlobSource" }, "sink": { "type": "SqlSink", "writeBatchSize": 10000, "writeBatchTimeout": "60:00:00" } }, "Policy": { "concurrency": 1, "executionPriorityOrder": "NewestFirst", "retry": 0, "timeout": "01:00:00" } } ], "start": "2017-05-11T00:00:00Z", "end": "2017-05-12T00:00:00Z" } }Perhatikan poin berikut:
Di bagian aktivitas, hanya ada satu aktivitas yang jenisnya diatur ke Salin. Untuk informasi selengkapnya tentang aktivitas salin, lihat aktivitas pergerakan data. Dalam solusi Data Factory, Anda juga dapat menggunakan aktivitas transformasi data.
Input untuk aktivitas diatur ke InputDataset dan output untuk aktivitas diatur ke OutputDataset.
Di bagian typeProperties, BlobSource ditentukan sebagai jenis sumber dan SqlSink ditentukan sebagai jenis sink. Untuk daftar lengkap penyimpanan data yang didukung oleh aktivitas salin sebagai sumber dan sink, lihat penyimpanan data yang didukung. Untuk mempelajari cara menggunakan penyimpanan data tertentu yang didukung sebagai sumber/sink, klik tautan dalam tabel.
Ganti nilai properti mulai dengan hari ini dan nilai akhir dengan hari berikutnya. Anda hanya dapat menentukan bagian tanggal dan melewati bagian waktu dari waktu tanggal. Misalnya, "2016-02-03", yang setara dengan "2016-02-03T00:00:00Z"
Waktu mulai dan tanggal selesai harus dalam format ISO. Misalnya: 2016-10-14T16:32:41Z. Waktu akhir bersifat opsional, tetapi kami menggunakannya dalam tutorial ini.
Jika Anda tidak menentukan nilai untuk properti selesai, itu dihitung "mulai + 48 jam". Untuk menjalankan alur tanpa batas waktu, tentukan 9999-09-09 sebagai nilai untuk properti selesai.
Dalam contoh sebelumnya, ada 24 potongan data karena setiap potongan data diproduksi per jam.
Untuk deskripsi properti JSON di definisi alur, lihat artikel membuat alur. Untuk deskripsi properti JSON di definisi aktivitas salin, lihat aktivitas pergerakan data. Untuk deskripsi properti JSON yang didukung oleh BlobSource, lihat artikel konektor Azure Blob. Untuk deskripsi properti JSON yang didukung oleh SqlSink, lihat artikel konektor Azure SQL Database.
Jalankan perintah berikut untuk membuat tabel pabrik data.
New-AzDataFactoryPipeline $df -File .\ADFTutorialPipeline.jsonBerikut sampel outputnya:
PipelineName : ADFTutorialPipeline ResourceGroupName : ADFTutorialResourceGroup DataFactoryName : ADFTutorialDataFactoryPSH0516 Properties : Microsoft.Azure.Management.DataFactories.Models.PipelinePropertie ProvisioningState : Succeeded
Selamat! Anda telah berhasil membuat pabrik data Azure, dengan alur yang menyalin data dari penyimpanan blob Azure ke Azure SQL Database.
Monitor saluran pipa
Dalam langkah ini, Anda menggunakan Azure PowerShell untuk memantau apa yang terjadi di pabrik data Azure.
Ganti <DataFactoryName> dengan nama pabrik data Anda dan jalankan Get-AzDataFactory, dan tetapkan output ke variabel $df.
$df=Get-AzDataFactory -ResourceGroupName ADFTutorialResourceGroup -Name <DataFactoryName>Contohnya:
$df=Get-AzDataFactory -ResourceGroupName ADFTutorialResourceGroup -Name ADFTutorialDataFactoryPSH0516Kemudian, jalankan cetak konten $df untuk melihat output berikut:
PS C:\ADFGetStartedPSH> $df DataFactoryName : ADFTutorialDataFactoryPSH0516 DataFactoryId : 6f194b34-03b3-49ab-8f03-9f8a7b9d3e30 ResourceGroupName : ADFTutorialResourceGroup Location : West US Tags : {} Properties : Microsoft.Azure.Management.DataFactories.Models.DataFactoryProperties ProvisioningState : SucceededJalankan Get-AzDataFactorySlice untuk mendapatkan detail tentang semua potongan OutputDataset, yang merupakan himpunan data output dari alur.
Get-AzDataFactorySlice $df -DatasetName OutputDataset -StartDateTime 2017-05-11T00:00:00ZPengaturan ini harus cocok dengan nilai Mulai di alur JSON. Anda akan melihat 24 potongan, satu untuk setiap jam dari jam 12 pagi hari ini hingga 12 pagi keesokan harinya.
Berikut adalah tiga sampel potongan dari output:
ResourceGroupName : ADFTutorialResourceGroup DataFactoryName : ADFTutorialDataFactoryPSH0516 DatasetName : OutputDataset Start : 5/11/2017 11:00:00 PM End : 5/12/2017 12:00:00 AM RetryCount : 0 State : Ready SubState : LatencyStatus : LongRetryCount : 0 ResourceGroupName : ADFTutorialResourceGroup DataFactoryName : ADFTutorialDataFactoryPSH0516 DatasetName : OutputDataset Start : 5/11/2017 9:00:00 PM End : 5/11/2017 10:00:00 PM RetryCount : 0 State : InProgress SubState : LatencyStatus : LongRetryCount : 0 ResourceGroupName : ADFTutorialResourceGroup DataFactoryName : ADFTutorialDataFactoryPSH0516 DatasetName : OutputDataset Start : 5/11/2017 8:00:00 PM End : 5/11/2017 9:00:00 PM RetryCount : 0 State : Waiting SubState : ConcurrencyLimit LatencyStatus : LongRetryCount : 0Jalankan Get-AzDataFactoryRun untuk mendapatkan detail aktivitas yang dijalankan untuk potongan tertentu. Salin nilai tanggal-waktu dari output perintah sebelumnya untuk menentukan nilai parameter StartDateTime.
Get-AzDataFactoryRun $df -DatasetName OutputDataset -StartDateTime "5/11/2017 09:00:00 PM"Berikut sampel outputnya:
Id : c0ddbd75-d0c7-4816-a775-704bbd7c7eab_636301332000000000_636301368000000000_OutputDataset ResourceGroupName : ADFTutorialResourceGroup DataFactoryName : ADFTutorialDataFactoryPSH0516 DatasetName : OutputDataset ProcessingStartTime : 5/16/2017 8:00:33 PM ProcessingEndTime : 5/16/2017 8:01:36 PM PercentComplete : 100 DataSliceStart : 5/11/2017 9:00:00 PM DataSliceEnd : 5/11/2017 10:00:00 PM Status : Succeeded Timestamp : 5/16/2017 8:00:33 PM RetryAttempt : 0 Properties : {} ErrorMessage : ActivityName : CopyFromBlobToSQL PipelineName : ADFTutorialPipeline Type : Copy
Lihat Referensi Cmdlet Data Factory untuk dokumentasi komprehensif tentang cmdlet Data Factory.
Ringkasan
Dalam tutorial ini, Anda membuat pabrik data Azure untuk menyalin data dari blob Azure ke Azure SQL Database. Anda menggunakan PowerShell untuk membuat pabrik data, layanan tertaut, himpunan data, dan alur. Berikut adalah langkah-langkah tingkat tinggi yang Anda lakukan dalam tutorial ini:
Membuat pabrik data Azure.
Membuat layanan tertaut:
a. Layanan tertaut Azure Storage untuk menautkan akun penyimpanan Azure Anda yang menyimpan data input.
b. Layanan tertaut Azure SQL untuk menautkan database SQL Anda yang menyimpan data output.Membuat himpunan data, yang menjelaskan data input dan data output untuk alur.
Membuat alur dengan Aktivitas Salin dengan BlobSource sebagai sumber dan SqlSink sebagai sink.
Langkah berikutnya
Dalam tutorial ini, Anda menggunakan penyimpanan blob Azure sebagai penyimpanan data sumber dan Azure SQL Database sebagai penyimpanan data tujuan dalam operasi salinan. Tabel berikut ini menyediakan daftar penyimpanan data yang didukung sebagai sumber dan tujuan oleh aktivitas salin:
| Kategori | Penyimpanan data | Didukung sebagai sumber | Didukung sebagai sink |
|---|---|---|---|
| Azure | Azure Blob Storage | ✓ | ✓ |
| Azure Cosmos DB (SQL API) | ✓ | ✓ | |
| Azure Data Lake Storage Gen1 | ✓ | ✓ | |
| Azure SQL Database | ✓ | ✓ | |
| Azure Synapse Analytics | ✓ | ✓ | |
| Indeks Azure Cognitive Search | ✓ | ||
| Penyimpanan Tabel Azure | ✓ | ✓ | |
| Database | Amazon Redshift | ✓ | |
| DB2* | ✓ | ||
| MySQL* | ✓ | ||
| Oracle* | ✓ | ✓ | |
| PostgreSQL* | ✓ | ||
| SAP Business Warehouse* | ✓ | ||
| SAP HANA* | ✓ | ||
| SQL Server* | ✓ | ✓ | |
| Sybase* | ✓ | ||
| Teradata* | ✓ | ||
| NoSQL | Cassandra* | ✓ | |
| MongoDB* | ✓ | ||
| File | Amazon S3 | ✓ | |
| Sistem File* | ✓ | ✓ | |
| FTP | ✓ | ||
| HDFS* | ✓ | ||
| SFTP | ✓ | ||
| Lainnya | HTTP Generik | ✓ | |
| OData Generik | ✓ | ||
| ODBC Generik* | ✓ | ||
| Salesforce | ✓ | ||
| Tabel Web (tabel dari HTML) | ✓ |
Untuk mempelajari tentang cara menyalin data ke/dari penyimpanan data, klik tautan untuk penyimpanan data dalam tabel.