Tutorial: Membuat alur Data Factory yang memindahkan data menggunakan Azure PowerShell

Catatan

Artikel ini berlaku untuk versi 1 dari Data Factory. Jika Anda menggunakan versi layanan Data Factory saat ini, lihat tutorial aktivitas salin.

Di artikel ini, Anda mempelajari cara menggunakan PowerShell untuk membuat pabrik data dengan alur yang menyalin data dari penyimpanan blob Azure ke Azure SQL Database. Jika Anda baru menggunakan Azure Data Factory, baca artikel Pengenalan Azure Data Factory sebelum melakukan tutorial ini.

Dalam tutorial ini, Anda membuat alur dengan satu aktivitas di dalamnya: Aktivitas Salin. Aktivitas salin menyalin data dari penyimpanan data yang didukung ke penyimpanan data sink yang didukung. Untuk daftar penyimpanan data yang didukung sebagai sumber dan sink, lihat penyimpanan data yang didukung. Aktivitas ini didukung oleh layanan yang tersedia secara global yang dapat menyalin data antara berbagai penyimpanan data dengan cara yang aman, andal, dan dapat diskalakan. Untuk informasi selengkapnya tentang Aktivitas Salin, lihat Aktivitas Pergerakan Data.

Sebuah alur dapat memiliki lebih dari satu aktivitas. Selain itu, Anda dapat merangkai dua aktivitas (menjalankan satu demi satu aktivitas) dengan mengatur himpunan data output dari satu aktivitas sebagai himpunan data input aktivitas lainnya. Untuk informasi selengkapnya, lihat beberapa aktivitas dalam alur.

Catatan

Artikel ini tidak mencakup semua cmdlet Data Factory. Lihat Referensi Cmdlet Data Factory untuk dokumentasi komprehensif tentang cmdlet ini.

Alur data dalam tutorial ini menyalin data dari penyimpanan data sumber ke penyimpanan data tujuan. Untuk tutorial tentang cara mengubah data menggunakan Azure Data Factory, lihat Tutorial: Membangun alur untuk mengubah data menggunakan kluster Hadoop.

Prasyarat

Catatan

Artikel ini menggunakan modul Azure Az PowerShell, yang merupakan modul PowerShell yang direkomendasikan untuk berinteraksi dengan Azure. Untuk mulai menggunakan modul Az PowerShell, lihat Menginstal Azure PowerShell. Untuk mempelajari cara bermigrasi ke modul Az PowerShell, lihat Memigrasikan Azure PowerShell dari AzureRM ke Az.

Langkah-langkah

Berikut adalah langkah-langkah yang Anda lakukan sebagai bagian dari tutorial ini:

  1. Membuat pabrik data Azure. Dalam langkah ini, Anda membuat pabrik data bernama ADFTutorialDataFactoryPSH.

  2. Buat layanan tertaut di pabrik data. Dalam langkah ini, Anda membuat dua jenis layanan tertaut: Azure Storage dan Azure SQL Database.

    AzureStorageLinkedService menautkan akun penyimpanan Azure Anda ke pabrik data. Anda membuat kontainer dan mengunggah data ke akun penyimpanan ini sebagai bagian dari prasyarat.

    AzureSqlLinkedService menautkan Azure SQL Database ke pabrik data. Data yang disalin dari penyimpanan blob disimpan dalam database ini. Anda membuat tabel SQL dalam database ini sebagai bagian dari prasyarat.

  3. Membuat himpunan data input dan output di pabrik data.

    Layanan tertaut penyimpanan Azure menentukan string koneksi yang digunakan layanan Data Factory pada durasi untuk menyambungkan ke akun penyimpanan Azure Anda. Dan, himpunan data blob input menentukan kontainer dan folder yang berisi data input.

    Demikian pula, layanan tertaut Azure SQL Database menentukan string koneksi yang digunakan layanan Data Factory pada durasi untuk menyambungkan ke database Anda. Dan, himpunan data tabel SQL output menentukan tabel dalam database tempat data dari penyimpanan blob disalin.

  4. Buat alur di pabrik data. Dalam langkah ini, Anda membuat alur dengan aktivitas salin.

    Aktivitas salin menyalin data dari blob di penyimpanan blob Azure ke tabel di Azure SQL Database. Anda dapat menggunakan aktivitas salin di alur untuk menyalin data dari sumber yang didukung ke tujuan yang didukung. Untuk daftar penyimpanan data yang didukung, lihat artikel aktivitas pergerakan data.

  5. Pantau alur. Dalam langkah ini, Anda memantau potongan himpunan data input dan output dengan menggunakan PowerShell.

Buat pabrik data

Penting

Selesaikan prasyarat untuk tutorial jika Anda belum melakukannya.

Pabrik data dapat memiliki satu atau beberapa alur. Alur dapat memiliki satu atau beberapa aktivitas di dalamnya. Misalnya, Aktivitas Salin untuk menyalin data dari sumber ke penyimpanan data tujuan dan aktivitas HDInsight Apache Hive untuk menjalankan skrip Apache Hive untuk mengubah data input ke data output produk. Mari kita mulai dengan membuat pabrik data dengan langkah ini.

  1. Luncurkan PowerShell. Biarkan Azure PowerShell terbuka hingga akhir tutorial ini. Jika Anda menutup dan membuka kembali, Anda perlu menjalankan perintah lagi.

    Jalankan perintah berikut dan masukkan nama pengguna serta kata sandi yang Anda gunakan untuk masuk ke portal Microsoft Azure:

    Connect-AzAccount
    

    Jalankan perintah berikut untuk menampilkan semua langganan untuk akun ini:

    Get-AzSubscription
    

    Jalankan perintah berikut untuk memilih langganan yang ingin Anda gunakan. Ganti <NameOfAzureSubscription> dengan nama langganan Azure Anda:

    Get-AzSubscription -SubscriptionName <NameOfAzureSubscription> | Set-AzContext
    
  2. Buat grup sumber daya Azure bernama ADFTutorialResourceGroup dengan menjalankan perintah berikut:

    New-AzResourceGroup -Name ADFTutorialResourceGroup  -Location "West US"
    

    Beberapa langkah dalam tutorial ini mengasumsikan bahwa Anda menggunakan grup sumber daya bernama ADFTutorialResourceGroup. Jika Anda menggunakan grup sumber daya yang berbeda, Anda perlu menggunakannya sebagai pengganti ADFTutorialResourceGroup dalam tutorial ini.

  3. Jalankan cmdlet New-AzDataFactory untuk membuat pabrik data bernama ADFTutorialDataFactoryPSH:

    $df=New-AzDataFactory -ResourceGroupName ADFTutorialResourceGroup -Name ADFTutorialDataFactoryPSH –Location "West US"
    

    Nama ini mungkin sudah digunakan. Oleh karena itu, buat nama pabrik data unik dengan menambahkan awalan atau akhiran (misalnya: ADFTutorialDataFactoryPSH05152017) dan jalankan perintah lagi.

Perhatikan poin berikut:

  • Nama pabrik data Azure harus bersifat unik secara global. Jika Anda menerima kesalahan berikut, ubah nama (misalnya, yournameADFTutorialDataFactoryPSH). Gunakan nama ini sebagai pengganti ADFTutorialFactoryPSH saat melakukan langkah-langkah dalam tutorial ini. Lihat Data Factory - Aturan Penamaan untuk artefak Data Factory.

    Data factory name "ADFTutorialDataFactoryPSH" is not available
    
  • Untuk membuat instans Data Factory, Anda harus menjadi kontributor/administrator langganan Azure.

  • Nama pabrik data mungkin terdaftar sebagai nama DNS di masa mendatang, dan karenanya dapat dilihat oleh publik.

  • Anda mungkin menerima kesalahan berikut: "Langganan ini tidak terdaftar untuk menggunakan namespace Microsoft.DataFactory." Lakukan salah satu hal berikut, dan coba terbitkan lagi:

    • Di Azure PowerShell, jalankan perintah berikut ini untuk mendaftarkan penyedia Data Factory:

      Register-AzResourceProvider -ProviderNamespace Microsoft.DataFactory
      

      Jalankan perintah berikut untuk mengonfirmasi bahwa penyedia Data Factory telah terdaftar:

      Get-AzResourceProvider
      
    • Masuk menggunakan langganan Azure ke portal Microsoft Azure. Buka bilah Data Factory, atau buat pabrik data di portal Microsoft Azure. Tindakan ini secara otomatis mendaftarkan penyedia untuk Anda.

Membuat layanan tertaut

Anda membuat layanan tertaut di pabrik data untuk menautkan penyimpanan data dan layanan komputasi ke pabrik data. Dalam tutorial ini, Anda tidak menggunakan layanan komputasi apa pun seperti Azure HDInsight atau Azure Data Lake Analytics. Anda menggunakan dua penyimpanan data jenis Azure Storage (sumber) dan Azure SQL Database (tujuan).

Oleh karena itu, Anda membuat dua jenis layanan tertaut bernama AzureStorageLinkedService dan AzureSqlLinkedService: AzureStorage dan AzureSqlDatabase.

AzureStorageLinkedService menautkan akun penyimpanan Azure Anda ke pabrik data. Akun penyimpanan ini adalah salah satu tempat Anda membuat kontainer dan mengunggah data sebagai bagian dari prasyarat.

AzureSqlLinkedService menautkan Azure SQL Database ke pabrik data. Data yang disalin dari penyimpanan blob disimpan dalam database ini. Anda membuat tabel emp dalam database ini sebagai bagian dari prasyarat.

Membuat layanan tertaut untuk akun penyimpanan Azure

Dalam langkah ini, Anda menautkan akun penyimpanan Azure ke pabrik data Anda.

  1. Buat file JSON bernama AzureStorageLinkedService.json di folder C:\ADFGetStartedPSH dengan konten berikut: (Buat folder ADFGetStartedPSH jika belum ada.)

    Penting

    Ganti <accountname> dan <accountkey> dengan nama dan kunci akun penyimpanan Azure Anda sebelum menyimpan file.

    {
        "name": "AzureStorageLinkedService",
        "properties": {
            "type": "AzureStorage",
            "typeProperties": {
                "connectionString": "DefaultEndpointsProtocol=https;AccountName=<accountname>;AccountKey=<accountkey>"
            }
        }
     }
    
  2. Di Azure PowerShell, beralihlah ke folder ADFGetStarted.

  3. Jalankan cmdlet New-AzDataFactoryLinkedService untuk membuat layanan tertaut: AzureStorageLinkedService. Cmdlet ini dan cmdlet Data Factory lainnya yang Anda gunakan dalam tutorial ini mengharuskan Anda untuk meneruskan nilai parameter ResourceGroupName dan DataFactoryName. Atau, Anda bisa meneruskan objek DataFactory yang dikembalikan oleh cmdlet New-AzDataFactory tanpa mengetik ResourceGroupName dan DataFactoryName setiap kali Anda menjalankan cmdlet.

    New-AzDataFactoryLinkedService $df -File .\AzureStorageLinkedService.json
    

    Berikut sampel outputnya:

    LinkedServiceName : AzureStorageLinkedService
    ResourceGroupName : ADFTutorialResourceGroup
    DataFactoryName   : ADFTutorialDataFactoryPSH0516
    Properties        : Microsoft.Azure.Management.DataFactories.Models.LinkedServiceProperties
    ProvisioningState : Succeeded
    

    Cara lain membuat layanan tertaut ini adalah dengan menentukan nama grup sumber daya dan nama pabrik data alih-alih menentukan objek DataFactory.

    New-AzDataFactoryLinkedService -ResourceGroupName ADFTutorialResourceGroup -DataFactoryName <Name of your data factory> -File .\AzureStorageLinkedService.json
    

Membuat layanan tertaut untuk Azure SQL Database

Dalam langkah ini, Anda menautkan Azure SQL Database ke pabrik data Anda.

  1. Buat file JSON bernama AzureSqlLinkedService.json di folder C:\ADFGetStartedPSH dengan konten berikut:

    Penting

    Ganti <servername>, <databasename>, <username@servername>, dan <password> dengan nama server, database, akun pengguna, dan kata sandi Anda.

    {
        "name": "AzureSqlLinkedService",
        "properties": {
            "type": "AzureSqlDatabase",
            "typeProperties": {
                "connectionString": "Server=tcp:<server>.database.windows.net,1433;Database=<databasename>;User ID=<user>@<server>;Password=<password>;Trusted_Connection=False;Encrypt=True;Connection Timeout=30"
            }
        }
     }
    
  2. Jalankan perintah berikut ini untuk membuat layanan tertaut:

    New-AzDataFactoryLinkedService $df -File .\AzureSqlLinkedService.json
    

    Berikut sampel outputnya:

    LinkedServiceName : AzureSqlLinkedService
    ResourceGroupName : ADFTutorialResourceGroup
    DataFactoryName   : ADFTutorialDataFactoryPSH0516
    Properties        : Microsoft.Azure.Management.DataFactories.Models.LinkedServiceProperties
    ProvisioningState : Succeeded
    

    Konfirmasi bahwa Izinkan akses ke pengaturan layanan Azure diaktifkan untuk server Anda. Untuk memverifikasi dan mengaktifkannya, lakukan langkah-langkah berikut:

    1. Masuk ke portal Microsoft Azure
    2. Klik Layanan lainnya > di sebelah kiri, dan klik server SQL di kategori DATABASE.
    3. Pilih server Anda dalam daftar SQL server.
    4. Pada bilah SQL server, klik Tampilkan tautan pengaturan firewall.
    5. Di bilah Pengaturan firewall, klik AKTIF untuk Mengizinkan akses ke layanan Azure.
    6. Pilih Simpan pada toolbar.

Membuat himpunan data

Pada langkah sebelumnya, Anda membuat layanan tertaut untuk menautkan akun Azure Storage dan Azure SQL Database ke pabrik data Anda. Dalam langkah ini, Anda menentukan dua himpunan data bernama InputDataset dan OutputDataset yang mewakili data input dan output yang disimpan di penyimpanan data yang masing-masing dirujuk oleh AzureStorageLinkedService dan AzureSqlLinkedService.

Layanan tertaut penyimpanan Azure menentukan string koneksi yang digunakan layanan Data Factory pada durasi saat menyambungkan ke akun penyimpanan Azure Anda. Dan, himpunan data blob input (InputDataset) menentukan kontainer dan folder yang berisi data input.

Demikian pula, layanan tertaut Azure SQL Database menentukan string koneksi yang digunakan layanan Data Factory pada durasi untuk menyambungkan ke database Anda. Dan, himpunan data tabel SQL output (OutputDataset) menentukan tabel dalam database tempat data dari penyimpanan blob disalin.

Membuat himpunan data input

Dalam langkah ini, Anda membuat himpunan data bernama InputDataset yang menunjuk ke file blob (emp.txt) di folder akar kontainer blob (adftutorial) di Azure Storage yang diwakili oleh layanan tertaut AzureStorageLinkedService. Jika Anda tidak menentukan nilai untuk fileName (atau melewatinya), data dari semua blob di folder input akan disalin ke tujuan. Dalam tutorial ini, Anda menentukan nilai untuk fileName.

  1. Buat file JSON bernama InputDataset.json di folder C:\ADFGetStartedPSH dengan konten berikut:

    {
        "name": "InputDataset",
        "properties": {
            "structure": [
                {
                    "name": "FirstName",
                    "type": "String"
                },
                {
                    "name": "LastName",
                    "type": "String"
                }
            ],
            "type": "AzureBlob",
            "linkedServiceName": "AzureStorageLinkedService",
            "typeProperties": {
                "fileName": "emp.txt",
                "folderPath": "adftutorial/",
                "format": {
                    "type": "TextFormat",
                    "columnDelimiter": ","
                }
            },
            "external": true,
            "availability": {
                "frequency": "Hour",
                "interval": 1
            }
        }
     }
    

    Tabel berikut ini menyediakan deskripsi untuk properti JSON yang digunakan dalam cuplikan:

    Properti Deskripsi
    jenis Properti jenis disetel ke AzureBlob karena data berada di penyimpanan blob Azure.
    linkedServiceName Mengacu pada AzureStorageLinkedService yang Anda buat sebelumnya.
    folderPath Menentukan kontainer blob dan folder yang berisi blob input. Dalam tutorial ini, adftutorial adalah kontainer blob sedangkan folder adalah folder akar.
    fileName Properti ini bersifat opsional. Jika Anda menghilangkan properti ini, semua file dari folderPath akan dipilih. Dalam tutorial ini, emp.txt ditentukan untuk fileName, jadi hanya file tersebut yang diambil untuk diproses.
    format -> jenis File input berada dalam format teks, jadi kami menggunakanTextFormat.
    columnDelimiter Kolom dalam file input dibatasi oleh karakter koma (,) .
    frekuensi/interval Frekuensi diatur ke Jam dan interval diatur ke 1, yang berarti bahwa potongan input tersedia setiap jam. Dengan kata lain, layanan Data Factory mencari data input setiap jam di folder akar kontainer blob (adftutorial) yang Anda tentukan. Ini mencari data dalam waktu mulai dan selesai alur, bukan sebelum atau sesudah waktu ini.
    eksternal Properti ini disetel ke benar jika data tidak dihasilkan oleh alur ini. Data input dalam tutorial ini ada di file emp.txt, yang tidak dihasilkan oleh alur ini, jadi kami menetapkan properti ini menjadi benar.

    Untuk informasi selengkapnya tentang properti JSON ini, lihat artikel konektor Azure Blob.

  2. Jalankan perintah berikut untuk membuat himpunan Data Factory.

    New-AzDataFactoryDataset $df -File .\InputDataset.json
    

    Berikut sampel outputnya:

    DatasetName       : InputDataset
    ResourceGroupName : ADFTutorialResourceGroup
    DataFactoryName   : ADFTutorialDataFactoryPSH0516
    Availability      : Microsoft.Azure.Management.DataFactories.Common.Models.Availability
    Location          : Microsoft.Azure.Management.DataFactories.Models.AzureBlobDataset
    Policy            : Microsoft.Azure.Management.DataFactories.Common.Models.Policy
    Structure         : {FirstName, LastName}
    Properties        : Microsoft.Azure.Management.DataFactories.Models.DatasetProperties
    ProvisioningState : Succeeded
    

Membuat himpunan data output

Dalam langkah ini, Anda membuat himpunan data output bernama OutputDataset. Himpunan data ini mengarah ke tabel SQL di Azure SQL Database yang diwakili oleh AzureSqlLinkedService.

  1. Buat file JSON bernama OutputDataset.json di folder C:\ADFGetStartedPSH dengan konten berikut:

    {
        "name": "OutputDataset",
        "properties": {
            "structure": [
                {
                    "name": "FirstName",
                    "type": "String"
                },
                {
                    "name": "LastName",
                    "type": "String"
                }
            ],
            "type": "AzureSqlTable",
            "linkedServiceName": "AzureSqlLinkedService",
            "typeProperties": {
                "tableName": "emp"
            },
            "availability": {
                "frequency": "Hour",
                "interval": 1
            }
        }
    }
    

    Tabel berikut ini menyediakan deskripsi untuk properti JSON yang digunakan dalam cuplikan:

    Properti Deskripsi
    jenis Properti jenis disetel ke AzureSqlTable karena data disalin ke tabel di Azure SQL Database.
    linkedServiceName Mengacu pada AzureSqlLinkedService yang Anda buat sebelumnya.
    tableName Menentukan tabel tempat data disalin.
    frekuensi/interval Frekuensi diatur ke Jam dan interval 1, yang berarti potongan output diproduksi setiap setap jam antara waktu mulai dan selesai alur, bukan sebelum atau sesudah waktu ini.

    Ada tiga kolom – ID, FirstName, dan LastName – dalam tabel emp di database. ID adalah kolom identitas, jadi Anda hanya perlu menentukan FirstName dan LastName di sini.

    Untuk informasi selengkapnya tentang properti JSON ini, lihat artikel konektor Azure SQL.

  2. Jalankan perintah berikut untuk membuat himpunan data pabrik data.

    New-AzDataFactoryDataset $df -File .\OutputDataset.json
    

    Berikut sampel outputnya:

    DatasetName       : OutputDataset
    ResourceGroupName : ADFTutorialResourceGroup
    DataFactoryName   : ADFTutorialDataFactoryPSH0516
    Availability      : Microsoft.Azure.Management.DataFactories.Common.Models.Availability
    Location          : Microsoft.Azure.Management.DataFactories.Models.AzureSqlTableDataset
    Policy            :
    Structure         : {FirstName, LastName}
    Properties        : Microsoft.Azure.Management.DataFactories.Models.DatasetProperties
    ProvisioningState : Succeeded
    

Membuat alur

Dalam langkah ini, Anda membuat alur dengan aktivitas salin yang menggunakan InputDataset sebagai input dan OutputDataset sebagai output.

Saat ini, himpunan data output adalah apa yang mendorong jadwal. Dalam tutorial ini, himpunan data output dikonfigurasi untuk menghasilkan potongan satu jam sekali. Alur memiliki waktu mulai dan waktu selesai yang terpisah satu hari, yaitu 24 jam. Oleh karena itu, 24 potongan himpunan data output diproduksi oleh alur.

  1. Buat file JSON bernama ADFTutorialPipeline.json di folder C:\ADFGetStartedPSH dengan konten berikut:

    {
      "name": "ADFTutorialPipeline",
      "properties": {
        "description": "Copy data from a blob to Azure SQL table",
        "activities": [
          {
            "name": "CopyFromBlobToSQL",
            "type": "Copy",
            "inputs": [
              {
                "name": "InputDataset"
              }
            ],
            "outputs": [
              {
                "name": "OutputDataset"
              }
            ],
            "typeProperties": {
              "source": {
                "type": "BlobSource"
              },
              "sink": {
                "type": "SqlSink",
                "writeBatchSize": 10000,
                "writeBatchTimeout": "60:00:00"
              }
            },
            "Policy": {
              "concurrency": 1,
              "executionPriorityOrder": "NewestFirst",
              "retry": 0,
              "timeout": "01:00:00"
            }
          }
        ],
        "start": "2017-05-11T00:00:00Z",
        "end": "2017-05-12T00:00:00Z"
      }
    } 
    

    Perhatikan poin berikut:

    • Di bagian aktivitas, hanya ada satu aktivitas yang jenisnya diatur ke Salin. Untuk informasi selengkapnya tentang aktivitas salin, lihat aktivitas pergerakan data. Dalam solusi Data Factory, Anda juga dapat menggunakan aktivitas transformasi data.

    • Input untuk aktivitas diatur ke InputDataset dan output untuk aktivitas diatur ke OutputDataset.

    • Di bagian typeProperties, BlobSource ditentukan sebagai jenis sumber dan SqlSink ditentukan sebagai jenis sink. Untuk daftar lengkap penyimpanan data yang didukung oleh aktivitas salin sebagai sumber dan sink, lihat penyimpanan data yang didukung. Untuk mempelajari cara menggunakan penyimpanan data tertentu yang didukung sebagai sumber/sink, klik tautan dalam tabel.

      Ganti nilai properti mulai dengan hari ini dan nilai akhir dengan hari berikutnya. Anda hanya dapat menentukan bagian tanggal dan melewati bagian waktu dari waktu tanggal. Misalnya, "2016-02-03", yang setara dengan "2016-02-03T00:00:00Z"

      Waktu mulai dan tanggal selesai harus dalam format ISO. Misalnya: 2016-10-14T16:32:41Z. Waktu akhir bersifat opsional, tetapi kami menggunakannya dalam tutorial ini.

      Jika Anda tidak menentukan nilai untuk properti selesai, itu dihitung "mulai + 48 jam". Untuk menjalankan alur tanpa batas waktu, tentukan 9999-09-09 sebagai nilai untuk properti selesai.

      Dalam contoh sebelumnya, ada 24 potongan data karena setiap potongan data diproduksi per jam.

      Untuk deskripsi properti JSON di definisi alur, lihat artikel membuat alur. Untuk deskripsi properti JSON di definisi aktivitas salin, lihat aktivitas pergerakan data. Untuk deskripsi properti JSON yang didukung oleh BlobSource, lihat artikel konektor Azure Blob. Untuk deskripsi properti JSON yang didukung oleh SqlSink, lihat artikel konektor Azure SQL Database.

  2. Jalankan perintah berikut untuk membuat tabel pabrik data.

    New-AzDataFactoryPipeline $df -File .\ADFTutorialPipeline.json
    

    Berikut sampel outputnya:

    PipelineName      : ADFTutorialPipeline
    ResourceGroupName : ADFTutorialResourceGroup
    DataFactoryName   : ADFTutorialDataFactoryPSH0516
    Properties        : Microsoft.Azure.Management.DataFactories.Models.PipelinePropertie
    ProvisioningState : Succeeded
    

Selamat! Anda telah berhasil membuat pabrik data Azure, dengan alur yang menyalin data dari penyimpanan blob Azure ke Azure SQL Database.

Monitor saluran pipa

Dalam langkah ini, Anda menggunakan Azure PowerShell untuk memantau apa yang terjadi di pabrik data Azure.

  1. Ganti <DataFactoryName> dengan nama pabrik data Anda dan jalankan Get-AzDataFactory, dan tetapkan output ke variabel $df.

    $df=Get-AzDataFactory -ResourceGroupName ADFTutorialResourceGroup -Name <DataFactoryName>
    

    Contohnya:

    $df=Get-AzDataFactory -ResourceGroupName ADFTutorialResourceGroup -Name ADFTutorialDataFactoryPSH0516
    

    Kemudian, jalankan cetak konten $df untuk melihat output berikut:

    PS C:\ADFGetStartedPSH> $df
    
    DataFactoryName   : ADFTutorialDataFactoryPSH0516
    DataFactoryId     : 6f194b34-03b3-49ab-8f03-9f8a7b9d3e30
    ResourceGroupName : ADFTutorialResourceGroup
    Location          : West US
    Tags              : {}
    Properties        : Microsoft.Azure.Management.DataFactories.Models.DataFactoryProperties
    ProvisioningState : Succeeded
    
  2. Jalankan Get-AzDataFactorySlice untuk mendapatkan detail tentang semua potongan OutputDataset, yang merupakan himpunan data output dari alur.

    Get-AzDataFactorySlice $df -DatasetName OutputDataset -StartDateTime 2017-05-11T00:00:00Z
    

    Pengaturan ini harus cocok dengan nilai Mulai di alur JSON. Anda akan melihat 24 potongan, satu untuk setiap jam dari jam 12 pagi hari ini hingga 12 pagi keesokan harinya.

    Berikut adalah tiga sampel potongan dari output:

    ResourceGroupName : ADFTutorialResourceGroup
    DataFactoryName   : ADFTutorialDataFactoryPSH0516
    DatasetName       : OutputDataset
    Start             : 5/11/2017 11:00:00 PM
    End               : 5/12/2017 12:00:00 AM
    RetryCount        : 0
    State             : Ready
    SubState          :
    LatencyStatus     :
    LongRetryCount    : 0
    
    ResourceGroupName : ADFTutorialResourceGroup
    DataFactoryName   : ADFTutorialDataFactoryPSH0516
    DatasetName       : OutputDataset
    Start             : 5/11/2017 9:00:00 PM
    End               : 5/11/2017 10:00:00 PM
    RetryCount        : 0
    State             : InProgress
    SubState          :
    LatencyStatus     :
    LongRetryCount    : 0
    
    ResourceGroupName : ADFTutorialResourceGroup
    DataFactoryName   : ADFTutorialDataFactoryPSH0516
    DatasetName       : OutputDataset
    Start             : 5/11/2017 8:00:00 PM
    End               : 5/11/2017 9:00:00 PM
    RetryCount        : 0
    State             : Waiting
    SubState          : ConcurrencyLimit
    LatencyStatus     :
    LongRetryCount    : 0
    
  3. Jalankan Get-AzDataFactoryRun untuk mendapatkan detail aktivitas yang dijalankan untuk potongan tertentu. Salin nilai tanggal-waktu dari output perintah sebelumnya untuk menentukan nilai parameter StartDateTime.

    Get-AzDataFactoryRun $df -DatasetName OutputDataset -StartDateTime "5/11/2017 09:00:00 PM"
    

    Berikut sampel outputnya:

    Id                  : c0ddbd75-d0c7-4816-a775-704bbd7c7eab_636301332000000000_636301368000000000_OutputDataset
    ResourceGroupName   : ADFTutorialResourceGroup
    DataFactoryName     : ADFTutorialDataFactoryPSH0516
    DatasetName         : OutputDataset
    ProcessingStartTime : 5/16/2017 8:00:33 PM
    ProcessingEndTime   : 5/16/2017 8:01:36 PM
    PercentComplete     : 100
    DataSliceStart      : 5/11/2017 9:00:00 PM
    DataSliceEnd        : 5/11/2017 10:00:00 PM
    Status              : Succeeded
    Timestamp           : 5/16/2017 8:00:33 PM
    RetryAttempt        : 0
    Properties          : {}
    ErrorMessage        :
    ActivityName        : CopyFromBlobToSQL
    PipelineName        : ADFTutorialPipeline
    Type                : Copy  
    

Lihat Referensi Cmdlet Data Factory untuk dokumentasi komprehensif tentang cmdlet Data Factory.

Ringkasan

Dalam tutorial ini, Anda membuat pabrik data Azure untuk menyalin data dari blob Azure ke Azure SQL Database. Anda menggunakan PowerShell untuk membuat pabrik data, layanan tertaut, himpunan data, dan alur. Berikut adalah langkah-langkah tingkat tinggi yang Anda lakukan dalam tutorial ini:

  1. Membuat pabrik data Azure.

  2. Membuat layanan tertaut:

    a. Layanan tertaut Azure Storage untuk menautkan akun penyimpanan Azure Anda yang menyimpan data input.
    b. Layanan tertaut Azure SQL untuk menautkan database SQL Anda yang menyimpan data output.

  3. Membuat himpunan data, yang menjelaskan data input dan data output untuk alur.

  4. Membuat alur dengan Aktivitas Salin dengan BlobSource sebagai sumber dan SqlSink sebagai sink.

Langkah berikutnya

Dalam tutorial ini, Anda menggunakan penyimpanan blob Azure sebagai penyimpanan data sumber dan Azure SQL Database sebagai penyimpanan data tujuan dalam operasi salinan. Tabel berikut ini menyediakan daftar penyimpanan data yang didukung sebagai sumber dan tujuan oleh aktivitas salin:

Kategori Penyimpanan data Didukung sebagai sumber Didukung sebagai sink
Azure Azure Blob Storage
  Azure Cosmos DB (SQL API)
  Azure Data Lake Storage Gen1
  Azure SQL Database
  Azure Synapse Analytics
  Indeks Azure Cognitive Search
  Penyimpanan Tabel Azure
Database Amazon Redshift
  DB2*
  MySQL*
  Oracle*
  PostgreSQL*
  SAP Business Warehouse*
  SAP HANA*
  SQL Server*
  Sybase*
  Teradata*
NoSQL Cassandra*
  MongoDB*
File Amazon S3
  Sistem File*
  FTP
  HDFS*
  SFTP
Lainnya HTTP Generik
  OData Generik
  ODBC Generik*
  Salesforce
  Tabel Web (tabel dari HTML)

Untuk mempelajari tentang cara menyalin data ke/dari penyimpanan data, klik tautan untuk penyimpanan data dalam tabel.