Memindahkan data antara sumber lokal dan cloud dengan Data Management Gateway

Catatan

Artikel ini berlaku untuk versi 1 dari Azure Data Factory. Jika Anda menggunakan versi layanan Data Factory saat ini, lihat menyalin data antara lokal dan cloud menggunakan Data Factory.

Artikel ini menyediakan gambaran umum integrasi data antara penyimpanan data lokal dan penyimpanan data cloud menggunakan Data Factory. Ini dibangun pada artikel Aktivitas Pergerakan Data dan artikel konsep inti Data Factory lainnya: kumpulan data dan alur.

Data Management Gateway

Anda harus menginstal Data Management Gateway di mesin lokal Anda untuk mengaktifkan pemindahan data ke/dari penyimpanan data lokal. Gateway dapat diinstal pada mesin yang sama dengan penyimpanan data atau di mesin yang berbeda selama gateway dapat tersambung ke penyimpanan data.

Penting

Lihat artikel Data Management Gateway untuk detail tentang Data Management Gateway.

Detail berikut ini memperlihatkan kepada Anda cara membuat data factory dengan saluran yang memindahkan data dari database SQL Server lokal ke penyimpanan blob Azure. Sebagai bagian dari panduan, Anda menginstal dan mengonfigurasi Data Management Gateway di komputer Anda.

Detail: menyalin data lokal ke cloud

Dalam penelusuran ini Anda melakukan langkah-langkah berikut:

  1. Buat data factory.
  2. Membuat data management gateway.
  3. Buat layanan tertaut untuk penyimpanan data sumber dan sink.
  4. Membuat set data untuk mewakili data input dan output.
  5. Buat alur dengan aktivitas salin untuk memindahkan data.

Prasyarat untuk tutorial

Sebelum Anda memulai penelusuran ini, Anda harus memiliki prasyarat berikut:

  • Langganan Azure. Jika Anda tidak memiliki langganan, Anda dapat membuat akun uji coba gratis hanya dalam beberapa menit. Lihat artikel Uji Coba Gratis untuk detailnya.
  • Akun Azure Storage. Anda menggunakan penyimpanan blob sebagai penyimpanan data tujuan/sink dalam tutorial ini. Jika Anda tidak memiliki akun Azure storage, lihat artikel Membuat akun penyimpanan untuk mengetahui langkah-langkah membuatnya.
  • Microsoft SQL Server. Anda menggunakan database SQL Server sebagai penyimpanan data sumber dalam tutorial ini.

Membuat data factory

Dalam langkah ini, Anda menggunakan portal Microsoft Azure untuk membuat instans Azure Data Factory bernama ADFTutorialOnPremDF.

  1. Masuk ke portal Microsoft Azure.

  2. Klik Buat sumber daya, klik Kecerdasan + analitik, dan klik Azure Data Factory.

    New->DataFactory

  3. Di halaman Data factory baru, masukkan ADFTutorialOnPremDF untuk Nama.

    Add to Startboard

    Penting

    Nama Azure data factory harus bersifat unik secara global. Jika Anda menerima kesalahan: Nama data factory "ADFTutorialOnPremDF" tidak tersedia, ubah nama data factory (misalnya, yournameADFTutorialOnPremDF) dan coba buat lagi. Gunakan nama ini sebagai pengganti ADFTutorialOnPremDF saat melakukan langkah-langkah dalam tutorial ini.

    Nama data factory dapat didaftarkan sebagai nama DNS di masa depan dan karenanya menjadi terlihat secara publik.

  4. Pilih langganan Azure di tempat Anda ingin Data Factory dibuat.

  5. Pilih grup sumber daya yang ada atau buat grup sumber daya. Untuk tutorial, buat grup sumber daya bernama: ADFTutorialResourceGroup.

  6. Klik Buat pada bilah Pabrik data baru.

    Penting

    Untuk membuat instans Data Factory, Anda harus menjadi anggota peran Kontributor Data Factory di tingkat langganan/grup sumber daya.

  7. Setelah pembuatan selesai, Anda akan melihat bilah Data Factory seperti yang ditunjukkan pada gambar berikut:

    Data Factory Home Page

Buat gateway

  1. Di halaman Azure Data Factory, klik Tulis dan terapkan petak untuk meluncurkan Editor untuk Data Factory.

    Author and Deploy Tile

  2. Di Editor Azure Data Factory, klik ... Selengkapnya tentang toolbar lalu klik Gateway data baru. Atau, Anda bisa mengklik kanan Gateway Data dalam tampilan pohon, dan klik Gateway data baru.

    New data gateway on toolbar

  3. Di halaman Buat, masukkan adftutorialgateway untuk nama, dan klik OK.

    Create Gateway page

    Catatan

    Dalam penelusuran ini, Anda membuat gateway logis hanya dengan satu simpul (mesin Windows lokal). Anda bisa menskalakan data management gateway dengan mengaitkan beberapa mesin lokal dengan gateway. Anda dapat meningkatkan skala dengan meningkatkan jumlah pekerjaan pergerakan data yang dapat berjalan bersamaan pada simpul. Fitur ini juga tersedia untuk gateway logis dengan satu simpul. Lihat Menskalakan data management gateway di artikel Azure Data Factory untuk detailnya.

  4. Di halaman Konfigurasi, klik Instal langsung di komputer ini. Tindakan ini mengunduh paket instalasi untuk gateway, menginstal, mengonfigurasi, dan mendaftarkan gateway di komputer.

    Catatan

    Gunakan browser web yang kompatibel dengan Internet Explorer atau Microsoft ClickOnce.

    Jika Anda menggunakan Chrome, buka penyimpanan web Chrome, cari dengan kata kunci "ClickOnce", pilih salah satu ekstensi ClickOnce, dan instal.

    Lakukan hal yang sama untuk Firefox (instal add-in). Klik tombol Buka Menu pada toolbar(tiga garis horizontal di sudut kanan atas), klik Add-on, cari dengan kata kunci "ClickOnce", pilih salah satu ekstensi ClickOnce, dan instal.

    Gateway - Configure page

    Cara ini adalah cara termudah (satu klik) untuk mengunduh, menginstal, mengonfigurasi, dan mendaftarkan gateway dalam satu langkah. Anda dapat melihat aplikasi Microsoft Data Management Gateway Configuration Manager diinstal di komputer Anda. Anda juga dapat menemukan file yang ConfigManager.exe di folder: C:\Program Files\Microsoft Data Management Gateway\2.0\Shared.

    Anda juga dapat mengunduh dan menginstal gateway secara manual dengan menggunakan tautan di halaman ini dan mendaftarkannya menggunakan kunci yang diperlihatkan dalam kotak teks KUNCI BARU.

    Lihat artikel Data Management Gateway untuk semua detail tentang gateway.

    Catatan

    Anda harus merupakan administrator pada komputer lokal untuk menginstal dan mengonfigurasi Data Management Gateway dengan sukses. Anda bisa menambahkan pengguna tambahan ke grup Windows lokal Pengguna Data Management Gateway. Anggota grup ini dapat menggunakan alat Microsoft Endpoint Configuration Manager Data Management Gateway untuk mengonfigurasi gateway.

  5. Tunggu beberapa menit atau tunggu hingga Anda melihat pesan pemberitahuan berikut:

    Gateway installation successful

  6. Luncurkan aplikasi Microsoft Endpoint Configuration Manager Data Management Gateway di komputer Anda. Di jendela Pencarian, ketik Data Management Gateway untuk mengakses utilitas ini. Anda juga dapat menemukan file yang ConfigManager.exe di folder: C:\Program Files\Microsoft Data Management Gateway\2.0\Shared

    Gateway Configuration Manager

  7. Konfirmasikan bahwa Anda melihat adftutorialgateway is connected to the cloud service pesan. Bilah status bagian bawah menampilkan Tersambung ke layanan cloud bersama dengan tanda centang hijau.

    Pada tab Berand, Anda juga bisa melakukan operasi berikut ini:

    • Daftarkan gateway dengan kunci dari portal Microsoft Azure dengan menggunakan tombol Daftar.
    • Hentikan Layanan Host Data Management Gateway yang berjalan di mesin gateway Anda.
    • Jadwalkan pembaruan yang akan diinstal pada waktu tertentu dalam sehari.
    • Lihat kapan gateway terakhir diperbarui.
    • Tentukan waktu di mana pembaruan ke gateway dapat diinstal.
  8. Beralih ke tab Pengaturan. Sertifikat yang ditentukan di bagian Sertifikat digunakan untuk mengenkripsi/mendekripsi kredensial untuk penyimpanan data lokal yang Anda tentukan di portal. (opsional) Klik Ubah untuk menggunakan sertifikat Anda sendiri. Secara default, gateway menggunakan sertifikat yang dibuat secara otomatis oleh layanan Azure Data Factory.

    Gateway certificate configuration

    Anda juga bisa melakukan tindakan berikut pada tab Pengaturan:

    • Menampilkan atau mengekspor sertifikat yang sedang digunakan oleh gateway.
    • Ubah titik akhir HTTPS yang digunakan oleh gateway.
    • Atur proksi HTTP yang akan digunakan oleh gateway.
  9. (opsional) Beralih ke tab Diagnostik, centang opsi Aktifkan pembuatan log verbose jika Anda ingin mengaktifkan pembuatan log verbose yang bisa Anda gunakan untuk memecahkan masalah apa pun dengan gateway. Informasi pengelogan dapat ditemukan di Pemantau Peristiwa di bawah node Data Management Gateway Aplikasi-> dan Layanan Log.

    Diagnostics tab

    Anda juga bisa melakukan tindakan berikut di tab Diagnostik:

    • Gunakan bagian Uji Koneksi ke sumber data lokal menggunakan gateway.
    • Klik Tampilkan Log untuk melihat log Data Management Gateway di jendela Pemantau Peristiwa.
    • Klik Kirim Log untuk mengunggah file zip dengan log tujuh hari terakhir ke Microsoft untuk memfasilitasi pemecahan masalah Anda.
  10. Pada tab Diagnostik, di bagian Koneksi Uji, pilih SqlServer untuk tipe penyimpanan data, masukkan nama server database, nama database, tentukan tipe autentikasi, masukkan nama pengguna, dan kata sandi, dan klik Uji untuk menguji apakah gateway bisa tersambung ke database.

  11. Beralih ke browser web, dan di portal Microsoft Azure, klik OK pada halaman Konfigurasi lalu pada halaman Gateway data baru.

  12. Anda akan melihat adftutorialgateway di bawah Gateway Data dalam tampilan pohon di sebelah kiri. Jika Anda mengkliknya, Anda akan melihat JSON terkait.

Buat layanan tertaut

Dalam langkah ini, Anda membuat dua layanan tertaut: AzureStorageLinkedService dan SqlServerLinkedService. SqlServerLinkedService menautkan database SQL Server dan layanan tertaut AzureStorageLinkedService ke tautan penyimpanan blob Azure ke Data Factory. Anda membuat alur nanti di penelusuran ini yang menyalin data dari database SQL Server ke Azure blob storage.

Menambahkan layanan tertaut ke database SQL Server

  1. Di Editor Azure Data Factory, klik Penyimpanan data baru pada toolbar dan pilih SQL Server.

    New SQL Server linked service

  2. Di editor JSON di sebelah kanan, lakukan langkah-langkah berikut:

    1. Untuk gatewayName, tentukan adftutorialgateway.

    2. Dalam connectionString, lakukan langkah-langkah berikut:

      1. Untuk namaserver, masukkan nama server yang menghosting database SQL Server.

      2. Untuk nama database, masukkan nama database.

      3. Klik tombol Enkripsi pada toolbar. Anda melihat aplikasi Pengelola Kredensial.

        Credentials Manager application

      4. Dalam kotak dialog Pengaturan Kredensial, tentukan tipe autentikasi, nama pengguna, dan kata sandi, dan klik OK. Jika koneksi berhasil, kredensial terenkripsi disimpan di JSON dan kotak dialog ditutup.

      5. Tutup tab browser kosong yang meluncurkan kotak dialog jika tidak ditutup secara otomatis dan kembali ke tab dengan portal Microsoft Azure.

        Pada mesin gateway, kredensial ini dienkripsi dengan menggunakan sertifikat yang dimiliki layanan Azure Data Factory. Jika Anda ingin menggunakan sertifikat yang terkait dengan Data Management Gateway, lihat Mengatur kredensial dengan aman.

    3. Klik Terapkan pada bilah perintah untuk menggunakan layanan tertaut Microsoft SQL Server. Anda akan melihat layanan tertaut dalam tampilan pohon.

      SQL Server linked service in the tree view

Membuat layanan tertaut untuk akun Azure storage

  1. Di Editor Data Factory, klik Penyimpanan data baru pada bilah perintah dan klik Penyimpanan Azure.
  2. Masukkan nama akun Azure storage Anda untuk nama Akun.
  3. Masukkan kunci untuk akun Azure storage Anda untuk kunci Akun.
  4. Klik Terapkan untuk menggunakan AzureStorageLinkedService.

Membuat himpunan data

Dalam langkah ini, Anda membuat kumpulan data input dan output yang mewakili data input dan output untuk operasi salin (Database SQL Server lokal => Azure blob storage). Sebelum membuat kumpulan data, lakukan langkah-langkah berikut (langkah-langkah mendetail mengikuti daftar):

  • Buat tabel bernama emp di Database SQL Server yang Anda tambahkan sebagai layanan tertaut ke Data Factory dan sisipkan beberapa contoh entri ke dalam tabel.
  • Buat kontainer blob bernama adftutorial di akun penyimpanan blob Azure yang Anda tambahkan sebagai layanan tertaut ke Data Factory.

Siapkan Microsoft SQL Server lokal untuk tutorial

  1. Dalam database yang Anda tentukan untuk layanan tertaut SQL Server (SqlServerLinkedService), gunakan skrip SQL berikut untuk membuat tabel emp dalam database.

    CREATE TABLE dbo.emp
    (
        ID int IDENTITY(1,1) NOT NULL,
        FirstName varchar(50),
        LastName varchar(50),
        CONSTRAINT PK_emp PRIMARY KEY (ID)
    )
    GO
    
  2. Sisipkan beberapa sampel ke dalam tabel:

    INSERT INTO emp VALUES ('John', 'Doe')
    INSERT INTO emp VALUES ('Jane', 'Doe')
    

Membuat himpunan data input

  1. Di Editor Azure Data Factory, klik ... Lainnya, klik Set data baru pada bilah perintah, dan klik tabel SQL Server.

  2. Ganti JSON di panel kanan dengan teks berikut ini:

    {
        "name": "EmpOnPremSQLTable",
        "properties": {
            "type": "SqlServerTable",
            "linkedServiceName": "SqlServerLinkedService",
            "typeProperties": {
                "tableName": "emp"
            },
            "external": true,
            "availability": {
                "frequency": "Hour",
                "interval": 1
            },
            "policy": {
                "externalData": {
                    "retryInterval": "00:01:00",
                    "retryTimeout": "00:10:00",
                    "maximumRetry": 3
                }
            }
        }
    }
    

    Perhatikan poin berikut:

    • tipe diatur ke SqlServerTable.
    • tableName diatur ke emp.
    • linkedServiceName diatur ke SqlServerLinkedService (Anda telah membuat layanan tertaut ini sebelumnya di walkthrough ini.).
    • Untuk kumpulan data input yang tidak dihasilkan oleh jalur lain di Azure Data Factory, Anda harus mengatur eksternal ke true. Ini menunjukkan data input diproduksi di luar layanan Azure Data Factory. Anda dapat secara opsional menentukan kebijakan data eksternal apa pun menggunakan elemen externalData di bagian Azure Policy.

    Lihat Memindahkan data ke/dari SQL Server untuk detail tentang properti JSON.

  3. Pilih Deploy pada bilah perintah untuk menyebarkan alur.

Membuat himpunan data output

  1. Di Editor Data Factory, klik Set data baru di bilah perintah, dan klik Penyimpanan Blob Azure.

  2. Ganti JSON di panel kanan dengan teks berikut ini:

    {
        "name": "OutputBlobTable",
        "properties": {
            "type": "AzureBlob",
            "linkedServiceName": "AzureStorageLinkedService",
            "typeProperties": {
                "folderPath": "adftutorial/outfromonpremdf",
                "format": {
                    "type": "TextFormat",
                    "columnDelimiter": ","
                }
            },
            "availability": {
                "frequency": "Hour",
                "interval": 1
            }
        }
    }
    

    Perhatikan poin berikut:

    • tipe diatur ke AzureBlob.
    • linkedServiceName diatur ke AzureStorageLinkedService (Anda telah membuat layanan tertaut ini di Langkah 2).
    • folderPath diatur ke adftutorial/outfromonpremdf di mana outfromonpremdf adalah folder dalam kontainer adftutorial. Buat kontainer adftutorial jika belum ada.
    • Ketersediaan diatur ke per jam (frekuensi diatur ke jam dan interval diatur ke 1). Layanan Data Factory menghasilkan potongan data output setiap jam dalam tabel emp di Microsoft Azure SQL Database.

    Jika Anda tidak menentukan fileName untuk tabel output, file yang dihasilkan dalam folderPath dinamai dalam format berikut: Data.<Guid>.txt (misalnya: : Data.0a405f8a-93ff-4c6f-b3be-f69616f1df7a.txt.).

    Untuk mengatur folderPath dan fileName secara dinamis berdasarkan waktu SliceStart, gunakan properti partitionedBy. Dalam contoh berikut, folderPath menggunakan Tahun, Bulan, dan Hari dari SliceStart (waktu mulai dari potongan yang sedang diproses) dan fileName menggunakan Jam dari SliceStart. Misalnya, jika potongan sedang diproduksi untuk 2014-10-20T08:00:00, folderName diatur ke wikidatagateway/wikisampledataout/2014/10/20 dan fileName diatur ke 08.csv.

    "folderPath": "wikidatagateway/wikisampledataout/{Year}/{Month}/{Day}",
    "fileName": "{Hour}.csv",
    "partitionedBy":
    [
    
        { "name": "Year", "value": { "type": "DateTime", "date": "SliceStart", "format": "yyyy" } },
        { "name": "Month", "value": { "type": "DateTime", "date": "SliceStart", "format": "MM" } },
        { "name": "Day", "value": { "type": "DateTime", "date": "SliceStart", "format": "dd" } },
        { "name": "Hour", "value": { "type": "DateTime", "date": "SliceStart", "format": "hh" } }
    ],
    

    Lihat Memindahkan data ke/dari Azure Blob Storage untuk detail tentang properti JSON.

  3. Pilih Deploy pada bilah perintah untuk menyebarkan alur. Konfirmasikan bahwa Anda melihat kedua set data dalam tampilan pohon.

Buat alur

Dalam langkah ini, Anda membuat alur dengan satu Aktivitas Salin yang menggunakan EmpOnPremSQLTable sebagai input dan OutputBlobTable sebagai output.

  1. Di Editor Azure Data Factory, klik ... Lainnya, dan klik alur Baru.

  2. Ganti JSON di panel kanan dengan teks berikut ini:

     {
         "name": "ADFTutorialPipelineOnPrem",
         "properties": {
         "description": "This pipeline has one Copy activity that copies data from an on premises SQL to Azure blob",
         "activities": [
           {
             "name": "CopyFromSQLtoBlob",
             "description": "Copy data from on premises SQL server to blob",
             "type": "Copy",
             "inputs": [
               {
                 "name": "EmpOnPremSQLTable"
               }
             ],
             "outputs": [
               {
                 "name": "OutputBlobTable"
               }
             ],
             "typeProperties": {
               "source": {
                 "type": "SqlSource",
                 "sqlReaderQuery": "select * from emp"
               },
               "sink": {
                 "type": "BlobSink"
               }
             },
             "Policy": {
               "concurrency": 1,
               "executionPriorityOrder": "NewestFirst",
               "style": "StartOfInterval",
               "retry": 0,
               "timeout": "01:00:00"
             }
           }
         ],
         "start": "2016-07-05T00:00:00Z",
         "end": "2016-07-06T00:00:00Z",
         "isPaused": false
       }
     }
    

    Penting

    Ganti nilai properti mulai dengan hari ini dan nilai akhir dengan hari berikutnya.

    Perhatikan poin berikut:

    • Di bagian aktivitas, hanya ada satu aktivitas yang jenisnya diset ke Salin.
    • Input untuk aktivitas diatur ke EmpOnPremSQLTable dan output untuk aktivitas diatur ke OutputBlobTable.
    • Di bagian typeProperties, SqlSource ditentukan sebagai tipe sumber dan BlobSink ditentukan sebagai tipe sink.
    • select * from empKueri SQL ditentukan untuk properti sqlReaderQuerySqlSource.

    Waktu mulai dan tanggal akhir harus dalam format ISO. Misalnya: 2014-10-14T16:32:41Z. Waktu akhir bersifat opsional, tetapi kami menggunakannya dalam tutorial ini.

    Jika Anda tidak menentukan nilai untuk properti akhir, itu dihitung "mulai + 48 jam". Untuk menjalankan jalur tanpa batas waktu, tentukan 9/9/9999 sebagai nilai untuk properti akhir.

    Anda menentukan durasi waktu di mana potongan data diproses berdasarkan properti Ketersediaan yang ditentukan untuk setiap kumpulan data Azure Data Factory.

    Dalam contoh sebelumnya, ada 24 irisan data karena setiap irisan data diproduksi per jam.

  3. Klik Terapkan pada bilah perintah untuk menyebarkan kumpulan data (tabel adalah kumpulan data persegi panjang). Konfirmasikan bahwa alur muncul di tampilan pohon di bawah Node alur.

  4. Sekarang, klik X dua kali untuk menutup halaman untuk kembali ke halamanAzure Data Factory untuk ADFTutorialOnPremDF.

Selamat! Anda telah berhasil membuat Data Factory Azure, layanan tertaut, set data, dan alur dan menjadwalkan alur.

Menampilkan Data Factory dalam Tampilan Diagram

  1. Di portal Microsoft Azure, klik Petak Diagram di halaman beranda untuk Data Factory ADFTutorialOnPremDF. :

    Diagram Link

  2. Anda akan melihat diagram yang mirip dengan gambar berikut:

    Diagram View

    Anda dapat memperbesar, memperkecil, memperbesar hingga 100%, memperbesar agar pas, memposisikan saluran pipa dan set data secara otomatis, dan memperlihatkan informasi garis keturunan (menyoroti item hulu dan hilir dari item yang dipilih). Anda dapat mengeklik ganda objek (set data input/output atau jalur) untuk melihat properti untuk objek tersebut.

Memantau alur

Dalam langkah ini, Anda menggunakan portal Microsoft Azure untuk memantau apa yang terjadi di Data Factory Azure. Anda juga dapat menggunakan cmdlet PowerShell untuk memantau set data dan saluran pipa. Untuk detail tentang pemantauan, lihat Memantau dan Mengelola Alur.

  1. Dalam diagram, klik ganda EmpOnPremSQLTable.

    EmpOnPremSQLTable slices

  2. Perhatikan bahwa semua potongan data berada dalam status Siap karena durasi jalur (waktu mulai untuk mengakhiri waktu) ada di masa lalu. Ini juga karena Anda telah menyisipkan data dalam database SQL Server dan itu ada di sana sepanjang waktu. Konfirmasikan bahwa tidak ada irisan yang muncul di bagian Potongan masalah di bagian bawah. Untuk menampilkan semua potongan, klik Lihat Lainnya di bagian bawah daftar potongan.

  3. Sekarang, Di halaman Kumpulan Data, klik OutputBlobTable.

    OputputBlobTable slices

  4. Klik potongan data apa pun dari daftar dan Anda akan melihat halaman Potongan Data. Anda melihat aktivitas berjalan untuk potongan. Anda hanya melihat satu aktivitas berjalan biasanya.

    Data Slice Blade

    Jika potongan tidak dalam keadaan Siap, Anda dapat melihat potongan hulu yang tidak Siap dan menghalangi potongan saat ini dari mengeksekusi dalam irisan Hulu yang tidak siap daftar.

  5. Klik aktivitas yang dijalankan dari daftar di bagian bawah untuk melihat detail jalankan aktivitas.

    Activity Run Details page

    Anda akan melihat informasi seperti throughput, durasi, dan gateway yang digunakan untuk mentransfer data.

  6. Klik X untuk menutup semua halaman hingga Anda

  7. kembali ke halaman beranda untuk ADFTutorialOnPremDF.

  8. (opsional) Klik Alur, klik ADFTutorialOnPremDF, dan telusuri tabel input (Digunakan)atau set data output (Diproduksi).

  9. Gunakan alat seperti Microsoft Storage Explorer untuk memverifikasi bahwa blob/file dibuat untuk setiap jam.

    Azure Storage Explorer

Langkah berikutnya