Himpunan data di Azure Data Factory dan Azure Synapse Analytics

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Artikel ini menjelaskan apa itu himpunan data, bagaimana mereka didefinisikan dalam format JSON, dan bagaimana mereka digunakan di Azure Data Factory dan alur Synapse.

Jika Anda baru menggunakan Data Factory, lihat Pengantar Azure Data Factory untuk mengetahui gambaran umumnya. Untuk informasi selengkapnya tentang Azure Synapse, lihat Apa itu Azure Synapse

Gambaran Umum

Pabrik data atau ruang kerja Synapse dapat memiliki satu alur atau lebih. Alur adalah pengelompokan logis aktivitas yang melakukan tugas bersama-sama. Aktivitas dalam alur menentukan tindakan yang harus dilakukan pada data Anda. Sekarang, himpunan data adalah tampilan data bernama yang hanya menunjuk atau mereferensikan data yang ingin Anda gunakan dalam aktivitas Anda sebagai input dan output. Himpunan data mengidentifikasi data dalam penyimpanan data yang berbeda, seperti tabel, file, folder, dan dokumen. Misalnya, himpunan data Azure Blob menentukan kontainer blob dan folder di penyimpanan Azure Blob tempat aktivitas harus membaca data.

Sebelum membuat himpunan data, Anda harus membuat layanan tertaut untuk menautkan penyimpanan data Anda ke layanan. Layanan tertaut sangat mirip dengan string koneksi, yang menentukan informasi koneksi yang diperlukan agar layanan terhubung ke sumber daya eksternal. Pikirkan cara ini; himpunan data mewakili struktur data dalam penyimpanan data tertaut, dan layanan tertaut menentukan koneksi ke sumber data. Misalnya, layanan tertaut Azure Storage menautkan akun penyimpanan. Himpunan data Azure Blob mencerminkan kontainer blob dan folder dalam akun Azure Storage tersebut yang berisi blob input yang akan diproses.

Berikut adalah contoh skenario. Untuk menyalin data dari penyimpanan Blob ke SQL Database, Anda membuat dua layanan tertaut: Azure Blob Storage dan Azure SQL Database. Kemudian, buat dua himpunan data: Himpunan data Teks Berbatas (yang mengacu pada layanan tertaut Azure Blob Storage, dengan asumsi Anda memiliki file teks sebagai sumber) dan himpunan data Azure SQL Table (yang mengacu pada layanan tertaut Azure SQL Database). Layanan tertaut Azure Blob Storage dan Azure SQL Database berisi string koneksi yang digunakan layanan saat runtime untuk terhubung ke Azure Storage dan Azure SQL Database Anda. Himpunan data Teks Berbatas menentukan kontainer blob dan folder blob yang berisi blob input di penyimpanan Blob Anda, bersama dengan pengaturan terkait format. Himpunan data Azure SQL Table menentukan tabel SQL dalam SQL Database Anda tempat data akan disalin.

Diagram berikut menunjukkan hubungan antara alur, aktivitas, himpunan data, dan layanan tertaut:

Hubungan antara alur, aktivitas, himpunan data, layanan tertaut

Himpunan data JSON

Himpunan data di Data Factory didefinisikan dalam format JSON sebagai berikut:

{
    "name": "<name of dataset>",
    "properties": {
        "type": "<type of dataset: DelimitedText, AzureSqlTable etc...>",
        "linkedServiceName": {
                "referenceName": "<name of linked service>",
                "type": "LinkedServiceReference",
        },
        "schema":[

        ],
        "typeProperties": {
            "<type specific property>": "<value>",
            "<type specific property 2>": "<value 2>",
        }
    }
}

Tabel berikut ini menjelaskan properti di JSON di atas:

Properti Deskripsi Diperlukan
nama Nama himpunan data. Lihat Aturan penamaan. Ya
jenis Jenis himpunan data. Menentukan salah satu jenis yang didukung oleh Azure Data Factory (misalnya: DelimitedText, AzureSqlTable).

Untuk detailnya, lihat Jenis himpunan data.
Ya
schema Skema himpunan data, mewakili jenis dan bentuk data fisik. Tidak
typeProperties Properti type berbeda untuk setiap jenis. Untuk detail tentang jenis yang didukung dan propertinya, lihat Jenis himpunan data. Ya

Saat Anda mengimpor skema himpunan data, pilih tombol Impor Skema dan pilih untuk mengimpor dari sumber atau dari file lokal. Dalam kebanyakan kasus, Anda akan mengimpor skema langsung dari sumbernya. Tetapi jika Anda sudah memiliki file skema lokal (file Parket atau CSV dengan header), Anda dapat mengarahkan layanan untuk mendasarkan skema pada file tersebut.

Dalam aktivitas salin, himpunan data digunakan dalam sumber dan sink. Skema yang ditentukan dalam himpunan data bersifat opsional sebagai referensi. Jika Anda ingin menerapkan pemetaan kolom/bidang antara sumber dan sink, lihat Pemetaan skema dan jenis.

Di Aliran Data, himpunan data digunakan dalam transformasi sumber dan sink. Himpunan data menentukan skema data dasar. Jika data Anda tidak memiliki skema, Anda dapat menggunakan peralihan skema untuk sumber dan sink Anda. Metadata dari himpunan data muncul dalam transformasi sumber Anda sebagai proyeksi sumber. Proyeksi dalam transformasi sumber mewakili data Aliran Data dengan nama dan tipe yang ditentukan.

Jenis himpunan data

Layanan ini mendukung berbagai jenis himpunan data, tergantung pada penyimpanan data yang Anda gunakan. Anda dapat menemukan daftar penyimpanan data yang didukung oleh Azure Data Factory dari artikel gambaran umum konektor. Klik penyimpanan data untuk mempelajari cara membuat layanan tertaut dan himpunan data untuk penyimpanan data tersebut.

Misalnya, untuk himpunan data Teks Berbatas, jenis himpunan data diatur ke DelimitedText seperti yang diperlihatkan dalam sampel JSON berikut:

{
    "name": "DelimitedTextInput",
    "properties": {
        "linkedServiceName": {
            "referenceName": "AzureBlobStorage",
            "type": "LinkedServiceReference"
        },
        "annotations": [],
        "type": "DelimitedText",
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "fileName": "input.log",
                "folderPath": "inputdata",
                "container": "adfgetstarted"
            },
            "columnDelimiter": ",",
            "escapeChar": "\\",
            "quoteChar": "\""
        },
        "schema": []
    }
}

Membuat himpunan data

Anda dapat membuat himpunan data dengan menggunakan salah satu alat atau SDK ini: .NET API, PowerShell, REST API, Templat Azure Resource Manager, dan portal Microsoft Azure

Himpunan data versi saat ini vs. versi 1

Berikut adalah beberapa perbedaan antara himpunan data dalam versi Data Factory saat ini (dan Azure Synapse), dan Pabrik Data warisan versi 1:

  • Properti eksternal tidak didukung dalam versi saat ini. Ini digantikan oleh pemicu.
  • Properti kebijakan dan ketersediaan tidak didukung dalam versi saat ini. Waktu mulai untuk alur tergantung pada pemicu.
  • Himpunan data tercakup (kumpulan data yang ditentukan dalam alur) tidak didukung dalam versi saat ini.

Langkah berikutnya

Lihat tutorial berikut untuk instruksi langkah demi langkah untuk membuat alur dan himpunan data menggunakan salah satu alat atau SDK ini.