Sumber data dan jenis file yang didukung
Artikel ini membahas sumber data, jenis file, dan konsep pemindaian yang saat ini didukung dalam Peta Data Microsoft Purview.
Peta Data Microsoft Purview sumber data yang tersedia
Tabel di bawah ini memperlihatkan kemampuan yang didukung untuk setiap sumber data. Pilih sumber data, atau fitur, untuk mempelajari selengkapnya.
| Kategori | Penyimpanan data | Metadata teknis | Klasifikasi | Silsilah | Kebijakan akses | Berbagi Data |
|---|---|---|---|---|---|---|
| Azure | Azure Blob Storage | Ya | Ya | Terbatas* | Ya (Pratinjau) | Ya |
| Azure Cosmos DB | Ya | Ya | Tidak* | Tidak | Tidak | |
| Azure Data Explorer | Ya | Ya | Tidak* | Tidak | Tidak | |
| Azure Data Factory | Ya | Tidak | Ya | Tidak | Tidak | |
| Azure Data Lake Storage Gen1 | Ya | Ya | Terbatas* | Tidak | Tidak | |
| Azure Data Lake Storage Gen2 | Ya | Ya | Terbatas* | Ya (Pratinjau) | Ya | |
| Azure Data Share | Ya | Tidak | Ya | Tidak | Tidak | |
| Azure Database untuk MySQL | Ya | Ya | Tidak* | Tidak | Tidak | |
| Azure Database untuk PostgreSQL | Ya | Ya | Tidak* | Tidak | Tidak | |
| Kumpulan SQL Azure (sebelumnya SQL DW) Khusus | Ya | Ya | Tidak* | Tidak | Tidak | |
| File Azure | Ya | Ya | Terbatas* | Tidak | Tidak | |
| Azure SQL Database | Ya | Ya | Ya (Pratinjau) | Ya (Pratinjau) | Tidak | |
| Instans Terkelola Azure SQL | Ya | Ya | Tidak* | Tidak | Tidak | |
| Azure Synapse Analytics (Ruang Kerja) | Ya | Ya | Ya - Alur Synapse | Tidak | Tidak | |
| Database | Amazon RDS | Ya | Ya | Tidak | Tidak | Tidak |
| Cassandra | Ya | Tidak | Ya | Tidak | Tidak | |
| Db2 | Ya | Tidak | Ya | Tidak | Tidak | |
| Google BigQuery | Ya | Tidak | Ya | Tidak | Tidak | |
| Database Metastore Apache Hive | Ya | Tidak | Ya* | Tidak | Tidak | |
| MongoDB | Ya | Tidak | Tidak | Tidak | Tidak | |
| MySQL | Ya | Tidak | Ya | Tidak | Tidak | |
| Oracle | Ya | Tidak | Ya* | Tidak | Tidak | |
| PostgreSQL | Ya | Tidak | Ya | Tidak | Tidak | |
| SAP Business Warehouse | Ya | Tidak | Tidak | Tidak | Tidak | |
| SAP HANA | Ya | Tidak | Tidak | Tidak | Tidak | |
| Snowflake | Ya | Tidak | Ya | Tidak | Tidak | |
| SQL Server | Ya | Ya | Tidak* | Tidak | Tidak | |
| SQL Server di Azure-Arc | Tidak | Tidak | Tidak | Ya (Pratinjau) | Tidak | |
| Teradata | Ya | Tidak | Ya* | Tidak | Tidak | |
| File | Amazon S3 | Ya | Ya | Terbatas* | Tidak | Tidak |
| Layanan dan aplikasi | Erwin | Ya | Tidak | Ya | Tidak | Tidak |
| Looker | Ya | Tidak | Ya | Tidak | Tidak | |
| Power BI | Ya | Tidak | Ya | Tidak | Tidak | |
| Salesforce | Ya | Tidak | Tidak | Tidak | Tidak | |
| SAP ECC | Ya | Tidak | Ya* | Tidak | Tidak | |
| SAP S/4HANA | Ya | Tidak | Ya* | Tidak | Tidak |
* Selain silsilah data pada aset dalam sumber data, silsilah juga didukung jika himpunan data digunakan sebagai sumber/sink di Data Factory atau alur Synapse.
Catatan
Saat ini, Peta Data Microsoft Purview tidak dapat memindai aset yang memiliki /, \, atau # atas namanya. Untuk lingkup pemindaian Anda dan menghindari pemindaian aset yang memiliki karakter tersebut dalam nama aset, gunakan contoh di Daftar dan pindai Azure SQL Database.
Penting
Jika Anda berencana menggunakan runtime integrasi yang dihost sendiri, memindai beberapa sumber data memerlukan penyiapan tambahan pada mesin runtime integrasi yang dihost sendiri. Misalnya, JDK, Visual C++ Redistributable, atau driver tertentu. Untuk sumber Anda, lihat setiap artikel sumber untuk detail prasyarat. Persyaratan apa pun akan tercantum di bagian Prasyarat .
Memindai wilayah
Berikut ini adalah daftar semua wilayah sumber data Azure (pusat data) tempat pemindai Peta Data Microsoft Purview berjalan. Jika sumber data Azure Anda berada di wilayah di luar daftar ini, pemindai akan berjalan di wilayah instans Microsoft Purview Anda.
Peta Data Microsoft Purview wilayah pemindai
- Australia Timur
- Australia Tenggara
- Brasil Selatan
- Kanada Tengah
- India Tengah
- US Tengah
- Asia Timur
- US Timur
- US Timur 2
- Prancis Tengah
- Jepang Timur
- Korea Tengah
- AS Tengah Bagian Utara
- Eropa Utara
- Afrika Selatan Utara
- AS Tengah Bagian Selatan
- Asia Tenggara
- UAE Utara
- UK Selatan
- AS Tengah Barat
- Eropa Barat
- US Barat
- US Barat 2
Jenis file yang didukung untuk pemindaian
Jenis file berikut didukung untuk pemindaian, untuk ekstraksi skema, dan klasifikasi jika berlaku:
- Format file terstruktur yang didukung oleh ekstensi: AVRO, ORC, PARQUET, CSV, JSON, PSV, SSV, TSV, TXT, XML, GZIP
Catatan
- Pemindai Peta Data Microsoft Purview hanya mendukung ekstraksi skema untuk jenis file terstruktur yang tercantum di atas.
- Untuk jenis file AVRO, ORC, dan PARQUET, pemindai tidak mendukung ekstraksi skema untuk file yang berisi jenis data kompleks (misalnya, MAP, LIST, STRUCT).
- Pemindai mendukung pemindaian jenis PARQUET terkompresi yang snappy untuk ekstraksi dan klasifikasi skema.
- Untuk tipe file GZIP, GZIP harus dipetakan ke satu file csv di dalamnya. File Gzip sesuai dengan aturan Sistem dan Klasifikasi Kustom. Saat ini kami tidak mendukung pemindaian file gzip yang dipetakan ke beberapa file di dalamnya, atau jenis file apa pun selain csv.
- Untuk jenis file yang dibatasi (CSV, PSV, SSV, TSV, TXT), kami tidak mendukung deteksi jenis data. Jenis data akan dicantumkan sebagai "string" untuk semua kolom. \
- Untuk file Parquet, jika Anda menggunakan runtime integrasi yang dihost sendiri, Anda perlu menginstal JRE 8 (Java Runtime Environment) 64-bit atau OpenJDK di komputer runtime integrasi Anda. Periksa bagian Java Runtime Environment di bagian bawah halaman untuk panduan penginstalan.
- Format file dokumen didukung oleh ekstensi: DOC, DOCM, DOCX, DOT, ODP, ODS, ODT, PDF, POT, PPS, PPSX, PPT, PPTM, PPTX, XLC, XLS, XLSB, XLSM, XLSX, XLT
- Peta Data Microsoft Purview juga mendukung ekstensi file kustom dan pengurai kustom.
Data berlapis
Saat ini, data berlapis hanya didukung untuk konten JSON.
Untuk semua jenis file yang didukung sistem, jika ada konten JSON berlapis dalam kolom, pemindai mengurai data JSON berlapis dan menampilkannya dalam tab skema aset.
Data berlapis, atau penguraian skema berlapis, tidak didukung di SQL. Kolom dengan data berlapis akan dilaporkan dan diklasifikasikan apa adanya, dan subdata tidak akan diurai.
Pengambilan sampel dalam file
Dalam terminologi Peta Data Microsoft Purview,
- Pemindaian L1: Mengekstrak informasi dasar dan data meta seperti nama file, ukuran, dan nama yang sepenuhnya memenuhi syarat
- Pemindaian L2: Mengekstrak skema untuk jenis file terstruktur dan tabel database
- Pemindaian L3: Mengekstrak skema jika berlaku dan sesuai dengan file sampel ke sistem dan aturan klasifikasi kustom
Untuk semua format file terstruktur, pemindai Peta Data Microsoft Purview mengambil sampel file dengan cara berikut:
- Untuk jenis file terstruktur, sampel 128 baris teratas di setiap kolom atau 1 MB pertama, mana saja yang lebih rendah.
- Untuk format file dokumen, sampel 20 MB pertama dari setiap file.
- Jika file dokumen lebih besar dari 20 MB, file tersebut tidak tunduk pada pemindaian mendalam (tunduk pada klasifikasi). Dalam hal ini, Microsoft Purview hanya mengambil data meta dasar seperti nama file dan nama yang sepenuhnya memenuhi syarat.
- Untuk sumber data tabular (SQL), sumber data tabular mengambil sampel 128 baris teratas.
- Untuk Azure Cosmos DB (SQL API), hingga 300 properti berbeda dari 10 dokumen pertama dalam kontainer akan dikumpulkan untuk skema dan untuk setiap properti, nilai hingga 128 dokumen atau 1 MB pertama akan diambil sampelnya.
Pengambilan sampel file kumpulan sumber daya
Folder atau grup file partisi terdeteksi sebagai kumpulan sumber daya dalam Peta Data Microsoft Purview jika cocok dengan kebijakan set sumber daya sistem atau kebijakan set sumber daya yang ditentukan pelanggan. Jika set sumber daya terdeteksi, pemindai akan mengambil sampel setiap folder yang dikandungnya. Pelajari selengkapnya tentang kumpulan sumber daya di sini.
Pengambilan sampel file untuk kumpulan sumber daya menurut jenis file:
- File yang dibatasi (CSV, PSV, SSV, TSV) - 1 dari 100 file diambil sampelnya (pemindaian L3) dalam folder atau grup file partisi yang dianggap sebagai 'Kumpulan sumber daya'
- Jenis file Data Lake (Parquet, Avro, Orc) - 1 dalam file 18446744073709551615 (maks panjang) diambil sampelnya (pemindaian L3) dalam folder atau grup file partisi yang dianggap sebagai 'Set sumber daya'
- Jenis file terstruktur lainnya (JSON, XML, TXT) - 1 dari 100 file diambil sampelnya (pemindaian L3) dalam folder atau grup file partisi yang dianggap sebagai 'Kumpulan sumber daya'
- Objek SQL dan entitas CosmosDB - Setiap file dipindai L3.
- Jenis file dokumen - Setiap file dipindai L3. Pola kumpulan sumber daya tidak berlaku untuk jenis file ini.
Klasifikasi
Semua aturan klasifikasi sistem 208 berlaku untuk format file terstruktur. Hanya aturan klasifikasi MCE yang berlaku untuk jenis file dokumen (Bukan data yang memindai pola regex asli, deteksi berbasis filter mekar). Untuk informasi selengkapnya tentang klasifikasi yang didukung, lihat Klasifikasi yang didukung di Peta Data Microsoft Purview.