Dataset Kelas

Referensi

Mewakili sumber daya untuk menjelajahi, mengubah, dan mengelola data dalam Azure Machine Learning.

Dataset adalah referensi ke data di dalam Datastore atau di belakang url web publik.

Untuk metode yang tidak digunakan lagi di kelas ini, periksa kelas AbstractDataset untuk API yang ditingkatkan.

Jenis Himpunan Data berikut didukung:

TabularDataset menunjukkan data dalam format tabel yang dibuat dengan menguraikan file atau daftar file yang disediakan.
FileDataset mereferensikan satu atau beberapa file di datastore atau dari URL publik.

Untuk mulai menggunakan himpunan data, lihat artikel Menambahkan & mendaftarkan himpunan data, atau lihat buku catatan https://aka.ms/tabulardataset-samplenotebook dan https://aka.ms/filedataset-samplenotebook.

Menginisialisasi objek Himpunan Data.

Untuk mendapatkan Himpunan Data yang telah terdaftar di ruang kerja, gunakan metode get.

Warisan: builtins.object

Dataset

Konstruktor

Dataset(definition, workspace=None, name=None, id=None)

Parameter

definition: <xref:azureml.data.DatasetDefinition>

Diperlukan

Definisi Himpunan data.

workspace: Workspace

Diperlukan

Ruang kerja tempat Himpunan Data berada.

name: str

Diperlukan

Nama Himpunan Data.

id: str

Diperlukan

Pengidentifikasi unik Himpunan Data.

Keterangan

Kelas Himpunan Data mengekspos dua atribut kelas praktis (File dan Tabular) yang dapat Anda gunakan untuk membuat Himpunan Data tanpa bekerja dengan metode pabrik yang sesuai. Misalnya, untuk membuat himpunan data menggunakan atribut ini:

Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()

Anda juga dapat membuat TabularDataset atau FileDataset baru dengan langsung memanggil metode pabrik yang sesuai dari kelas yang ditentukan di dalam TabularDatasetFactory dan FileDatasetFactory.

Contoh berikut menunjukkan cara membuat TabularDataset yang menunjuk ke satu jalur di datastore.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

Sampel lengkap tersedia dari https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

Variabel

azureml.core.Dataset.File

Atribut kelas yang menyediakan akses ke metode FileDatasetFactory untuk membuat objek FileDataset baru. Usage: Dataset.File.from_files().

azureml.core.Dataset.Tabular

Atribut kelas yang menyediakan akses ke metode TabularDatasetFactory untuk membuat objek TabularDataset baru. Usage: Dataset.Tabular.from_delimited_files().

Metode

archive	Arsipkan himpunan data yang aktif atau tidak digunakan lagi. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
auto_read_files	Menganalisis file pada jalur yang ditentukan dan mengembalikan Himpunan Data baru. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan metode Dataset.Tabular.from_* untuk membaca file. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
compare_profiles	Bandingkan profil Himpunan Data saat ini dengan profil himpunan data lainnya. Hal ini menunjukkan perbedaan dalam statistik ringkasan antara dua himpunan data. Parameter 'rhs_dataset' adalah singkatan dari "sisi kanan", dan hanyalah himpunan data kedua. Himpunan data pertama (objek himpunan data saat ini) dianggap sebagai "sisi kiri". Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
create_snapshot	Membuat snapshot Himpunan Data terdaftar. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
delete_snapshot	Hapus snapshot Himpunan Data berdasarkan nama. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
deprecate	Menghentikan penggunaan himpunan data aktif di ruang kerja dengan himpunan data lain. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
diff	Diff Himpunan Data saat ini dengan rhs_dataset. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
from_binary_files	Buat Himpunan Data dalam memori yang tidak terdaftar dari file biner. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan Dataset.File.from_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
from_delimited_files	Buat Himpunan Data dalam memori yang tidak terdaftar dari file yang dibatasi. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan Dataset.Tabular.from_delimited_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. `# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'), header='ALL_FILES_HAVE_SAME_HEADERS') df = dataset.to_pandas_dataframe()`
from_excel_files	Buat Himpunan Data dalam memori yang tidak terdaftar dari file Excel. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
from_json_files	Buat Himpunan Data dalam memori yang tidak terdaftar dari file JSON. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan Dataset.Tabular.from_json_lines_files sebagai gantinya untuk membaca dari file baris JSON. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
from_pandas_dataframe	Buat Himpunan Data dalam memori yang tidak terdaftar dari dataframe pandas. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan Dataset.Tabular.register_pandas_dataframe sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
from_parquet_files	Buat Himpunan Data dalam memori yang tidak terdaftar dari file parquet. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan Dataset.Tabular.from_parquet_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
from_sql_query	Buat Himpunan Data dalam memori yang tidak terdaftar dari kueri SQL. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan Dataset.Tabular.from_sql_query sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
generate_profile	Buat profil baru untuk Himpunan data. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
get	Dapatkan Himpunan Data yang sudah ada di ruang kerja dengan menentukan nama atau ID-nya. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan get_by_name dan get_by_id sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
get_all	Dapatkan semua himpunan data terdaftar di ruang kerja.
get_all_snapshots	Dapatkan semua snapshot Himpunan Data. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
get_by_id	Dapatkan Himpunan Data yang disimpan ke ruang kerja.
get_by_name	Dapatkan Himpunan Data terdaftar dari ruang kerja dengan nama pendaftarannya.
get_definition	Dapatkan definisi spesifik dari Himpunan Data. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
get_definitions	Dapatkan semua definisi Himpunan Data. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
get_profile	Dapatkan statistik ringkasan pada Himpunan Data yang dihitung sebelumnya. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
get_snapshot	Dapatkan snapshot Himpunan Data berdasarkan nama. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
head	Menarik jumlah baris tertentu yang ditentukan dari Himpunan Data ini dan menampilkannya sebagai DataFrame. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
list	Cantumkan semua Himpunan Data di ruang kerja, termasuk yang memiliki properti `is_visible` sama dengan False. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Menyarankan untuk menggunakan get_all sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
reactivate	Mengaktifkan kembali himpunan data yang diarsipkan atau tidak digunakan lagi. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
register	Daftarkan Himpunan Data di ruang kerja, sehingga tersedia untuk pengguna ruang kerja lainnya. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Menyarankan untuk menggunakan register sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
sample	Hasilkan sampel baru dari Himpunan Data sumber, menggunakan strategi pengambilan sampel dan parameter yang disediakan. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode take_sample di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
to_pandas_dataframe	Buat dataframe Pandas dengan menjalankan alur transformasi yang ditentukan oleh definisi Himpunan Data ini. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode to_pandas_dataframe di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
to_spark_dataframe	Buat Spark DataFrame yang dapat menjalankan alur transformasi yang ditentukan oleh definisi Himpunan Data ini. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode to_spark_dataframe di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
update	Memperbarui atribut Himpunan Data yang dapat berubah di ruang kerja dan menampilkan Himpunan Data yang diperbarui dari ruang kerja. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
update_definition	Perbarui definisi Himpunan Data. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

auto_read_files

Menganalisis file pada jalur yang ditentukan dan mengembalikan Himpunan Data baru.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan metode Dataset.Tabular.from_* untuk membaca file. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static auto_read_files(path, include_path=False, partition_format=None)

Parameter

path: DataReference atau str

Diperlukan

Jalur data di datastore terdaftar, jalur lokal, atau URL HTTP (CSV/TSV).

include_path: bool

Diperlukan

Apakah akan menyertakan kolom yang berisi jalur file tempat data dibaca. Berguna saat membaca beberapa file, dan ingin mengetahui dari file mana rekaman tertentu berasal. Juga berguna jika ada informasi dalam jalur file atau nama yang Anda inginkan dalam kolom.

partition_format: str

Diperlukan

Tentukan format partisi dalam jalur dan buat kolom string dari format '{x}' dan kolom tanggalwaktu dari format '{x:yyyy/MM/dd/HH/mm/ss}', di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk tahun tambahan, bulan, hari, jam, menit, dan kedua untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, apabila jalur file '../Accounts/2019/01/01/data.csv' tempat data dipartisi berdasarkan nama departemen dan waktu, kita dapat menentukan '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' untuk membuat kolom 'Department' dari jenis string dan 'PartitionDate' dari jenis tanggalwaktu.

Mengembalikan

Objek himpunan data.

Tipe hasil

Dataset

Keterangan

Gunakan metode ini ketika format file dan pemisah terdeteksi secara otomatis.

Setelah membuat Himpunan Data, sebaiknya gunakan get_profile untuk mencantumkan jenis kolom yang terdeteksi dan statistik ringkasan untuk setiap kolom.

Himpunan Data yang ditampilkan tidak terdaftar dengan ruang kerja.

compare_profiles

Bandingkan profil Himpunan Data saat ini dengan profil himpunan data lainnya.

Hal ini menunjukkan perbedaan dalam statistik ringkasan antara dua himpunan data. Parameter 'rhs_dataset' adalah singkatan dari "sisi kanan", dan hanyalah himpunan data kedua. Himpunan data pertama (objek himpunan data saat ini) dianggap sebagai "sisi kiri".

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parameter

rhs_dataset: Dataset

Diperlukan

Himpunan data kedua, juga disebut Himpunan data "sisi kanan" untuk perbandingan.

profile_arguments: dict

Diperlukan

Argumen untuk mengambil profil tertentu.

include_columns: list[str]

Diperlukan

Daftar nama kolom yang akan disertakan dalam perbandingan.

exclude_columns: list[str]

Diperlukan

Daftar nama kolom yang akan dikecualikan dalam perbandingan.

histogram_compare_method: HistogramCompareMethod

Diperlukan

Enumerasi yang menjelaskan metode perbandingan, misal: Wasserstein atau Energi

Mengembalikan

Perbedaan antara kedua profil himpunan data.

Tipe hasil

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Keterangan

Ini hanya untuk Himpunan Data terdaftar. Menyebabkan pengecualian apabila profil Himpunan Data saat ini tidak ada. Untuk Himpunan Data yang tidak terdaftar, gunakan metode profile.compare.

create_snapshot

Membuat snapshot Himpunan Data terdaftar.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parameter

snapshot_name: str

Diperlukan

Nama snapshot. Nama snapshot harus unik dalam Himpunan Data.

compute_target: Union[ComputeTarget, str]

Diperlukan

Target komputasi opsional untuk melakukan pembuatan profil snapshot. Jika dihilangkan, komputasi lokal digunakan.

create_data_snapshot: bool

Diperlukan

Jika True, salinan data yang terwujud akan dibuat.

target_datastore: Union[AbstractAzureStorageDatastore, str]

Diperlukan

Targetkan datastore untuk menyimpan snapshot. Jika dihilangkan, snapshot akan dibuat di penyimpanan default ruang kerja.

Mengembalikan

Objek snapshot himpunan data.

Tipe hasil

DatasetSnapshot

Keterangan

Snapshot mengambil statistik ringkasan titik waktu dari data yang mendasarinya dan salinan opsional dari data itu sendiri. Untuk mempelajari selengkapnya tentang pembuatan snapshot, buka https://aka.ms/azureml/howto/createsnapshots.

delete_snapshot

Hapus snapshot Himpunan Data berdasarkan nama.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Parameter

snapshot_name: str

Diperlukan

Nama snapshot.

Mengembalikan

Tidak ada.

Tipe hasil

None

Keterangan

Gunakan ini untuk membebaskan penyimpanan yang dikonsumsi oleh data yang disimpan dalam snapshot yang tidak lagi Anda butuhkan.

deprecate

Menghentikan penggunaan himpunan data aktif di ruang kerja dengan himpunan data lain.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Parameter

deprecate_by_dataset_id: str

Diperlukan

ID Himpunan Data yang merupakan pengganti yang dimaksudkan untuk Himpunan Data ini.

Mengembalikan

Tidak ada.

Tipe hasil

None

Keterangan

Himpunan Data yang tidak digunakan lagi akan mencatat peringatan saat digunakan. Menghentikan penggunaan himpunan data akan menghentikan semua definisinya.

Himpunan Data yang tidak digunakan lagi masih dapat digunakan. Untuk memblokir Himpunan Data sepenuhnya agar tidak digunakan, arsipkan Himpunan Data tersebut.

Jika tidak digunakan lagi secara tidak sengaja, aktivasi ulang akan mengaktifkannya.

diff

Diff Himpunan Data saat ini dengan rhs_dataset.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Parameter

rhs_dataset: Dataset

Diperlukan

Himpunan Data lain juga disebut Himpunan Data sisi kanan untuk perbandingan

compute_target: Union[ComputeTarget, str]

Diperlukan

komputasi target untuk melakukan diff. Jika dihilangkan, komputasi lokal digunakan.

columns: list[str]

Diperlukan

Daftar nama kolom yang akan disertakan dalam diff.

Mengembalikan

Objek menjalankan tindakan himpunan data.

Tipe hasil

DatasetActionRun

from_binary_files

Buat Himpunan Data dalam memori yang tidak terdaftar dari file biner.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.File.from_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static from_binary_files(path)

Parameter

path: DataReference atau str

Diperlukan

Jalur data di datastore terdaftar atau jalur lokal.

Mengembalikan

Objek Himpunan Data.

Tipe hasil

Dataset

Keterangan

Gunakan metode ini untuk membaca file sebagai aliran data biner. Mengembalikan satu objek aliran file per pembacaan file. Gunakan metode ini saat Anda membaca gambar, video, audio, atau data biner lainnya.

get_profile dan create_snapshot tidak akan berfungsi seperti yang diharapkan untuk Himpunan Data yang dibuat dengan metode ini.

Himpunan Data yang ditampilkan tidak terdaftar dengan ruang kerja.

from_delimited_files

Buat Himpunan Data dalam memori yang tidak terdaftar dari file yang dibatasi.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.Tabular.from_delimited_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()

static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

Parameter

path: DataReference atau str

Diperlukan

Jalur data di datastore terdaftar, jalur lokal, atau URL HTTP.

separator: str

Diperlukan

Pemisah digunakan untuk membagi kolom.

header: PromoteHeadersBehavior

Diperlukan

Mengontrol cara header kolom dipromosikan saat membaca dari file.

encoding: FileEncoding

Diperlukan

Pengodean file yang sedang dibaca.

quoting: bool

Diperlukan

Tentukan cara menangani karakter baris baru dalam tanda kuotasi. Default (False) adalah menafsirkan karakter baris baru sebagai memulai baris baru, terlepas dari apakah karakter baris baru berada dalam kuotasi atau tidak. Jika diatur ke True, karakter baris baru di dalam kuotasi tidak akan menghasilkan baris baru, dan kecepatan pembacaan file akan melambat.

infer_column_types: bool

Diperlukan

Menunjukkan apakah jenis data kolom disimpulkan.

skip_rows: int

Diperlukan

Berapa banyak baris yang akan dilompati dalam file yang sedang dibaca.

skip_mode: SkipLinesBehavior

Diperlukan

Mengontrol cara baris dilompati saat membaca dari file.

comment: str

Diperlukan

Karakter yang digunakan untuk menunjukkan baris komentar dalam file yang sedang dibaca. Baris yang dimulai dengan string ini akan dilompati.

include_path: bool

Diperlukan

Apakah akan menyertakan kolom yang berisi jalur file tempat data dibaca. Ini berguna ketika Anda membaca beberapa file, dan ingin mengetahui dari file mana rekaman tertentu berasal, atau untuk menyimpan informasi yang berguna di jalur file.

archive_options: <xref:azureml.dataprep.ArchiveOptions>

Diperlukan

Opsi untuk mengarsipkan file, termasuk jenis arsip dan pola glob entri. Kami hanya mendukung ZIP sebagai jenis arsip saat ini. Misalnya, menentukan


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

membaca semua file dengan nama yang diakhiri dengan "10-20.csv" di ZIP.

partition_format: str

Diperlukan

Mengembalikan

Objek himpunan data.

Tipe hasil

Dataset

Keterangan

Gunakan metode ini untuk membaca file teks yang dibatasi saat Anda ingin mengontrol opsi yang digunakan.

Setelah membuat Himpunan Data, Anda harus menggunakan get_profile untuk mencantumkan jenis kolom yang terdeteksi dan statistik ringkasan untuk setiap kolom.

Himpunan Data yang ditampilkan tidak terdaftar dengan ruang kerja.

from_excel_files

Buat Himpunan Data dalam memori yang tidak terdaftar dari file Excel.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Parameter

path: DataReference atau str

Diperlukan

Jalur data di datastore terdaftar atau jalur lokal.

sheet_name: str

Diperlukan

Nama lembar Excel yang akan dimuat. Secara default, kita membaca lembar pertama dari setiap file Excel.

use_column_headers: bool

Diperlukan

Kontrol apakah akan menggunakan baris pertama sebagai header kolom atau tidak.

skip_rows: int

Diperlukan

Berapa banyak baris yang akan dilompati dalam file yang sedang dibaca.

include_path: bool

Diperlukan

infer_column_types: bool

Diperlukan

Jika true, jenis data kolom akan disimpulkan.

partition_format: str

Diperlukan

Tentukan format partisi dalam jalur dan buat kolom string dari format '{x}' dan kolom tanggalwaktu dari format '{x:yyyy/MM/dd/HH/mm/ss}', di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk tahun tambahan, bulan, hari, jam, menit, dan kedua untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, diberikan jalur file '../Accounts/2019/01/01/data.xlsx' di mana data dipartisi berdasarkan nama departemen dan waktu, kita dapat menentukan '/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx' untuk membuat kolom 'Department' dari jenis string dan 'PartitionDate' dari jenis tanggalwaktu.

Mengembalikan

Objek himpunan data.

Tipe hasil

Dataset

Keterangan

Gunakan metode ini untuk membaca file Excel dalam format .xlsx. Data dapat dibaca dari satu lembar di setiap file Excel. Setelah membuat Himpunan Data, Anda harus menggunakan get_profile untuk mencantumkan jenis kolom yang terdeteksi dan statistik ringkasan untuk setiap kolom. Himpunan Data yang ditampilkan tidak terdaftar dengan ruang kerja.

from_json_files

Buat Himpunan Data dalam memori yang tidak terdaftar dari file JSON.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.Tabular.from_json_lines_files sebagai gantinya untuk membaca dari file baris JSON. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

Parameter

path: DataReference atau str

Diperlukan

Jalur ke file atau folder yang ingin Anda muat dan uraikan. Ini bisa berupa jalur lokal atau url Azure Blob. Globbing didukung. Misalnya, Anda dapat menggunakan jalur = "./data*" untuk membaca semua file dengan nama yang diawali dengan "data".

encoding: FileEncoding

Diperlukan

Pengodean file yang sedang dibaca.

flatten_nested_arrays: bool

Diperlukan

Penanganan program pengontrolan properti terhadap array bersarang. Jika Anda memilih untuk meratakan array JSON bersarang, hal ini dapat menghasilkan jumlah baris yang jauh lebih besar.

include_path: bool

Diperlukan

Apakah akan menyertakan kolom yang berisi jalur tempat data dibaca. Ini berguna ketika Anda membaca beberapa file, dan mungkin ingin mengetahui dari file mana rekaman tertentu berasal, atau untuk menyimpan informasi yang berguna di jalur file.

partition_format: str

Diperlukan

Tentukan format partisi dalam jalur dan buat kolom string dari format '{x}' dan kolom tanggalwaktu dari format '{x:yyyy/MM/dd/HH/mm/ss}', di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk tahun tambahan, bulan, hari, jam, menit, dan kedua untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, pada jalur file '../Accounts/2019/01/01/data.json' dan data dipartisi berdasarkan nama departemen dan waktu, kita dapat menentukan '/{Department}/{PartitionDate:yyyy/MM/dd}/data.json' untuk membuat kolom 'Department' dari jenis string dan 'PartitionDate' dari jenis tanggalwaktu.

Mengembalikan

Objek Himpunan Data lokal.

Tipe hasil

Dataset

from_pandas_dataframe

Buat Himpunan Data dalam memori yang tidak terdaftar dari dataframe pandas.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.Tabular.register_pandas_dataframe sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

Parameter

dataframe: DataFrame

Diperlukan

DataFrame Pandas.

path: Union[DataReference, str]

Diperlukan

Jalur data pada penyimpanan data terdaftar atau jalur folder lokal.

in_memory: bool

Diperlukan

Apakah akan membaca DataFrame dari memori alih-alih bertahan ke disk.

Mengembalikan

Objek Himpunan Data.

Tipe hasil

Dataset

Keterangan

Gunakan metode ini untuk mengonversi dataframe Pandas menjadi objek Himpunan Data. Himpunan Data yang dibuat dengan metode ini tidak dapat didaftarkan, karena data berasal dari memori.

Jika in_memory False, DataFrame Pandas dikonversi ke file CSV secara lokal. Jika pat berasal dari jenis DataReference, bingkai Pandas akan diunggah ke penyimpanan data, dan Himpunan Data akan didasarkan pada DataReference. Jika ``path` adalah folder lokal, Himpunan Data akan dibuat berdasarkan file lokal yang tidak dapat dihapus.

Mengajukan pengecualian jika DataReference saat ini bukan merupakan jalur folder.

from_parquet_files

Buat Himpunan Data dalam memori yang tidak terdaftar dari file parquet.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.Tabular.from_parquet_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static from_parquet_files(path, include_path=False, partition_format=None)

Parameter

path: DataReference atau str

Diperlukan

Jalur data di datastore terdaftar atau jalur lokal.

include_path: bool

Diperlukan

partition_format: str

Diperlukan

Tentukan format partisi dalam jalur dan buat kolom string dari format '{x}' dan kolom tanggalwaktu dari format '{x:yyyy/MM/dd/HH/mm/ss}', di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk tahun tambahan, bulan, hari, jam, menit, dan kedua untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, pada jalur file '../Accounts/2019/01/01/data.parquet' di mana data dipartisi berdasarkan nama departemen dan waktu, kita dapat menentukan '/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' untuk membuat kolom 'Department' dari jenis string dan 'PartitionDate' dari jenis tanggalwaktu.

Mengembalikan

Objek himpunan data.

Tipe hasil

Dataset

Keterangan

Gunakan metode ini untuk membaca file Parquet.

Setelah membuat Himpunan Data, Anda harus menggunakan get_profile untuk mencantumkan jenis kolom yang terdeteksi dan statistik ringkasan untuk setiap kolom.

Himpunan Data yang ditampilkan tidak terdaftar dengan ruang kerja.

from_sql_query

Buat Himpunan Data dalam memori yang tidak terdaftar dari kueri SQL.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.Tabular.from_sql_query sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static from_sql_query(data_source, query)

Parameter

data_source: AzureSqlDatabaseDatastore

Diperlukan

Detail penyimpanan data Azure SQL.

query: str

Diperlukan

Kueri yang akan dijalankan untuk membaca data.

Mengembalikan

Objek Himpunan Data lokal.

Tipe hasil

Dataset

generate_profile

Buat profil baru untuk Himpunan data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Parameter

compute_target: Union[ComputeTarget, str]

Diperlukan

Target komputasi opsional untuk melakukan pembuatan profil snapshot. Jika dihilangkan, komputasi lokal digunakan.

workspace: Workspace

Diperlukan

Ruang kerja, diperlukan untuk Himpunan Data sementara (tidak terdaftar).

arguments: dict[str, object]

Diperlukan

Argumen profil. Argumen yang valid adalah:

'include_stype_counts' jenis bool. Periksa apakah nilai terlihat seperti beberapa jenis semantik terkenal seperti alamat email, Alamat IP (V4/V6), nomor telepon US, kode zip US, Lintang/Bujur. Mengaktifkan ini berdampak pada performa.
'number_of_histogram_bins' dari jenis int. Mewakili jumlah bin histogram yang akan digunakan untuk data numerik. Nilai defaultnya adalah 10.

Mengembalikan

Objek menjalankan tindakan himpunan data.

Tipe hasil

DatasetActionRun

Keterangan

Panggilan sinkron, akan memblokir hingga selesai. Panggil get_result untuk mendapatkan hasil tindakan.

get

Dapatkan Himpunan Data yang sudah ada di ruang kerja dengan menentukan nama atau ID-nya.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan get_by_name dan get_by_id sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static get(workspace, name=None, id=None)

Parameter

workspace: Workspace

Diperlukan

Ruang kerja Azure Machine Learning yang ada tempat Himpunan data dibuat.

name: str

Diperlukan

Nama Himpunan Data yang akan diambil.

id: str

Diperlukan

Pengidentifikasi unik Himpunan Data di ruang kerja.

Mengembalikan

Himpunan Data dengan nama atau ID yang ditentukan.

Tipe hasil

Dataset

Keterangan

Anda menyediakan antara name atau id. Pengecualian diajukan jika:

name dan id ditentukan tetapi tidak cocok.
Himpunan Data dengan name yang ditentukan atau id tidak dapat ditemukan di ruang kerja.

get_all

Dapatkan semua himpunan data terdaftar di ruang kerja.

get_all()

Parameter

workspace: Workspace

Diperlukan

Ruang kerja Azure Machine Learning yang ada tempat Himpunan Data terdaftar.

Mengembalikan

Kamus objek TabularDataset dan FileDataset yang di kunci dengan nama pendaftaran mereka.

Tipe hasil

dict[str, Union[TabularDataset, FileDataset]]

get_all_snapshots

Dapatkan semua snapshot Himpunan Data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

get_all_snapshots()

Mengembalikan

Daftar snapshot Himpunan Data.

Tipe hasil

list[DatasetSnapshot]

get_by_id

Dapatkan Himpunan Data yang disimpan ke ruang kerja.

get_by_id(id, **kwargs)

Parameter

workspace: Workspace

Diperlukan

Ruang kerja Azure Machine Learning yang ada tempat Himpunan Data disimpan.

id: str

Diperlukan

Id himpunan data.

Mengembalikan

Objek himpunan data. Jika himpunan data terdaftar, nama dan versi pendaftarannya juga akan ditampilkan.

Tipe hasil

Union[TabularDataset, FileDataset]

get_by_name

Dapatkan Himpunan Data terdaftar dari ruang kerja dengan nama pendaftarannya.

get_by_name(name, version='latest', **kwargs)

Parameter

workspace: Workspace

Diperlukan

Ruang kerja Azure Machine Learning yang ada tempat Himpunan Data terdaftar.

name: str

Diperlukan

Nama registrasi.

version: int

Diperlukan

Versi pendaftaran. Default ke 'terbaru'.

Mengembalikan

Objek himpunan data terdaftar.

Tipe hasil

Union[TabularDataset, FileDataset]

get_definition

Dapatkan definisi spesifik dari Himpunan Data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Parameter

version_id: str

Diperlukan

ID versi definisi Himpunan Data

Mengembalikan

Definisi Himpunan data.

Tipe hasil

DatasetDefinition

Keterangan

Jika version_id disediakan, Azure Machine Learning mencoba untuk mendapatkan definisi yang sesuai dengan versi tersebut. Jika versi tersebut tidak ada, pengecualian akan dilemparkan. Jika version_id dihilangkan, maka versi terbaru yang diambil.

get_definitions

Dapatkan semua definisi Himpunan Data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

get_definitions()

Mengembalikan

Kamus definisi Himpunan Data.

Tipe hasil

dict[str, DatasetDefinition]

Keterangan

Untuk Himpunan Data yang tidak terdaftar, hanya ada satu definisi.

get_profile

Dapatkan statistik ringkasan pada Himpunan Data yang dihitung sebelumnya.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Parameter

arguments: dict[str, object]

Diperlukan

Argumen profil.

generate_if_not_exist: bool

Diperlukan

Menunjukkan apakah akan membuat profil jika tidak ada.

workspace: Workspace

Diperlukan

Ruang kerja, diperlukan untuk Himpunan Data sementara (tidak terdaftar).

compute_target: Union[ComputeTarget, str]

Diperlukan

Target komputasi untuk menjalankan tindakan profil.

Mengembalikan

DataProfile dari Himpunan Data.

Tipe hasil

<xref:azureml.dataprep.DataProfile>

Keterangan

Untuk Himpunan Data yang terdaftar dengan ruang kerja Azure Machine Learning, metode ini mengambil profil yang sudah ada yang dibuat sebelumnya dengan memanggil get_profile jika masih valid. Profil dibatalkan saat data yang diubah terdeteksi dalam Himpunan Data atau argumen get_profile berbeda dari yang digunakan saat profil dibuat. Jika profil tidak ada atau dibatalkan, generate_if_not_exist akan menentukan apakah profil baru dibuat.

Untuk Himpunan Data yang tidak terdaftar dengan ruang kerja Azure Machine Learning, metode ini selalu menjalankan generate_profile dan mengembalikan hasilnya.

get_snapshot

Dapatkan snapshot Himpunan Data berdasarkan nama.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Parameter

snapshot_name: str

Diperlukan

Nama snapshot.

Mengembalikan

Objek snapshot himpunan data.

Tipe hasil

DatasetSnapshot

head

Menarik jumlah baris tertentu yang ditentukan dari Himpunan Data ini dan menampilkannya sebagai DataFrame.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

head(count)

Parameter

count: int

Diperlukan

Jumlah baris yang harus ditarik.

Mengembalikan

DataFrame Pandas.

Tipe hasil

DataFrame

list

Cantumkan semua Himpunan Data di ruang kerja, termasuk yang memiliki properti is_visible sama dengan False.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Menyarankan untuk menggunakan get_all sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static list(workspace)

Parameter

workspace: Workspace

Diperlukan

Ruang kerja tempat Anda ingin mengambil daftar Himpunan Data.

Mengembalikan

Daftar objek Himpunan Data.

Tipe hasil

list[Dataset]

reactivate

Mengaktifkan kembali himpunan data yang diarsipkan atau tidak digunakan lagi.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

reactivate()

Mengembalikan

Tidak ada.

Tipe hasil

None

register

Daftarkan Himpunan Data di ruang kerja, sehingga tersedia untuk pengguna ruang kerja lainnya.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Menyarankan untuk menggunakan register sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Parameter

workspace: Workspace

Diperlukan

Ruang kerja Azure Machine Learning tempat Himpunan data akan didaftarkan.

name: str

Diperlukan

Nama Himpunan Data di ruang kerja.

description: str

Diperlukan

Deskripsi Himpunan Data.

tags: dict[str, str]

Diperlukan

Tag untuk dikaitkan dengan Himpunan Data.

visible: bool

Diperlukan

Menunjukkan apakah Himpunan Data terlihat di antarmuka pengguna. Jika False, maka Himpunan Data disembunyikan di antarmuka pengguna dan tersedia melalui SDK.

exist_ok: bool

Diperlukan

Jika True, metode menampilkan Himpunan Data apabila sudah ada di ruang kerja yang diberikan, jika tidak maka terjadi kesalahan.

update_if_exist: bool

Diperlukan

Jika exist_ok adalah True dan update_if_exist adalah True, metode ini akan memperbarui definisi dan menampilkan Himpunan Data yang diperbarui.

Mengembalikan

Objek Himpunan Data terdaftar di ruang kerja.

Tipe hasil

Dataset

sample

Hasilkan sampel baru dari Himpunan Data sumber, menggunakan strategi pengambilan sampel dan parameter yang disediakan.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode take_sample di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Parameter

sample_strategy: str

Diperlukan

Sampel strategi yang akan digunakan. Nilai yang diterima adalah "top_n", "simple_random", atau "stratified".

arguments: dict[str, object]

Diperlukan

Kamus dengan kunci dari "Optional argument" dalam daftar yang ditunjukkan di atas, dan nilai dari kolom "Type" tye. Hanya argumen dari metode pengambilan sampel yang sesuai yang dapat digunakan. Misalnya, untuk jenis sampel "simple_random", Anda hanya dapat menentukan kamus dengan kunci "probability" dan "seed".

Mengembalikan

Objek himpunan data sebagai sampel himpunan data asli.

Tipe hasil

Dataset

Keterangan

Sampel dihasilkan dengan mengeksekusi alur transformasi yang ditentukan oleh Himpunan Data ini, dan kemudian menerapkan strategi dan parameter pengambilan sampel ke data output. Setiap metode pengambilan sampel mendukung argumen opsional berikut:

top_n
- Argumen opsional
  - n, jenis bilangan bulat. Pilih baris N atas sebagai sampel Anda.
simple_random
- Argumen opsional
  - peluang, jenis float. Pengambilan sampel acak tempat setiap baris memiliki peluang yang sama untuk dipilih. Peluang harus menjadi angka antara 0 dan 1.
  - seed, jenis float. Digunakan oleh generator angka acak. Gunakan untuk pengulangan.
bertingkat
- Argumen opsional
  - kolom, jenis daftar[str]. Daftar kolom strata dalam data.
  - seed, jenis float. Digunakan oleh generator angka acak. Gunakan untuk pengulangan.
  - pecahan, jenis dict[tuple, float]. Tuple: nilai kolom yang menentukan strata, harus dalam urutan yang sama dengan nama kolom. Float: bobot yang terlampir pada strata selama pengambilan sampel.

Cuplikan kode berikut adalah contoh pola desain untuk metode sampel yang berbeda.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Buat dataframe Pandas dengan menjalankan alur transformasi yang ditentukan oleh definisi Himpunan Data ini.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode to_pandas_dataframe di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Mengembalikan

DataFrame Pandas.

Tipe hasil

DataFrame

Keterangan

Menampilkan DataFrame Pandas yang sepenuhnya terwujud dalam memori.

to_spark_dataframe

Buat Spark DataFrame yang dapat menjalankan alur transformasi yang ditentukan oleh definisi Himpunan Data ini.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode to_spark_dataframe di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Mengembalikan

Spark DataFrame.

Tipe hasil

DataFrame

Keterangan

Spark Dataframe yang dikembalikan hanyalah rencana eksekusi, dan sebenarnya tidak berisi data apa pun, karena Spark Dataframe dievaluasi dengan lamban.

update

Memperbarui atribut Himpunan Data yang dapat berubah di ruang kerja dan menampilkan Himpunan Data yang diperbarui dari ruang kerja.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Parameter

name: str

Diperlukan

Nama Himpunan Data di ruang kerja.

description: str

Diperlukan

Deskripsi data.

tags: dict[str, str]

Diperlukan

Tag untuk mengaitkan Himpunan Data.

visible: bool

Diperlukan

Menunjukkan apakah Himpunan Data terlihat di antarmuka pengguna.

Mengembalikan

Objek Himpunan Data yang diperbarui dari ruang kerja.

Tipe hasil

Dataset

update_definition

Perbarui definisi Himpunan Data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Parameter

definition: DatasetDefinition

Diperlukan

Definisi baru dari Himpunan Data ini.

definition_update_message: str

Diperlukan

Pesan pembaruan definisi.

Mengembalikan

Objek Himpunan Data yang diperbarui dari ruang kerja.

Tipe hasil

Dataset

Keterangan

Untuk menggunakan Himpunan Data yang diperbarui, gunakan objek yang ditampilkan oleh metode ini.

Atribut

definition

Menampilkan definisi Himpunan Data saat ini.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

Mengembalikan

Definisi Himpunan data.

Tipe hasil

DatasetDefinition

Keterangan

Definisi Himpunan Data adalah serangkaian langkah yang menentukan cara membaca dan mentransformasikan data.

Himpunan Data yang terdaftar di ruang kerja AzureML dapat memiliki beberapa definisi, masing-masing dibuat dengan panggilan update_definition. Setiap definisi memiliki pengidentifikasi unik. Memiliki beberapa definisi yang memungkinkan Anda untuk membuat perubahan pada Himpunan Data yang ada tanpa memutus model dan alur yang bergantung pada definisi yang lebih lama.

Untuk Himpunan Data yang tidak terdaftar, hanya ada satu definisi.

definition_version

Menampilkan versi definisi Himpunan Data saat ini.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

Mengembalikan

Versi definisi Himpunan Data.

Tipe hasil

str

Keterangan

Definisi Himpunan Data adalah serangkaian langkah yang menentukan cara membaca dan mentransformasikan data.

Himpunan Data yang terdaftar di ruang kerja AzureML dapat memiliki beberapa definisi, masing-masing dibuat dengan panggilan update_definition. Setiap definisi memiliki pengidentifikasi unik. Definisi saat ini adalah yang terbaru dibuat, dengan ID yang ditampilkan oleh ini.

Untuk Himpunan Data yang tidak terdaftar, hanya ada satu definisi.

description

Menampilkan deskripsi Himpunan Data.

Mengembalikan

Deskripsi Himpunan data.

Tipe hasil

str

Keterangan

Menentukan deskripsi data dalam Himpunan Data memungkinkan pengguna ruang kerja untuk memahami apa yang diwakili data, dan bagaimana mereka dapat menggunakannya.

id

Jika Himpunan Data terdaftar di ruang kerja, menampilkan ID Himpunan Data. Jika tidak, menampilkan Tidak Ada.

Mengembalikan

ID Himpunan Data.

Tipe hasil

str

is_visible

Kontrol visibilitas Himpunan Data yang terdaftar di antarmuka pengguna ruang kerja Azure Machine Learning.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

Mengembalikan

Visibilitas Himpunan Data.

Tipe hasil

bool

Keterangan

Nilai yang ditampilkan:

True: Himpunan data terlihat di antarmuka pengguna ruang kerja. Default.
False: Himpunan data disembunyikan di antarmuka pengguna ruang kerja.

Tidak berpengaruh pada Himpunan Data yang tidak terdaftar.

name

Menampilkan nama Himpunan Data.

Mengembalikan

Nama Himpunan Data.

Tipe hasil

str

state

Menampilkan status Himpunan data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

Mengembalikan

Status Himpunan Data.

Tipe hasil

str

Keterangan

Arti dan pengaruh status adalah sebagai berikut:

Aktif. Definisi aktif persis seperti apa kedengarannya, semua tindakan dapat dilakukan pada definisi aktif.
Tidak digunakan lagi. Definisi yang tidak digunakan lagi dapat digunakan, tetapi akan menghasilkan peringatan yang dicatat dalam log setiap kali data yang mendasarinya diakses.
Diarsipkan. Definisi yang diarsipkan tidak dapat digunakan untuk melakukan tindakan apa pun. Untuk melakukan tindakan pada definisi yang diarsipkan, maka harus diaktifkan kembali.

workspace

Jika Himpunan Data terdaftar di ruang kerja, menampilkan ruang kerja. Jika tidak, menampilkan Tidak Ada.

Mengembalikan

Ruang kerja.

Tipe hasil

Workspace

Tabular

Pabrik untuk membuat FileDataset

alias dari TabularDatasetFactory