Dataset Kelas

Mewakili sumber daya untuk menjelajahi, mengubah, dan mengelola data dalam Azure Machine Learning.

Dataset adalah referensi ke data di dalam Datastore atau di belakang url web publik.

Untuk metode yang tidak digunakan lagi di kelas ini, periksa kelas AbstractDataset untuk API yang ditingkatkan.

Jenis Himpunan Data berikut didukung:

  • TabularDataset menunjukkan data dalam format tabel yang dibuat dengan menguraikan file atau daftar file yang disediakan.

  • FileDataset mereferensikan satu atau beberapa file di datastore atau dari URL publik.

Untuk mulai menggunakan himpunan data, lihat artikel Menambahkan & mendaftarkan himpunan data, atau lihat buku catatan https://aka.ms/tabulardataset-samplenotebook dan https://aka.ms/filedataset-samplenotebook.

Menginisialisasi objek Himpunan Data.

Untuk mendapatkan Himpunan Data yang telah terdaftar di ruang kerja, gunakan metode get.

Warisan
builtins.object
Dataset

Konstruktor

Dataset(definition, workspace=None, name=None, id=None)

Parameter

definition
<xref:azureml.data.DatasetDefinition>
Diperlukan

Definisi Himpunan data.

workspace
Workspace
Diperlukan

Ruang kerja tempat Himpunan Data berada.

name
str
Diperlukan

Nama Himpunan Data.

id
str
Diperlukan

Pengidentifikasi unik Himpunan Data.

Keterangan

Kelas Himpunan Data mengekspos dua atribut kelas praktis (File dan Tabular) yang dapat Anda gunakan untuk membuat Himpunan Data tanpa bekerja dengan metode pabrik yang sesuai. Misalnya, untuk membuat himpunan data menggunakan atribut ini:

  • Dataset.Tabular.from_delimited_files()

  • Dataset.File.from_files()

Anda juga dapat membuat TabularDataset atau FileDataset baru dengan langsung memanggil metode pabrik yang sesuai dari kelas yang ditentukan di dalam TabularDatasetFactory dan FileDatasetFactory.

Contoh berikut menunjukkan cara membuat TabularDataset yang menunjuk ke satu jalur di datastore.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

Sampel lengkap tersedia dari https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

Variabel

azureml.core.Dataset.File

Atribut kelas yang menyediakan akses ke metode FileDatasetFactory untuk membuat objek FileDataset baru. Usage: Dataset.File.from_files().

azureml.core.Dataset.Tabular

Atribut kelas yang menyediakan akses ke metode TabularDatasetFactory untuk membuat objek TabularDataset baru. Usage: Dataset.Tabular.from_delimited_files().

Metode

archive

Arsipkan himpunan data yang aktif atau tidak digunakan lagi.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

auto_read_files

Menganalisis file pada jalur yang ditentukan dan mengembalikan Himpunan Data baru.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan metode Dataset.Tabular.from_* untuk membaca file. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

compare_profiles

Bandingkan profil Himpunan Data saat ini dengan profil himpunan data lainnya.

Hal ini menunjukkan perbedaan dalam statistik ringkasan antara dua himpunan data. Parameter 'rhs_dataset' adalah singkatan dari "sisi kanan", dan hanyalah himpunan data kedua. Himpunan data pertama (objek himpunan data saat ini) dianggap sebagai "sisi kiri".

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

create_snapshot

Membuat snapshot Himpunan Data terdaftar.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

delete_snapshot

Hapus snapshot Himpunan Data berdasarkan nama.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

deprecate

Menghentikan penggunaan himpunan data aktif di ruang kerja dengan himpunan data lain.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

diff

Diff Himpunan Data saat ini dengan rhs_dataset.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

from_binary_files

Buat Himpunan Data dalam memori yang tidak terdaftar dari file biner.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.File.from_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

from_delimited_files

Buat Himpunan Data dalam memori yang tidak terdaftar dari file yang dibatasi.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.Tabular.from_delimited_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
from_excel_files

Buat Himpunan Data dalam memori yang tidak terdaftar dari file Excel.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

from_json_files

Buat Himpunan Data dalam memori yang tidak terdaftar dari file JSON.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.Tabular.from_json_lines_files sebagai gantinya untuk membaca dari file baris JSON. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

from_pandas_dataframe

Buat Himpunan Data dalam memori yang tidak terdaftar dari dataframe pandas.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.Tabular.register_pandas_dataframe sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

from_parquet_files

Buat Himpunan Data dalam memori yang tidak terdaftar dari file parquet.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.Tabular.from_parquet_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

from_sql_query

Buat Himpunan Data dalam memori yang tidak terdaftar dari kueri SQL.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.Tabular.from_sql_query sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

generate_profile

Buat profil baru untuk Himpunan data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

get

Dapatkan Himpunan Data yang sudah ada di ruang kerja dengan menentukan nama atau ID-nya.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan get_by_name dan get_by_id sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

get_all

Dapatkan semua himpunan data terdaftar di ruang kerja.

get_all_snapshots

Dapatkan semua snapshot Himpunan Data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

get_by_id

Dapatkan Himpunan Data yang disimpan ke ruang kerja.

get_by_name

Dapatkan Himpunan Data terdaftar dari ruang kerja dengan nama pendaftarannya.

get_definition

Dapatkan definisi spesifik dari Himpunan Data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

get_definitions

Dapatkan semua definisi Himpunan Data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

get_profile

Dapatkan statistik ringkasan pada Himpunan Data yang dihitung sebelumnya.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

get_snapshot

Dapatkan snapshot Himpunan Data berdasarkan nama.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

head

Menarik jumlah baris tertentu yang ditentukan dari Himpunan Data ini dan menampilkannya sebagai DataFrame.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

list

Cantumkan semua Himpunan Data di ruang kerja, termasuk yang memiliki properti is_visible sama dengan False.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Menyarankan untuk menggunakan get_all sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

reactivate

Mengaktifkan kembali himpunan data yang diarsipkan atau tidak digunakan lagi.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

register

Daftarkan Himpunan Data di ruang kerja, sehingga tersedia untuk pengguna ruang kerja lainnya.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Menyarankan untuk menggunakan register sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

sample

Hasilkan sampel baru dari Himpunan Data sumber, menggunakan strategi pengambilan sampel dan parameter yang disediakan.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode take_sample di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

to_pandas_dataframe

Buat dataframe Pandas dengan menjalankan alur transformasi yang ditentukan oleh definisi Himpunan Data ini.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode to_pandas_dataframe di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

to_spark_dataframe

Buat Spark DataFrame yang dapat menjalankan alur transformasi yang ditentukan oleh definisi Himpunan Data ini.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode to_spark_dataframe di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

update

Memperbarui atribut Himpunan Data yang dapat berubah di ruang kerja dan menampilkan Himpunan Data yang diperbarui dari ruang kerja.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

update_definition

Perbarui definisi Himpunan Data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

archive

Arsipkan himpunan data yang aktif atau tidak digunakan lagi.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

archive()

Mengembalikan

Tidak ada.

Tipe hasil

Keterangan

Setelah arsip, setiap upaya untuk mengonsumsi Himpunan Data akan mengakibatkan kesalahan. Jika diarsipkan secara tidak sengaja, aktivasi ulang akan mengaktifkannya.

auto_read_files

Menganalisis file pada jalur yang ditentukan dan mengembalikan Himpunan Data baru.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan metode Dataset.Tabular.from_* untuk membaca file. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static auto_read_files(path, include_path=False, partition_format=None)

Parameter

path
DataReference atau str
Diperlukan

Jalur data di datastore terdaftar, jalur lokal, atau URL HTTP (CSV/TSV).

include_path
bool
Diperlukan

Apakah akan menyertakan kolom yang berisi jalur file tempat data dibaca. Berguna saat membaca beberapa file, dan ingin mengetahui dari file mana rekaman tertentu berasal. Juga berguna jika ada informasi dalam jalur file atau nama yang Anda inginkan dalam kolom.

partition_format
str
Diperlukan

Tentukan format partisi dalam jalur dan buat kolom string dari format '{x}' dan kolom tanggalwaktu dari format '{x:yyyy/MM/dd/HH/mm/ss}', di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk tahun tambahan, bulan, hari, jam, menit, dan kedua untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, apabila jalur file '../Accounts/2019/01/01/data.csv' tempat data dipartisi berdasarkan nama departemen dan waktu, kita dapat menentukan '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' untuk membuat kolom 'Department' dari jenis string dan 'PartitionDate' dari jenis tanggalwaktu.

Mengembalikan

Objek himpunan data.

Tipe hasil

Keterangan

Gunakan metode ini ketika format file dan pemisah terdeteksi secara otomatis.

Setelah membuat Himpunan Data, sebaiknya gunakan get_profile untuk mencantumkan jenis kolom yang terdeteksi dan statistik ringkasan untuk setiap kolom.

Himpunan Data yang ditampilkan tidak terdaftar dengan ruang kerja.

compare_profiles

Bandingkan profil Himpunan Data saat ini dengan profil himpunan data lainnya.

Hal ini menunjukkan perbedaan dalam statistik ringkasan antara dua himpunan data. Parameter 'rhs_dataset' adalah singkatan dari "sisi kanan", dan hanyalah himpunan data kedua. Himpunan data pertama (objek himpunan data saat ini) dianggap sebagai "sisi kiri".

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parameter

rhs_dataset
Dataset
Diperlukan

Himpunan data kedua, juga disebut Himpunan data "sisi kanan" untuk perbandingan.

profile_arguments
dict
Diperlukan

Argumen untuk mengambil profil tertentu.

include_columns
list[str]
Diperlukan

Daftar nama kolom yang akan disertakan dalam perbandingan.

exclude_columns
list[str]
Diperlukan

Daftar nama kolom yang akan dikecualikan dalam perbandingan.

histogram_compare_method
HistogramCompareMethod
Diperlukan

Enumerasi yang menjelaskan metode perbandingan, misal: Wasserstein atau Energi

Mengembalikan

Perbedaan antara kedua profil himpunan data.

Tipe hasil

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Keterangan

Ini hanya untuk Himpunan Data terdaftar. Menyebabkan pengecualian apabila profil Himpunan Data saat ini tidak ada. Untuk Himpunan Data yang tidak terdaftar, gunakan metode profile.compare.

create_snapshot

Membuat snapshot Himpunan Data terdaftar.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parameter

snapshot_name
str
Diperlukan

Nama snapshot. Nama snapshot harus unik dalam Himpunan Data.

compute_target
Union[ComputeTarget, str]
Diperlukan

Target komputasi opsional untuk melakukan pembuatan profil snapshot. Jika dihilangkan, komputasi lokal digunakan.

create_data_snapshot
bool
Diperlukan

Jika True, salinan data yang terwujud akan dibuat.

target_datastore
Union[AbstractAzureStorageDatastore, str]
Diperlukan

Targetkan datastore untuk menyimpan snapshot. Jika dihilangkan, snapshot akan dibuat di penyimpanan default ruang kerja.

Mengembalikan

Objek snapshot himpunan data.

Tipe hasil

Keterangan

Snapshot mengambil statistik ringkasan titik waktu dari data yang mendasarinya dan salinan opsional dari data itu sendiri. Untuk mempelajari selengkapnya tentang pembuatan snapshot, buka https://aka.ms/azureml/howto/createsnapshots.

delete_snapshot

Hapus snapshot Himpunan Data berdasarkan nama.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Parameter

snapshot_name
str
Diperlukan

Nama snapshot.

Mengembalikan

Tidak ada.

Tipe hasil

Keterangan

Gunakan ini untuk membebaskan penyimpanan yang dikonsumsi oleh data yang disimpan dalam snapshot yang tidak lagi Anda butuhkan.

deprecate

Menghentikan penggunaan himpunan data aktif di ruang kerja dengan himpunan data lain.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Parameter

deprecate_by_dataset_id
str
Diperlukan

ID Himpunan Data yang merupakan pengganti yang dimaksudkan untuk Himpunan Data ini.

Mengembalikan

Tidak ada.

Tipe hasil

Keterangan

Himpunan Data yang tidak digunakan lagi akan mencatat peringatan saat digunakan. Menghentikan penggunaan himpunan data akan menghentikan semua definisinya.

Himpunan Data yang tidak digunakan lagi masih dapat digunakan. Untuk memblokir Himpunan Data sepenuhnya agar tidak digunakan, arsipkan Himpunan Data tersebut.

Jika tidak digunakan lagi secara tidak sengaja, aktivasi ulang akan mengaktifkannya.

diff

Diff Himpunan Data saat ini dengan rhs_dataset.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Parameter

rhs_dataset
Dataset
Diperlukan

Himpunan Data lain juga disebut Himpunan Data sisi kanan untuk perbandingan

compute_target
Union[ComputeTarget, str]
Diperlukan

komputasi target untuk melakukan diff. Jika dihilangkan, komputasi lokal digunakan.

columns
list[str]
Diperlukan

Daftar nama kolom yang akan disertakan dalam diff.

Mengembalikan

Objek menjalankan tindakan himpunan data.

Tipe hasil

from_binary_files

Buat Himpunan Data dalam memori yang tidak terdaftar dari file biner.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.File.from_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static from_binary_files(path)

Parameter

path
DataReference atau str
Diperlukan

Jalur data di datastore terdaftar atau jalur lokal.

Mengembalikan

Objek Himpunan Data.

Tipe hasil

Keterangan

Gunakan metode ini untuk membaca file sebagai aliran data biner. Mengembalikan satu objek aliran file per pembacaan file. Gunakan metode ini saat Anda membaca gambar, video, audio, atau data biner lainnya.

get_profile dan create_snapshot tidak akan berfungsi seperti yang diharapkan untuk Himpunan Data yang dibuat dengan metode ini.

Himpunan Data yang ditampilkan tidak terdaftar dengan ruang kerja.

from_delimited_files

Buat Himpunan Data dalam memori yang tidak terdaftar dari file yang dibatasi.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.Tabular.from_delimited_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

Parameter

path
DataReference atau str
Diperlukan

Jalur data di datastore terdaftar, jalur lokal, atau URL HTTP.

separator
str
Diperlukan

Pemisah digunakan untuk membagi kolom.

header
PromoteHeadersBehavior
Diperlukan

Mengontrol cara header kolom dipromosikan saat membaca dari file.

encoding
FileEncoding
Diperlukan

Pengodean file yang sedang dibaca.

quoting
bool
Diperlukan

Tentukan cara menangani karakter baris baru dalam tanda kuotasi. Default (False) adalah menafsirkan karakter baris baru sebagai memulai baris baru, terlepas dari apakah karakter baris baru berada dalam kuotasi atau tidak. Jika diatur ke True, karakter baris baru di dalam kuotasi tidak akan menghasilkan baris baru, dan kecepatan pembacaan file akan melambat.

infer_column_types
bool
Diperlukan

Menunjukkan apakah jenis data kolom disimpulkan.

skip_rows
int
Diperlukan

Berapa banyak baris yang akan dilompati dalam file yang sedang dibaca.

skip_mode
SkipLinesBehavior
Diperlukan

Mengontrol cara baris dilompati saat membaca dari file.

comment
str
Diperlukan

Karakter yang digunakan untuk menunjukkan baris komentar dalam file yang sedang dibaca. Baris yang dimulai dengan string ini akan dilompati.

include_path
bool
Diperlukan

Apakah akan menyertakan kolom yang berisi jalur file tempat data dibaca. Ini berguna ketika Anda membaca beberapa file, dan ingin mengetahui dari file mana rekaman tertentu berasal, atau untuk menyimpan informasi yang berguna di jalur file.

archive_options
<xref:azureml.dataprep.ArchiveOptions>
Diperlukan

Opsi untuk mengarsipkan file, termasuk jenis arsip dan pola glob entri. Kami hanya mendukung ZIP sebagai jenis arsip saat ini. Misalnya, menentukan


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

membaca semua file dengan nama yang diakhiri dengan "10-20.csv" di ZIP.

partition_format
str
Diperlukan

Tentukan format partisi dalam jalur dan buat kolom string dari format '{x}' dan kolom tanggalwaktu dari format '{x:yyyy/MM/dd/HH/mm/ss}', di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk tahun tambahan, bulan, hari, jam, menit, dan kedua untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, apabila jalur file '../Accounts/2019/01/01/data.csv' tempat data dipartisi berdasarkan nama departemen dan waktu, kita dapat menentukan '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' untuk membuat kolom 'Department' dari jenis string dan 'PartitionDate' dari jenis tanggalwaktu.

Mengembalikan

Objek himpunan data.

Tipe hasil

Keterangan

Gunakan metode ini untuk membaca file teks yang dibatasi saat Anda ingin mengontrol opsi yang digunakan.

Setelah membuat Himpunan Data, Anda harus menggunakan get_profile untuk mencantumkan jenis kolom yang terdeteksi dan statistik ringkasan untuk setiap kolom.

Himpunan Data yang ditampilkan tidak terdaftar dengan ruang kerja.

from_excel_files

Buat Himpunan Data dalam memori yang tidak terdaftar dari file Excel.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Parameter

path
DataReference atau str
Diperlukan

Jalur data di datastore terdaftar atau jalur lokal.

sheet_name
str
Diperlukan

Nama lembar Excel yang akan dimuat. Secara default, kita membaca lembar pertama dari setiap file Excel.

use_column_headers
bool
Diperlukan

Kontrol apakah akan menggunakan baris pertama sebagai header kolom atau tidak.

skip_rows
int
Diperlukan

Berapa banyak baris yang akan dilompati dalam file yang sedang dibaca.

include_path
bool
Diperlukan

Apakah akan menyertakan kolom yang berisi jalur file tempat data dibaca. Ini berguna ketika Anda membaca beberapa file, dan ingin mengetahui dari file mana rekaman tertentu berasal, atau untuk menyimpan informasi yang berguna di jalur file.

infer_column_types
bool
Diperlukan

Jika true, jenis data kolom akan disimpulkan.

partition_format
str
Diperlukan

Tentukan format partisi dalam jalur dan buat kolom string dari format '{x}' dan kolom tanggalwaktu dari format '{x:yyyy/MM/dd/HH/mm/ss}', di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk tahun tambahan, bulan, hari, jam, menit, dan kedua untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, diberikan jalur file '../Accounts/2019/01/01/data.xlsx' di mana data dipartisi berdasarkan nama departemen dan waktu, kita dapat menentukan '/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx' untuk membuat kolom 'Department' dari jenis string dan 'PartitionDate' dari jenis tanggalwaktu.

Mengembalikan

Objek himpunan data.

Tipe hasil

Keterangan

Gunakan metode ini untuk membaca file Excel dalam format .xlsx. Data dapat dibaca dari satu lembar di setiap file Excel. Setelah membuat Himpunan Data, Anda harus menggunakan get_profile untuk mencantumkan jenis kolom yang terdeteksi dan statistik ringkasan untuk setiap kolom. Himpunan Data yang ditampilkan tidak terdaftar dengan ruang kerja.

from_json_files

Buat Himpunan Data dalam memori yang tidak terdaftar dari file JSON.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.Tabular.from_json_lines_files sebagai gantinya untuk membaca dari file baris JSON. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

Parameter

path
DataReference atau str
Diperlukan

Jalur ke file atau folder yang ingin Anda muat dan uraikan. Ini bisa berupa jalur lokal atau url Azure Blob. Globbing didukung. Misalnya, Anda dapat menggunakan jalur = "./data*" untuk membaca semua file dengan nama yang diawali dengan "data".

encoding
FileEncoding
Diperlukan

Pengodean file yang sedang dibaca.

flatten_nested_arrays
bool
Diperlukan

Penanganan program pengontrolan properti terhadap array bersarang. Jika Anda memilih untuk meratakan array JSON bersarang, hal ini dapat menghasilkan jumlah baris yang jauh lebih besar.

include_path
bool
Diperlukan

Apakah akan menyertakan kolom yang berisi jalur tempat data dibaca. Ini berguna ketika Anda membaca beberapa file, dan mungkin ingin mengetahui dari file mana rekaman tertentu berasal, atau untuk menyimpan informasi yang berguna di jalur file.

partition_format
str
Diperlukan

Tentukan format partisi dalam jalur dan buat kolom string dari format '{x}' dan kolom tanggalwaktu dari format '{x:yyyy/MM/dd/HH/mm/ss}', di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk tahun tambahan, bulan, hari, jam, menit, dan kedua untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, pada jalur file '../Accounts/2019/01/01/data.json' dan data dipartisi berdasarkan nama departemen dan waktu, kita dapat menentukan '/{Department}/{PartitionDate:yyyy/MM/dd}/data.json' untuk membuat kolom 'Department' dari jenis string dan 'PartitionDate' dari jenis tanggalwaktu.

Mengembalikan

Objek Himpunan Data lokal.

Tipe hasil

from_pandas_dataframe

Buat Himpunan Data dalam memori yang tidak terdaftar dari dataframe pandas.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.Tabular.register_pandas_dataframe sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

Parameter

dataframe
DataFrame
Diperlukan

DataFrame Pandas.

path
Union[DataReference, str]
Diperlukan

Jalur data pada penyimpanan data terdaftar atau jalur folder lokal.

in_memory
bool
Diperlukan

Apakah akan membaca DataFrame dari memori alih-alih bertahan ke disk.

Mengembalikan

Objek Himpunan Data.

Tipe hasil

Keterangan

Gunakan metode ini untuk mengonversi dataframe Pandas menjadi objek Himpunan Data. Himpunan Data yang dibuat dengan metode ini tidak dapat didaftarkan, karena data berasal dari memori.

Jika in_memory False, DataFrame Pandas dikonversi ke file CSV secara lokal. Jika pat berasal dari jenis DataReference, bingkai Pandas akan diunggah ke penyimpanan data, dan Himpunan Data akan didasarkan pada DataReference. Jika ``path` adalah folder lokal, Himpunan Data akan dibuat berdasarkan file lokal yang tidak dapat dihapus.

Mengajukan pengecualian jika DataReference saat ini bukan merupakan jalur folder.

from_parquet_files

Buat Himpunan Data dalam memori yang tidak terdaftar dari file parquet.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.Tabular.from_parquet_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static from_parquet_files(path, include_path=False, partition_format=None)

Parameter

path
DataReference atau str
Diperlukan

Jalur data di datastore terdaftar atau jalur lokal.

include_path
bool
Diperlukan

Apakah akan menyertakan kolom yang berisi jalur file tempat data dibaca. Ini berguna ketika Anda membaca beberapa file, dan ingin mengetahui dari file mana rekaman tertentu berasal, atau untuk menyimpan informasi yang berguna di jalur file.

partition_format
str
Diperlukan

Tentukan format partisi dalam jalur dan buat kolom string dari format '{x}' dan kolom tanggalwaktu dari format '{x:yyyy/MM/dd/HH/mm/ss}', di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk tahun tambahan, bulan, hari, jam, menit, dan kedua untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, pada jalur file '../Accounts/2019/01/01/data.parquet' di mana data dipartisi berdasarkan nama departemen dan waktu, kita dapat menentukan '/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' untuk membuat kolom 'Department' dari jenis string dan 'PartitionDate' dari jenis tanggalwaktu.

Mengembalikan

Objek himpunan data.

Tipe hasil

Keterangan

Gunakan metode ini untuk membaca file Parquet.

Setelah membuat Himpunan Data, Anda harus menggunakan get_profile untuk mencantumkan jenis kolom yang terdeteksi dan statistik ringkasan untuk setiap kolom.

Himpunan Data yang ditampilkan tidak terdaftar dengan ruang kerja.

from_sql_query

Buat Himpunan Data dalam memori yang tidak terdaftar dari kueri SQL.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.Tabular.from_sql_query sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static from_sql_query(data_source, query)

Parameter

data_source
AzureSqlDatabaseDatastore
Diperlukan

Detail penyimpanan data Azure SQL.

query
str
Diperlukan

Kueri yang akan dijalankan untuk membaca data.

Mengembalikan

Objek Himpunan Data lokal.

Tipe hasil

generate_profile

Buat profil baru untuk Himpunan data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Parameter

compute_target
Union[ComputeTarget, str]
Diperlukan

Target komputasi opsional untuk melakukan pembuatan profil snapshot. Jika dihilangkan, komputasi lokal digunakan.

workspace
Workspace
Diperlukan

Ruang kerja, diperlukan untuk Himpunan Data sementara (tidak terdaftar).

arguments
dict[str, object]
Diperlukan

Argumen profil. Argumen yang valid adalah:

  • 'include_stype_counts' jenis bool. Periksa apakah nilai terlihat seperti beberapa jenis semantik terkenal seperti alamat email, Alamat IP (V4/V6), nomor telepon US, kode zip US, Lintang/Bujur. Mengaktifkan ini berdampak pada performa.

  • 'number_of_histogram_bins' dari jenis int. Mewakili jumlah bin histogram yang akan digunakan untuk data numerik. Nilai defaultnya adalah 10.

Mengembalikan

Objek menjalankan tindakan himpunan data.

Tipe hasil

Keterangan

Panggilan sinkron, akan memblokir hingga selesai. Panggil get_result untuk mendapatkan hasil tindakan.

get

Dapatkan Himpunan Data yang sudah ada di ruang kerja dengan menentukan nama atau ID-nya.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan get_by_name dan get_by_id sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static get(workspace, name=None, id=None)

Parameter

workspace
Workspace
Diperlukan

Ruang kerja Azure Machine Learning yang ada tempat Himpunan data dibuat.

name
str
Diperlukan

Nama Himpunan Data yang akan diambil.

id
str
Diperlukan

Pengidentifikasi unik Himpunan Data di ruang kerja.

Mengembalikan

Himpunan Data dengan nama atau ID yang ditentukan.

Tipe hasil

Keterangan

Anda menyediakan antara name atau id. Pengecualian diajukan jika:

  • name dan id ditentukan tetapi tidak cocok.

  • Himpunan Data dengan name yang ditentukan atau id tidak dapat ditemukan di ruang kerja.

get_all

Dapatkan semua himpunan data terdaftar di ruang kerja.

get_all()

Parameter

workspace
Workspace
Diperlukan

Ruang kerja Azure Machine Learning yang ada tempat Himpunan Data terdaftar.

Mengembalikan

Kamus objek TabularDataset dan FileDataset yang di kunci dengan nama pendaftaran mereka.

Tipe hasil

get_all_snapshots

Dapatkan semua snapshot Himpunan Data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

get_all_snapshots()

Mengembalikan

Daftar snapshot Himpunan Data.

Tipe hasil

get_by_id

Dapatkan Himpunan Data yang disimpan ke ruang kerja.

get_by_id(id, **kwargs)

Parameter

workspace
Workspace
Diperlukan

Ruang kerja Azure Machine Learning yang ada tempat Himpunan Data disimpan.

id
str
Diperlukan

Id himpunan data.

Mengembalikan

Objek himpunan data. Jika himpunan data terdaftar, nama dan versi pendaftarannya juga akan ditampilkan.

Tipe hasil

get_by_name

Dapatkan Himpunan Data terdaftar dari ruang kerja dengan nama pendaftarannya.

get_by_name(name, version='latest', **kwargs)

Parameter

workspace
Workspace
Diperlukan

Ruang kerja Azure Machine Learning yang ada tempat Himpunan Data terdaftar.

name
str
Diperlukan

Nama registrasi.

version
int
Diperlukan

Versi pendaftaran. Default ke 'terbaru'.

Mengembalikan

Objek himpunan data terdaftar.

Tipe hasil

get_definition

Dapatkan definisi spesifik dari Himpunan Data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Parameter

version_id
str
Diperlukan

ID versi definisi Himpunan Data

Mengembalikan

Definisi Himpunan data.

Tipe hasil

Keterangan

Jika version_id disediakan, Azure Machine Learning mencoba untuk mendapatkan definisi yang sesuai dengan versi tersebut. Jika versi tersebut tidak ada, pengecualian akan dilemparkan. Jika version_id dihilangkan, maka versi terbaru yang diambil.

get_definitions

Dapatkan semua definisi Himpunan Data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

get_definitions()

Mengembalikan

Kamus definisi Himpunan Data.

Tipe hasil

Keterangan

Himpunan Data yang terdaftar di ruang kerja AzureML dapat memiliki beberapa definisi, masing-masing dibuat dengan panggilan update_definition. Setiap definisi memiliki pengidentifikasi unik. Definisi saat ini adalah yang dibuat paling baru.

Untuk Himpunan Data yang tidak terdaftar, hanya ada satu definisi.

get_profile

Dapatkan statistik ringkasan pada Himpunan Data yang dihitung sebelumnya.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Parameter

arguments
dict[str, object]
Diperlukan

Argumen profil.

generate_if_not_exist
bool
Diperlukan

Menunjukkan apakah akan membuat profil jika tidak ada.

workspace
Workspace
Diperlukan

Ruang kerja, diperlukan untuk Himpunan Data sementara (tidak terdaftar).

compute_target
Union[ComputeTarget, str]
Diperlukan

Target komputasi untuk menjalankan tindakan profil.

Mengembalikan

DataProfile dari Himpunan Data.

Tipe hasil

<xref:azureml.dataprep.DataProfile>

Keterangan

Untuk Himpunan Data yang terdaftar dengan ruang kerja Azure Machine Learning, metode ini mengambil profil yang sudah ada yang dibuat sebelumnya dengan memanggil get_profile jika masih valid. Profil dibatalkan saat data yang diubah terdeteksi dalam Himpunan Data atau argumen get_profile berbeda dari yang digunakan saat profil dibuat. Jika profil tidak ada atau dibatalkan, generate_if_not_exist akan menentukan apakah profil baru dibuat.

Untuk Himpunan Data yang tidak terdaftar dengan ruang kerja Azure Machine Learning, metode ini selalu menjalankan generate_profile dan mengembalikan hasilnya.

get_snapshot

Dapatkan snapshot Himpunan Data berdasarkan nama.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Parameter

snapshot_name
str
Diperlukan

Nama snapshot.

Mengembalikan

Objek snapshot himpunan data.

Tipe hasil

head

Menarik jumlah baris tertentu yang ditentukan dari Himpunan Data ini dan menampilkannya sebagai DataFrame.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

head(count)

Parameter

count
int
Diperlukan

Jumlah baris yang harus ditarik.

Mengembalikan

DataFrame Pandas.

Tipe hasil

list

Cantumkan semua Himpunan Data di ruang kerja, termasuk yang memiliki properti is_visible sama dengan False.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Menyarankan untuk menggunakan get_all sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static list(workspace)

Parameter

workspace
Workspace
Diperlukan

Ruang kerja tempat Anda ingin mengambil daftar Himpunan Data.

Mengembalikan

Daftar objek Himpunan Data.

Tipe hasil

reactivate

Mengaktifkan kembali himpunan data yang diarsipkan atau tidak digunakan lagi.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

reactivate()

Mengembalikan

Tidak ada.

Tipe hasil

register

Daftarkan Himpunan Data di ruang kerja, sehingga tersedia untuk pengguna ruang kerja lainnya.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Menyarankan untuk menggunakan register sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Parameter

workspace
Workspace
Diperlukan

Ruang kerja Azure Machine Learning tempat Himpunan data akan didaftarkan.

name
str
Diperlukan

Nama Himpunan Data di ruang kerja.

description
str
Diperlukan

Deskripsi Himpunan Data.

tags
dict[str, str]
Diperlukan

Tag untuk dikaitkan dengan Himpunan Data.

visible
bool
Diperlukan

Menunjukkan apakah Himpunan Data terlihat di antarmuka pengguna. Jika False, maka Himpunan Data disembunyikan di antarmuka pengguna dan tersedia melalui SDK.

exist_ok
bool
Diperlukan

Jika True, metode menampilkan Himpunan Data apabila sudah ada di ruang kerja yang diberikan, jika tidak maka terjadi kesalahan.

update_if_exist
bool
Diperlukan

Jika exist_ok adalah True dan update_if_exist adalah True, metode ini akan memperbarui definisi dan menampilkan Himpunan Data yang diperbarui.

Mengembalikan

Objek Himpunan Data terdaftar di ruang kerja.

Tipe hasil

sample

Hasilkan sampel baru dari Himpunan Data sumber, menggunakan strategi pengambilan sampel dan parameter yang disediakan.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode take_sample di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Parameter

sample_strategy
str
Diperlukan

Sampel strategi yang akan digunakan. Nilai yang diterima adalah "top_n", "simple_random", atau "stratified".

arguments
dict[str, object]
Diperlukan

Kamus dengan kunci dari "Optional argument" dalam daftar yang ditunjukkan di atas, dan nilai dari kolom "Type" tye. Hanya argumen dari metode pengambilan sampel yang sesuai yang dapat digunakan. Misalnya, untuk jenis sampel "simple_random", Anda hanya dapat menentukan kamus dengan kunci "probability" dan "seed".

Mengembalikan

Objek himpunan data sebagai sampel himpunan data asli.

Tipe hasil

Keterangan

Sampel dihasilkan dengan mengeksekusi alur transformasi yang ditentukan oleh Himpunan Data ini, dan kemudian menerapkan strategi dan parameter pengambilan sampel ke data output. Setiap metode pengambilan sampel mendukung argumen opsional berikut:

  • top_n

    • Argumen opsional

      • n, jenis bilangan bulat. Pilih baris N atas sebagai sampel Anda.
  • simple_random

    • Argumen opsional

      • peluang, jenis float. Pengambilan sampel acak tempat setiap baris memiliki peluang yang sama untuk dipilih. Peluang harus menjadi angka antara 0 dan 1.

      • seed, jenis float. Digunakan oleh generator angka acak. Gunakan untuk pengulangan.

  • bertingkat

    • Argumen opsional

      • kolom, jenis daftar[str]. Daftar kolom strata dalam data.

      • seed, jenis float. Digunakan oleh generator angka acak. Gunakan untuk pengulangan.

      • pecahan, jenis dict[tuple, float]. Tuple: nilai kolom yang menentukan strata, harus dalam urutan yang sama dengan nama kolom. Float: bobot yang terlampir pada strata selama pengambilan sampel.

Cuplikan kode berikut adalah contoh pola desain untuk metode sampel yang berbeda.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Buat dataframe Pandas dengan menjalankan alur transformasi yang ditentukan oleh definisi Himpunan Data ini.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode to_pandas_dataframe di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Mengembalikan

DataFrame Pandas.

Tipe hasil

Keterangan

Menampilkan DataFrame Pandas yang sepenuhnya terwujud dalam memori.

to_spark_dataframe

Buat Spark DataFrame yang dapat menjalankan alur transformasi yang ditentukan oleh definisi Himpunan Data ini.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode to_spark_dataframe di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Mengembalikan

Spark DataFrame.

Tipe hasil

Keterangan

Spark Dataframe yang dikembalikan hanyalah rencana eksekusi, dan sebenarnya tidak berisi data apa pun, karena Spark Dataframe dievaluasi dengan lamban.

update

Memperbarui atribut Himpunan Data yang dapat berubah di ruang kerja dan menampilkan Himpunan Data yang diperbarui dari ruang kerja.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Parameter

name
str
Diperlukan

Nama Himpunan Data di ruang kerja.

description
str
Diperlukan

Deskripsi data.

tags
dict[str, str]
Diperlukan

Tag untuk mengaitkan Himpunan Data.

visible
bool
Diperlukan

Menunjukkan apakah Himpunan Data terlihat di antarmuka pengguna.

Mengembalikan

Objek Himpunan Data yang diperbarui dari ruang kerja.

Tipe hasil

update_definition

Perbarui definisi Himpunan Data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Parameter

definition
DatasetDefinition
Diperlukan

Definisi baru dari Himpunan Data ini.

definition_update_message
str
Diperlukan

Pesan pembaruan definisi.

Mengembalikan

Objek Himpunan Data yang diperbarui dari ruang kerja.

Tipe hasil

Keterangan

Untuk menggunakan Himpunan Data yang diperbarui, gunakan objek yang ditampilkan oleh metode ini.

Atribut

definition

Menampilkan definisi Himpunan Data saat ini.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

Mengembalikan

Definisi Himpunan data.

Tipe hasil

Keterangan

Definisi Himpunan Data adalah serangkaian langkah yang menentukan cara membaca dan mentransformasikan data.

Himpunan Data yang terdaftar di ruang kerja AzureML dapat memiliki beberapa definisi, masing-masing dibuat dengan panggilan update_definition. Setiap definisi memiliki pengidentifikasi unik. Memiliki beberapa definisi yang memungkinkan Anda untuk membuat perubahan pada Himpunan Data yang ada tanpa memutus model dan alur yang bergantung pada definisi yang lebih lama.

Untuk Himpunan Data yang tidak terdaftar, hanya ada satu definisi.

definition_version

Menampilkan versi definisi Himpunan Data saat ini.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

Mengembalikan

Versi definisi Himpunan Data.

Tipe hasil

str

Keterangan

Definisi Himpunan Data adalah serangkaian langkah yang menentukan cara membaca dan mentransformasikan data.

Himpunan Data yang terdaftar di ruang kerja AzureML dapat memiliki beberapa definisi, masing-masing dibuat dengan panggilan update_definition. Setiap definisi memiliki pengidentifikasi unik. Definisi saat ini adalah yang terbaru dibuat, dengan ID yang ditampilkan oleh ini.

Untuk Himpunan Data yang tidak terdaftar, hanya ada satu definisi.

description

Menampilkan deskripsi Himpunan Data.

Mengembalikan

Deskripsi Himpunan data.

Tipe hasil

str

Keterangan

Menentukan deskripsi data dalam Himpunan Data memungkinkan pengguna ruang kerja untuk memahami apa yang diwakili data, dan bagaimana mereka dapat menggunakannya.

id

Jika Himpunan Data terdaftar di ruang kerja, menampilkan ID Himpunan Data. Jika tidak, menampilkan Tidak Ada.

Mengembalikan

ID Himpunan Data.

Tipe hasil

str

is_visible

Kontrol visibilitas Himpunan Data yang terdaftar di antarmuka pengguna ruang kerja Azure Machine Learning.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

Mengembalikan

Visibilitas Himpunan Data.

Tipe hasil

Keterangan

Nilai yang ditampilkan:

  • True: Himpunan data terlihat di antarmuka pengguna ruang kerja. Default.

  • False: Himpunan data disembunyikan di antarmuka pengguna ruang kerja.

Tidak berpengaruh pada Himpunan Data yang tidak terdaftar.

name

Menampilkan nama Himpunan Data.

Mengembalikan

Nama Himpunan Data.

Tipe hasil

str

state

Menampilkan status Himpunan data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

Mengembalikan

Status Himpunan Data.

Tipe hasil

str

Keterangan

Arti dan pengaruh status adalah sebagai berikut:

  • Aktif. Definisi aktif persis seperti apa kedengarannya, semua tindakan dapat dilakukan pada definisi aktif.

  • Tidak digunakan lagi. Definisi yang tidak digunakan lagi dapat digunakan, tetapi akan menghasilkan peringatan yang dicatat dalam log setiap kali data yang mendasarinya diakses.

  • Diarsipkan. Definisi yang diarsipkan tidak dapat digunakan untuk melakukan tindakan apa pun. Untuk melakukan tindakan pada definisi yang diarsipkan, maka harus diaktifkan kembali.

tags

Menampilkan tag yang terkait dengan Himpunan Data.

Mengembalikan

Tag Himpunan Data.

Tipe hasil

workspace

Jika Himpunan Data terdaftar di ruang kerja, menampilkan ruang kerja. Jika tidak, menampilkan Tidak Ada.

Mengembalikan

Ruang kerja.

Tipe hasil

Tabular

Pabrik untuk membuat FileDataset

alias dari TabularDatasetFactory