FileDataset Kelas

Mewakili kumpulan referensi file di penyimpanan data atau URL publik yang akan digunakan dalam Azure Machine Learning.

FileDataset mendefinisikan serangkaian operasi yang dievaluasi dengan lamban dan tidak dapat diubah untuk memuat data dari sumber data ke dalam aliran file. Data tidak dimuat dari sumber hingga FileDataset diminta untuk mengirimkan data.

FileDataset dibuat menggunakan metode from_files dari kelas FileDatasetFactory.

Untuk informasi selengkapnya, lihat artikel Menambahkan & mendaftarkan himpunan data. Untuk mulai bekerja dengan himpunan data file, lihat https://aka.ms/filedataset-samplenotebook.

Inisialisasi objek FileDataset.

Konstruktor ini tidak seharusnya dipanggil secara langsung. Himpunan data dimaksudkan untuk dibuat menggunakan FileDatasetFactory kelas .

Warisan
FileDataset

Konstruktor

FileDataset()

Keterangan

FileDataset dapat digunakan sebagai input dari percobaan yang dijalankan. Ini juga dapat didaftarkan ke ruang kerja dengan nama tertentu dan diambil dengan nama tersebut.

FileDataset dapat disubset dengan menerapkan berbagai metode subsetting yang tersedia pada kelas ini. Hasil subsetting selalu FileDataset baru.

Pemuatan data aktual terjadi ketika FileDataset diminta untuk mengirimkan data ke mekanisme penyimpanan lain (misalnya file yang diunduh atau dipasang ke jalur lokal).

Metode

as_cache

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Buat DatacacheConsumptionConfig yang dipetakan ke datacache_store dan himpunan data.

as_download

Buat DatasetConsumptionConfig dengan mode yang diatur untuk diunduh.

Dalam proses yang dikirimkan, file dalam himpunan data akan diunduh ke jalur lokal pada target komputasi. Lokasi unduhan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks eksekusi. Kami akan menghasilkan nama input secara otomatis. Jika Anda ingin menentukan nama input khusus, panggil metode as_named_input.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_hdfs

Atur mode ke hdfs.

Dalam eksekusi synapse yang dikirimkan, file dalam himpunan data akan dikonversi ke jalur lokal pada target komputasi. Jalur hdfs dapat diambil dari nilai argumen dan variabel lingkungan os.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_<hash>']
as_mount

Buat DatasetConsumptionConfig dengan mode yang diatur untuk dipasang.

Dalam proses yang dikirimkan, file dalam kumpulan data akan dipasang ke jalur lokal pada target komputasi. Titik pemasangan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks yang dijalankan. Kami akan menghasilkan nama input secara otomatis. Jika Anda ingin menentukan nama input khusus, silakan hubungi metode as_named_input.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
download

Unduh aliran file yang ditentukan oleh himpunan data sebagai file lokal.

file_metadata

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Dapatkan ekspresi metadata file dengan menentukan nama kolom metadata.

Kolom metadata file yang didukung adalah Size, LastModifiedTime, CreationTime, Extension, dan CanSeek

filter

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Filter data, sisakan baris yang cocok dengan ekspresi yang ditentukan saja.

hydrate

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Lakukan hidrasi himpunan data ke dalam replika yang diminta yang ditentukan dalam datacache_store.

mount

Buat manajer konteks untuk memasang aliran file yang ditentukan oleh himpunan data sebagai file lokal.

random_split

Pisahkan aliran file dalam himpunan data menjadi dua bagian secara acak dan kira-kira berdasarkan persentase yang ditentukan.

Himpunan data pertama yang dikembalikan berisi kira-kira percentage dari jumlah total referensi file dan himpunan data kedua berisi referensi file yang tersisa.

skip

Lewati aliran file dari bagian atas himpunan data menurut hitungan yang ditentukan.

take

Ambil sampel aliran file dari atas himpunan data dengan jumlah yang ditentukan.

take_sample

Ambil sampel acak aliran file dalam himpunan data kira-kira berdasarkan peluang yang ditentukan.

to_path

Dapatkan daftar jalur file untuk setiap aliran file yang ditentukan oleh himpunan data.

as_cache

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Buat DatacacheConsumptionConfig yang dipetakan ke datacache_store dan himpunan data.

as_cache(datacache_store)

Parameter

Nama Deskripsi
datacache_store
Diperlukan

datacachestore yang akan digunakan untuk menghidrasi.

Mengembalikan

Jenis Deskripsi

Objek konfigurasi yang menjelaskan bagaimana datacache harus diwujudkan dalam eksekusi.

as_download

Buat DatasetConsumptionConfig dengan mode yang diatur untuk diunduh.

Dalam proses yang dikirimkan, file dalam himpunan data akan diunduh ke jalur lokal pada target komputasi. Lokasi unduhan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks eksekusi. Kami akan menghasilkan nama input secara otomatis. Jika Anda ingin menentukan nama input khusus, panggil metode as_named_input.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)

Parameter

Nama Deskripsi
path_on_compute
str

Jalur target pada komputasi untuk menyediakan data.

nilai default: None

Keterangan

Ketika himpunan data dibuat dari jalur file tunggal, lokasi unduhan akan menjadi jalur dari file tunggal yang diunduh. Jika tidak, lokasi unduhan akan menjadi jalur folder penutup untuk semua file yang diunduh.

Jika path_on_compute dimulai dengan /, maka itu akan diperlakukan sebagai jalur absolut. Jika tidak dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur relatif terhadap direktori kerja. Jika Anda telah menentukan jalur absolut, pastikan bahwa pekerjaan tersebut memiliki izin untuk menulis ke direktori tersebut.

as_hdfs

Atur mode ke hdfs.

Dalam eksekusi synapse yang dikirimkan, file dalam himpunan data akan dikonversi ke jalur lokal pada target komputasi. Jalur hdfs dapat diambil dari nilai argumen dan variabel lingkungan os.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_<hash>']
as_hdfs()

Keterangan

Ketika himpunan data dibuat dari jalur file tunggal, jalur hdfs akan menjadi jalur file tunggal. Jika tidak, jalur hdfs akan menjadi jalur folder tertutup untuk semua file yang dipasang.

as_mount

Buat DatasetConsumptionConfig dengan mode yang diatur untuk dipasang.

Dalam proses yang dikirimkan, file dalam kumpulan data akan dipasang ke jalur lokal pada target komputasi. Titik pemasangan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks yang dijalankan. Kami akan menghasilkan nama input secara otomatis. Jika Anda ingin menentukan nama input khusus, silakan hubungi metode as_named_input.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)

Parameter

Nama Deskripsi
path_on_compute
str

Jalur target pada komputasi untuk menyediakan data.

nilai default: None

Keterangan

Ketika himpunan data dibuat dari jalur satu file, titik pemasangan akan menjadi jalur dari file yang dipasang tunggal. Jika tidak, titik pemasangan akan menjadi jalur folder penutup untuk semua file yang dipasang.

Jika path_on_compute dimulai dengan /, maka itu akan diperlakukan sebagai jalur absolut. Jika tidak dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur relatif terhadap direktori kerja. Jika Anda telah menentukan jalur absolut, pastikan bahwa pekerjaan tersebut memiliki izin untuk menulis ke direktori tersebut.

download

Unduh aliran file yang ditentukan oleh himpunan data sebagai file lokal.

download(target_path=None, overwrite=False, ignore_not_found=False)

Parameter

Nama Deskripsi
target_path
Diperlukan
str

Direktori lokal untuk mengunduh file. Jika Tidak Ada, data akan diunduh ke direktori sementara.

overwrite
Diperlukan

Menunjukkan apakah akan menimpa file yang ada. Defaultnya adalah False. File yang ada akan ditimpa jika overwrite diatur ke True; jika tidak, pengecualian akan diajukan.

ignore_not_found
Diperlukan

Menunjukkan apakah unduhan akan gagal jika beberapa file yang ditunjukkan oleh himpunan data tidak ditemukan. Defaultnya adalah False. Unduhan akan gagal jika unduhan file gagal karena alasan apa pun jika ignore_not_found diatur ke False; jika tidak, peringatan akan dicatat untuk kesalahan tidak ditemukan dan unduhan akan berhasil selama tidak ada jenis kesalahan lain yang ditemukan.

Mengembalikan

Jenis Deskripsi

Mengembalikan array jalur file untuk setiap file yang diunduh.

Keterangan

Jika target_path dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur absolut. Jika tidak dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur relatif terhadap direktori kerja saat ini.

file_metadata

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Dapatkan ekspresi metadata file dengan menentukan nama kolom metadata.

Kolom metadata file yang didukung adalah Size, LastModifiedTime, CreationTime, Extension, dan CanSeek

file_metadata(col)

Parameter

Nama Deskripsi
col
Diperlukan
str

Nama kolom

Mengembalikan

Jenis Deskripsi
<xref:azureml.dataprep.api.expression.RecordFieldExpression>

Menampilkan ekspresi yang mengambil nilai dalam kolom yang ditentukan.

filter

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Filter data, sisakan baris yang cocok dengan ekspresi yang ditentukan saja.

filter(expression)

Parameter

Nama Deskripsi
expression
Diperlukan
<xref:azureml.dataprep.api.expression.Expression>

Ekspresi yang akan dievaluasi.

Mengembalikan

Jenis Deskripsi

Himpunan data yang dimodifikasi (tidak terdaftar).

Keterangan

Ekspresi dimulai dengan mengindeks Dataset dengan nama kolom. Ekspresi mendukung berbagai fungsi dan operator dan dapat digabungkan menggunakan operator logis. Ekspresi yang dihasilkan akan dievaluasi dengan lambat untuk setiap baris ketika terjadi penarikan data dan bukan di tempat yang ditentukan.


   (dataset.file_metadata('Size') > 10000) & (dataset.file_metadata('CanSeek') == True)
   dataset.file_metadata('Extension').starts_with('j')

hydrate

Catatan

Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Lakukan hidrasi himpunan data ke dalam replika yang diminta yang ditentukan dalam datacache_store.

hydrate(datacache_store, replica_count=None)

Parameter

Nama Deskripsi
datacache_store
Diperlukan

datacachestore yang akan digunakan untuk menghidrasi.

replica_count
Diperlukan
<xref:Int>, <xref:optional>

Jumlah replika yang akan dihidrasi.

Mengembalikan

Jenis Deskripsi

Objek konfigurasi yang menjelaskan bagaimana datacache harus diwujudkan dalam eksekusi.

mount

Buat manajer konteks untuk memasang aliran file yang ditentukan oleh himpunan data sebagai file lokal.

mount(mount_point=None, **kwargs)

Parameter

Nama Deskripsi
mount_point
Diperlukan
str

Direktori lokal untuk memasang file ke. Jika Tidak Ada, data akan dipasang ke direktori sementara, yang dapat Anda temukan melalui panggilan metode instans MountContext.mount_point.

Mengembalikan

Jenis Deskripsi
<xref:MountContext>: <xref:the> <xref:context> <xref:manager.> <xref:Upon> <xref:entering> <xref:the> <xref:context> <xref:manager>, <xref:the> <xref:dataflow> <xref:will> <xref:be> <xref:mounted> <xref:to> <xref:the> <xref:mount_point.> <xref:Upon> exit, <xref:it> <xref:will> <xref:remove> <xref:the> mount <xref:point> <xref:and> clean <xref:up> <xref:the> <xref:daemon> <xref:process> <xref:used> <xref:to> mount <xref:the> <xref:dataflow.>

Mengembalikan manajer konteks untuk mengelola siklus hidup pemasangan.

Keterangan

Manajer konteks akan dikembalikan untuk mengelola siklus hidup pemasangan. Untuk memasang, Anda harus memasukkan manajer konteks dan melepas pemasangan, keluar dari manajer konteks.

Pemasangan hanya didukung pada sistem operasi Unix atau mirip Unix yang terpasang paket asli libfuse. Jika Anda menjalankannya di dalam kontainer docker, kontainer docker tersebut harus diawali dengan bendera --privileged atau dengan --cap-add SYS_ADMIN --device /dev/fuse.


   datastore = Datastore.get(workspace, 'workspaceblobstore')
   dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))

   with dataset.mount() as mount_context:
       # list top level mounted files and folders in the dataset
       os.listdir(mount_context.mount_point)

   # You can also use the start and stop methods
   mount_context = dataset.mount()
   mount_context.start()  # this will mount the file streams
   mount_context.stop()  # this will unmount the file streams

Jika target_path dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur absolut. Jika tidak dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur relatif terhadap direktori kerja saat ini.

random_split

Pisahkan aliran file dalam himpunan data menjadi dua bagian secara acak dan kira-kira berdasarkan persentase yang ditentukan.

Himpunan data pertama yang dikembalikan berisi kira-kira percentage dari jumlah total referensi file dan himpunan data kedua berisi referensi file yang tersisa.

random_split(percentage, seed=None)

Parameter

Nama Deskripsi
percentage
Diperlukan

Persentase perkiraan untuk membagi himpunan data. Ini harus berupa angka antara 0,0 dan 1,0.

seed
Diperlukan
int

Nilai awal opsional yang digunakan untuk generator acak.

Mengembalikan

Jenis Deskripsi

Mengembalikan tuple objek FileDataset baru yang mewakili dua himpunan data setelah pemisahan.

skip

Lewati aliran file dari bagian atas himpunan data menurut hitungan yang ditentukan.

skip(count)

Parameter

Nama Deskripsi
count
Diperlukan
int

Jumlah aliran file yang akan dilewati.

Mengembalikan

Jenis Deskripsi

Mengembalikan objek FileDataset baru yang mewakili himpunan data dengan aliran file dilewati.

take

Ambil sampel aliran file dari atas himpunan data dengan jumlah yang ditentukan.

take(count)

Parameter

Nama Deskripsi
count
Diperlukan
int

Jumlah aliran file yang akan diambil.

Mengembalikan

Jenis Deskripsi

Mengembalikan objek FileDataset baru yang mewakili himpunan data sampel.

take_sample

Ambil sampel acak aliran file dalam himpunan data kira-kira berdasarkan peluang yang ditentukan.

take_sample(probability, seed=None)

Parameter

Nama Deskripsi
probability
Diperlukan

Peluang aliran file yang disertakan dalam sampel.

seed
Diperlukan
int

Nilai awal opsional yang digunakan untuk generator acak.

Mengembalikan

Jenis Deskripsi

Mengembalikan objek FileDataset baru yang mewakili himpunan data sampel.

to_path

Dapatkan daftar jalur file untuk setiap aliran file yang ditentukan oleh himpunan data.

to_path()

Mengembalikan

Jenis Deskripsi

Mengembalikan array jalur file.

Keterangan

Jalur file adalah jalur relatif untuk file lokal saat aliran file diunduh atau dipasang.

Awalan umum akan dihapus dari jalur file berdasarkan cara sumber data ditentukan untuk membuat himpunan data. Contohnya:


   datastore = Datastore.get(workspace, 'workspaceblobstore')
   dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))
   print(dataset.to_path())

   # ['year-2018/1.jpg'
   #  'year-2018/2.jpg'
   #  'year-2019/1.jpg']

   dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/green-small/*.csv')

   print(dataset.to_path())
   # ['/green_tripdata_2013-08.csv']