FileDatasetFactory Kelas

Berisi metode guna membuat himpunan data file untuk Azure Machine Learning.

FileDataset dibuat dari metode from_files yang ditentukan di kelas ini.

Untuk informasi selengkapnya tentang bekerja dengan himpunan data file, lihat buku catatan https://aka.ms/filedataset-samplenotebook.

Warisan
builtins.object
FileDatasetFactory

Konstruktor

FileDatasetFactory()

Metode

from_files

Membuat FileDataset untuk mewakili aliran file.

upload_directory

Buat himpunan data dari direktori sumber.

from_files

Membuat FileDataset untuk mewakili aliran file.

static from_files(path, validate=True, partition_format=None, is_file=False)

Parameter

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Diperlukan

Jalur ke file sumber, yang dapat berupa nilai tunggal atau daftar string url (http[s]|abfs[s]|wasb[s]), DataPath objek, atau tuple dari Datastore dan jalur relatif. Perhatikan bahwa daftar jalur tidak dapat menyertakan url dan datastore secara bersamaan.

validate
bool
Diperlukan

Menunjukkan apakah akan memvalidasi jika data dapat dimuat dari himpunan data yang dikembalikan. Default ke True. Validasi mengharuskan sumber data dapat diakses dari komputasi saat ini.

partition_format
str
Diperlukan

Tentukan format partisi jalur. Default ke Tidak Ada. Informasi partisi dari setiap jalur akan diekstrak ke dalam kolom berdasarkan format yang ditentukan. Bagian format '{column_name}' membuat kolom string, dan '{column_name:yyyy/MM/dd/HH/mm/ss}' membuat kolom tanggalwaktu, di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk mengekstrak tahun, bulan, hari, jam, menit, dan detik untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, jalur tertentu '../Accounts/2019/01/01/data.jsonl' di mana partisi tersebut menurut nama departemen dan waktu, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.jsonl' membuat kolom string 'Department' dengan nilai 'Accounts' dan kolom tanggalwaktu 'PartitionDate' dengan nilai '01-01-2019'.

is_file
bool
Diperlukan

Menunjukkan apakah semua jalur input mengarah ke file. Mesin himpunan data secara default mencoba memeriksa apakah jalur input mengarah ke file. Atur tanda ini ke True ketika semua jalur input adalah File untuk mempercepat pembuatan Dataset.

Mengembalikan

Objek FileDataset.

Tipe hasil

Keterangan

from_files membuat objek kelas FileDataset, yang menentukan operasi untuk memuat aliran file dari jalur yang disediakan.

Agar data dapat diakses oleh Azure Machine Learning, file yang ditentukan oleh path harus terletak di Datastore atau dapat diakses dengan URL web publik atau url Blob, ADLS Gen1, dan ADLS Gen2.

Token AAD pengguna akan digunakan dalam buku catatan atau program python lokal jika langsung memanggil salah satu fungsi ini: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files identitas target komputasi akan digunakan dalam pekerjaan yang dikirimkan oleh Experiment.submit untuk autentikasi akses data. Pelajari selengkapnya:https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

Buat himpunan data dari direktori sumber.

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

Parameter

src_dir
str
Diperlukan

Direktori lokal yang akan diunggah.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Diperlukan

Diperlukan, jalur penyimpanan data tempat file akan diunggah.

pattern
str
Diperlukan

Opsional, Jika disediakan, akan memfilter semua nama jalur yang cocok dengan pola yang diberikan, mirip dengan paket glob Python, mendukung '*', '?', dan rentang karakter yang diekspresikan dengan [].

show_progress
bool
Diperlukan

Opsional, menunjukkan apakah akan menampilkan progres unggahan di konsol. Defaultnya diatur ke True.

Mengembalikan

Himpunan data yang terdaftar.

Tipe hasil