FileDataset Sınıf

Azure Machine Learning'de kullanılacak veri depolarındaki veya genel URL'lerdeki dosya başvurularından oluşan bir koleksiyonu temsil eder.

FileDataset, veri kaynağından dosya akışlarına veri yüklemek için bir dizi yavaş değerlendirilen, sabit işlem tanımlar. FileDataset'ten veri teslimi istenene kadar veriler kaynaktan yüklenmez.

FileDatasetFactory sınıfının yöntemi kullanılarak from_files bir FileDataset oluşturulur.

Daha fazla bilgi için Veri kümeleri ekleme & kaydetme makalesine bakın. Dosya veri kümesiyle çalışmaya başlamak için bkz https://aka.ms/filedataset-samplenotebook. .

FileDataset nesnesini başlatın.

Bu oluşturucu doğrudan çağrılmayacak. Veri kümesinin sınıfı kullanılarak FileDatasetFactory oluşturulması amaçlanmıştır.

Devralma
FileDataset

Oluşturucu

FileDataset()

Açıklamalar

FileDataset, deneme çalıştırmasının girişi olarak kullanılabilir. Ayrıca, belirtilen adla çalışma alanına kaydedilebilir ve daha sonra bu adla alınabilir.

FileDataset, bu sınıfta kullanılabilen farklı alt ayar yöntemleri çağrılarak alt kümelenebilir. Alt sıfırlamanın sonucu her zaman yeni bir FileDataset'tir.

Gerçek veri yükleme işlemi, FileDataset'in verileri başka bir depolama mekanizmasına (ör. indirilen veya yerel yola bağlanan dosyalar) teslim etmesinin istenmesiyle gerçekleşir.

Yöntemler

as_cache

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

bir datacache_store ve bir veri kümesiyle eşlenmiş bir DatacacheConsumptionConfig oluşturun.

as_download

Modu indirecek şekilde ayarlanmış bir DatasetConsumptionConfig oluşturun.

Gönderilen çalıştırmada, veri kümesindeki dosyalar işlem hedefindeki yerel yola indirilir. İndirme konumu bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir. Otomatik olarak bir giriş adı oluşturacağız. Özel bir giriş adı belirtmek isterseniz lütfen as_named_input yöntemini çağırın.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_hdfs

Modu hdfs olarak ayarlayın.

Gönderilen synapse çalıştırmasında, veri kümelerindeki dosyalar işlem hedefindeki yerel yola dönüştürülür. hdfs yolu bağımsız değişken değerlerinden ve işletim sistemi ortam değişkenlerinden alınabilir.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_<hash>']
as_mount

Modu bağlama olarak ayarlanmış bir DatasetConsumptionConfig oluşturun.

Gönderilen çalıştırmada, veri kümelerindeki dosyalar işlem hedefindeki yerel yola bağlanır. Bağlama noktası, bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir. Otomatik olarak bir giriş adı oluşturacağız. Özel bir giriş adı belirtmek isterseniz lütfen as_named_input yöntemini çağırın.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
download

Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını indirin.

file_metadata

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Meta veri sütun adını belirterek dosya meta verileri ifadesini alın.

Desteklenen dosya meta veri sütunları Size, LastModifiedTime, CreationTime, Extension ve CanSeek'tir

filter

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Yalnızca belirtilen ifadeyle eşleşen kayıtları bırakarak verileri filtreleyin.

hydrate

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri kümesini datacache_store'de belirtilen istenen çoğaltmalara nemlendiren.

mount

Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını bağlamak için bir bağlam yöneticisi oluşturun.

random_split

Veri kümesindeki dosya akışlarını rastgele ve yaklaşık olarak belirtilen yüzdeye göre iki bölüme bölün.

Döndürülen ilk veri kümesi yaklaşık olarak percentage toplam dosya başvurusu sayısını, ikinci veri kümesi ise kalan dosya başvurularını içerir.

skip

Belirtilen sayıya göre veri kümesinin en üstünden dosya akışlarını atlayın.

take

Belirtilen sayıya göre veri kümesinin en üstünden dosya akışlarının bir örneğini alın.

take_sample

Veri kümesinde belirtilen olasılığa göre rastgele bir dosya akışı örneği alın.

to_path

Veri kümesi tarafından tanımlanan her dosya akışı için dosya yollarının listesini alın.

as_cache

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

bir datacache_store ve bir veri kümesiyle eşlenmiş bir DatacacheConsumptionConfig oluşturun.

as_cache(datacache_store)

Parametreler

datacache_store
DatacacheStore
Gerekli

Hidrant yapmak için kullanılacak datacachestore.

Döndürülenler

Datacache'in çalıştırmada nasıl gerçekleştirilmesi gerektiğini açıklayan yapılandırma nesnesi.

Dönüş türü

as_download

Modu indirecek şekilde ayarlanmış bir DatasetConsumptionConfig oluşturun.

Gönderilen çalıştırmada, veri kümesindeki dosyalar işlem hedefindeki yerel yola indirilir. İndirme konumu bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir. Otomatik olarak bir giriş adı oluşturacağız. Özel bir giriş adı belirtmek isterseniz lütfen as_named_input yöntemini çağırın.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)

Parametreler

path_on_compute
str
varsayılan değer: None

verilerin kullanılabilmesi için işlemdeki hedef yol.

Açıklamalar

Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, indirme konumu indirilen tek dosyanın yolu olur. Aksi takdirde, indirme konumu indirilen tüm dosyalar için kapsayan klasörün yolu olur.

path_on_compute bir / ile başlarsa, mutlak yol olarak değerlendirilir. / ile başlamıyorsa, çalışma dizinine göre göreli bir yol olarak değerlendirilir. Mutlak bir yol belirttiyseniz, lütfen işin bu dizine yazma izni olduğundan emin olun.

as_hdfs

Modu hdfs olarak ayarlayın.

Gönderilen synapse çalıştırmasında, veri kümelerindeki dosyalar işlem hedefindeki yerel yola dönüştürülür. hdfs yolu bağımsız değişken değerlerinden ve işletim sistemi ortam değişkenlerinden alınabilir.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_<hash>']
as_hdfs()

Açıklamalar

Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, hdfs yolu tek dosyanın yolu olur. Aksi takdirde, hdfs yolu tüm bağlı dosyalar için kapsayan klasörün yolu olur.

as_mount

Modu bağlama olarak ayarlanmış bir DatasetConsumptionConfig oluşturun.

Gönderilen çalıştırmada, veri kümelerindeki dosyalar işlem hedefindeki yerel yola bağlanır. Bağlama noktası, bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir. Otomatik olarak bir giriş adı oluşturacağız. Özel bir giriş adı belirtmek isterseniz lütfen as_named_input yöntemini çağırın.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)

Parametreler

path_on_compute
str
varsayılan değer: None

verilerin kullanılabilmesi için işlemdeki hedef yol.

Açıklamalar

Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, bağlama noktası bağlı tek dosyanın yolu olur. Aksi takdirde, bağlama noktası tüm bağlı dosyalar için kapsayan klasörün yolu olacaktır.

path_on_compute bir / ile başlarsa, mutlak yol olarak değerlendirilir. / ile başlamıyorsa, çalışma dizinine göre göreli bir yol olarak değerlendirilir. Mutlak bir yol belirttiyseniz, lütfen işin bu dizine yazma izni olduğundan emin olun.

download

Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını indirin.

download(target_path=None, overwrite=False, ignore_not_found=False)

Parametreler

target_path
str
Gerekli

Dosyaların indirilmesi için yerel dizin. Hiçbiri ise, veriler geçici bir dizine indirilir.

overwrite
bool
Gerekli

Varolan dosyaların üzerine yazılıp yazılmayacağını gösterir. Varsayılan değer False'tur. Üzerine yazma True olarak ayarlanırsa mevcut dosyaların üzerine yazılır; aksi takdirde bir özel durum oluşturulur.

ignore_not_found
bool
Gerekli

Veri kümesi tarafından işaret edilen bazı dosyalar bulunamazsa indirme işleminin başarısız olup olmayacağını gösterir. Varsayılan değer False'tur. ignore_not_found False olarak ayarlanırsa herhangi bir dosya indirme işlemi herhangi bir nedenle başarısız olursa indirme başarısız olur; aksi takdirde, başka hata türleriyle karşılaşılmadığı sürece bir waring bulunamadı hataları için günlüğe kaydedilir ve dowload başarılı olur.

Döndürülenler

İndirilen her dosya için bir dosya yolu dizisi döndürür.

Dönüş türü

Açıklamalar

target_path ile başlıyorsa, mutlak yol olarak değerlendirilir. / ile başlamıyorsa, geçerli çalışma dizinine göre göreli bir yol olarak değerlendirilir.

file_metadata

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Meta veri sütun adını belirterek dosya meta verileri ifadesini alın.

Desteklenen dosya meta veri sütunları Size, LastModifiedTime, CreationTime, Extension ve CanSeek'tir

file_metadata(col)

Parametreler

col
str
Gerekli

Sütunun adı

Döndürülenler

Belirtilen sütundaki değeri alan bir ifade döndürür.

Dönüş türü

<xref:azureml.dataprep.api.expression.RecordFieldExpression>

filter

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Yalnızca belirtilen ifadeyle eşleşen kayıtları bırakarak verileri filtreleyin.

filter(expression)

Parametreler

expression
<xref:azureml.dataprep.api.expression.Expression>
Gerekli

Değerlendirilecek ifade.

Döndürülenler

Değiştirilen veri kümesi (kaydı kaldırılmış).

Dönüş türü

Açıklamalar

İfadeler, Veri Kümesinde bir sütunun adıyla dizin oluşturarak başlatılır. Bunlar çeşitli işlevleri ve işleçleri destekler ve mantıksal işleçler kullanılarak birleştirilebilir. Sonuçta elde edilen ifade, tanımlandığı yerde değil, bir veri çekme işlemi gerçekleştiğinde her kayıt için gevşek bir şekilde değerlendirilir.


   (dataset.file_metadata('Size') > 10000) & (dataset.file_metadata('CanSeek') == True)
   dataset.file_metadata('Extension').starts_with('j')

hydrate

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri kümesini datacache_store'de belirtilen istenen çoğaltmalara nemlendiren.

hydrate(datacache_store, replica_count=None)

Parametreler

datacache_store
DatacacheStore
Gerekli

Hidrant yapmak için kullanılacak datacachestore.

replica_count
<xref:Int>, <xref:optional>
Gerekli

Hidrat için çoğaltma sayısı.

Döndürülenler

Datacache'in çalıştırmada nasıl gerçekleştirilmesi gerektiğini açıklayan yapılandırma nesnesi.

Dönüş türü

mount

Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını bağlamak için bir bağlam yöneticisi oluşturun.

mount(mount_point=None, **kwargs)

Parametreler

mount_point
str
Gerekli

Dosyaların bağlanacak yerel dizin. Hiçbiri ise, veriler geçici bir dizine bağlanır ve bunu MountContext.mount_point örnek yöntemini çağırarak bulabilirsiniz.

Döndürülenler

Bağlamanın yaşam döngüsünü yönetmek için bir bağlam yöneticisi döndürür.

Dönüş türü

<xref:<xref:MountContext: the context manager. Upon entering the context manager>, <xref:the dataflow will bemounted to the mount_point. Upon exit>, <xref:it will remove the mount point and clean up the daemon processused to mount the dataflow.>>

Açıklamalar

Bağlamanın yaşam döngüsünü yönetmek için bir bağlam yöneticisi döndürülür. Bağlamak için bağlam yöneticisini girmeniz ve bağlamayı kaldırmak için bağlam yöneticisinden çıkmanız gerekir.

Bağlama yalnızca libfuse yerel paketin yüklü olduğu Unix veya Unix benzeri işletim sistemlerinde desteklenir. Docker kapsayıcısının içinde çalışıyorsanız, docker kapsayıcısı –privileged bayrağıyla veya –cap-add SYS_ADMIN –device /dev/fuse ile başlatılmalıdır.


   datastore = Datastore.get(workspace, 'workspaceblobstore')
   dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))

   with dataset.mount() as mount_context:
       # list top level mounted files and folders in the dataset
       os.listdir(mount_context.mount_point)

   # You can also use the start and stop methods
   mount_context = dataset.mount()
   mount_context.start()  # this will mount the file streams
   mount_context.stop()  # this will unmount the file streams

target_path ile başlıyorsa, mutlak yol olarak kabul edilir. / ile başlamıyorsa, geçerli çalışma dizinine göre göreli bir yol olarak kabul edilir.

random_split

Veri kümesindeki dosya akışlarını rastgele ve yaklaşık olarak belirtilen yüzdeye göre iki bölüme bölün.

Döndürülen ilk veri kümesi yaklaşık olarak percentage toplam dosya başvurusu sayısını, ikinci veri kümesi ise kalan dosya başvurularını içerir.

random_split(percentage, seed=None)

Parametreler

percentage
float
Gerekli

Veri kümesinin bölündüğü yaklaşık yüzde. Bu, 0,0 ile 1,0 arasında bir sayı olmalıdır.

seed
int
Gerekli

Rastgele oluşturucu için kullanılacak isteğe bağlı bir tohum.

Döndürülenler

Bölmeden sonra iki veri kümesini temsil eden yeni FileDataset nesnelerinin bir demetini döndürür.

Dönüş türü

skip

Belirtilen sayıya göre veri kümesinin en üstünden dosya akışlarını atlayın.

skip(count)

Parametreler

count
int
Gerekli

Atlana dosya akışlarının sayısı.

Döndürülenler

Dosya akışları atlanmış bir veri kümesini temsil eden yeni bir FileDataset nesnesi döndürür.

Dönüş türü

take

Belirtilen sayıya göre veri kümesinin en üstünden dosya akışlarının bir örneğini alın.

take(count)

Parametreler

count
int
Gerekli

Alınacak dosya akışlarının sayısı.

Döndürülenler

Örneklenen veri kümesini temsil eden yeni bir FileDataset nesnesi döndürür.

Dönüş türü

take_sample

Veri kümesinde belirtilen olasılığa göre rastgele bir dosya akışı örneği alın.

take_sample(probability, seed=None)

Parametreler

probability
float
Gerekli

Bir dosya akışının örne dahil edilme olasılığı.

seed
int
Gerekli

Rastgele oluşturucu için kullanılacak isteğe bağlı bir tohum.

Döndürülenler

Örneklenen veri kümesini temsil eden yeni bir FileDataset nesnesi döndürür.

Dönüş türü

to_path

Veri kümesi tarafından tanımlanan her dosya akışı için dosya yollarının listesini alın.

to_path()

Döndürülenler

Bir dosya yolu dizisi döndürür.

Dönüş türü

Açıklamalar

Dosya yolları, dosya akışları indirildiğinde veya bağlandığında yerel dosyaların göreli yollarıdır.

Veri kümesini oluşturmak için veri kaynağının nasıl belirtildiğine bağlı olarak dosya yollarından ortak bir ön ek kaldırılır. Örnek:


   datastore = Datastore.get(workspace, 'workspaceblobstore')
   dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))
   print(dataset.to_path())

   # ['year-2018/1.jpg'
   #  'year-2018/2.jpg'
   #  'year-2019/1.jpg']

   dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/green-small/*.csv')

   print(dataset.to_path())
   # ['/green_tripdata_2013-08.csv']