FileDataset Sınıf

Başvuru

Azure Machine Learning'de kullanılacak veri depolarındaki veya genel URL'lerdeki dosya başvurularından oluşan bir koleksiyonu temsil eder.

FileDataset, veri kaynağından dosya akışlarına veri yüklemek için bir dizi yavaş değerlendirilen, sabit işlem tanımlar. FileDataset'ten veri teslimi istenene kadar veriler kaynaktan yüklenmez.

FileDatasetFactory sınıfının yöntemi kullanılarak from_files bir FileDataset oluşturulur.

Daha fazla bilgi için Veri kümeleri ekleme & kaydetme makalesine bakın. Dosya veri kümesiyle çalışmaya başlamak için bkz https://aka.ms/filedataset-samplenotebook. .

FileDataset nesnesini başlatın.

Bu oluşturucu doğrudan çağrılmayacak. Veri kümesinin sınıfı kullanılarak FileDatasetFactory oluşturulması amaçlanmıştır.

Devralma: AbstractDataset

FileDataset

Oluşturucu

FileDataset()

Açıklamalar

FileDataset, deneme çalıştırmasının girişi olarak kullanılabilir. Ayrıca, belirtilen adla çalışma alanına kaydedilebilir ve daha sonra bu adla alınabilir.

FileDataset, bu sınıfta kullanılabilen farklı alt ayar yöntemleri çağrılarak alt kümelenebilir. Alt sıfırlamanın sonucu her zaman yeni bir FileDataset'tir.

Gerçek veri yükleme işlemi, FileDataset'in verileri başka bir depolama mekanizmasına (ör. indirilen veya yerel yola bağlanan dosyalar) teslim etmesinin istenmesiyle gerçekleşir.

Yöntemler

as_cache	Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. bir datacache_store ve bir veri kümesiyle eşlenmiş bir DatacacheConsumptionConfig oluşturun.
as_download	Modu indirecek şekilde ayarlanmış bir DatasetConsumptionConfig oluşturun. Gönderilen çalıştırmada, veri kümesindeki dosyalar işlem hedefindeki yerel yola indirilir. İndirme konumu bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir. Otomatik olarak bir giriş adı oluşturacağız. Özel bir giriş adı belirtmek isterseniz lütfen as_named_input yöntemini çağırın. # Given a run submitted with dataset input like this: dataset_input = dataset.as_download() experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input])) # Following are sample codes running in context of the submitted run: # The download location can be retrieved from argument values import sys download_location = sys.argv[1] # The download location can also be retrieved from input_datasets of the run context. from azureml.core import Run download_location = Run.get_context().input_datasets['input_1']
as_hdfs	Modu hdfs olarak ayarlayın. Gönderilen synapse çalıştırmasında, veri kümelerindeki dosyalar işlem hedefindeki yerel yola dönüştürülür. hdfs yolu bağımsız değişken değerlerinden ve işletim sistemi ortam değişkenlerinden alınabilir. `# Given a run submitted with dataset input like this: dataset_input = dataset.as_hdfs() experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input])) # Following are sample codes running in context of the submitted run: # The hdfs path can be retrieved from argument values import sys hdfs_path = sys.argv[1] # The hdfs path can also be retrieved from input_datasets of the run context. import os hdfs_path = os.environ['input_<hash>']`
as_mount	Modu bağlama olarak ayarlanmış bir DatasetConsumptionConfig oluşturun. Gönderilen çalıştırmada, veri kümelerindeki dosyalar işlem hedefindeki yerel yola bağlanır. Bağlama noktası, bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir. Otomatik olarak bir giriş adı oluşturacağız. Özel bir giriş adı belirtmek isterseniz lütfen as_named_input yöntemini çağırın. `# Given a run submitted with dataset input like this: dataset_input = dataset.as_mount() experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input])) # Following are sample codes running in context of the submitted run: # The mount point can be retrieved from argument values import sys mount_point = sys.argv[1] # The mount point can also be retrieved from input_datasets of the run context. from azureml.core import Run mount_point = Run.get_context().input_datasets['input_1']`
download	Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını indirin.
file_metadata	Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Meta veri sütun adını belirterek dosya meta verileri ifadesini alın. Desteklenen dosya meta veri sütunları Size, LastModifiedTime, CreationTime, Extension ve CanSeek'tir
filter	Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Yalnızca belirtilen ifadeyle eşleşen kayıtları bırakarak verileri filtreleyin.
hydrate	Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Veri kümesini datacache_store belirtilen istenen çoğaltmalara nemlendiren.
mount	Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını bağlamak için bir bağlam yöneticisi oluşturun.
random_split	Veri kümesindeki dosya akışlarını rastgele ve yaklaşık olarak belirtilen yüzdeye göre iki bölüme bölün. Döndürülen ilk veri kümesi yaklaşık olarak `percentage` toplam dosya başvurusu sayısını, ikinci veri kümesi ise kalan dosya başvurularını içerir.
skip	Belirtilen sayıya göre veri kümesinin en üstünden dosya akışlarını atlayın.
take	Belirtilen sayıya göre veri kümesinin en üstünden dosya akışlarının bir örneğini alın.
take_sample	Veri kümesinde belirtilen olasılığa göre rastgele bir dosya akışı örneği alın.
to_path	Veri kümesi tarafından tanımlanan her dosya akışı için dosya yollarının listesini alın.

as_cache

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

bir datacache_store ve bir veri kümesiyle eşlenmiş bir DatacacheConsumptionConfig oluşturun.

as_cache(datacache_store)

Parametreler

Name	Description
datacache_store Gerekli	DatacacheStore Hidrant yapmak için kullanılacak datacachestore.

Döndürülenler

Tür	Description
DatacacheConsumptionConfig	Datacache'in çalıştırmada nasıl gerçekleştirilmesi gerektiğini açıklayan yapılandırma nesnesi.

as_download

Modu indirecek şekilde ayarlanmış bir DatasetConsumptionConfig oluşturun.

Gönderilen çalıştırmada, veri kümesindeki dosyalar işlem hedefindeki yerel yola indirilir. İndirme konumu bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir. Otomatik olarak bir giriş adı oluşturacağız. Özel bir giriş adı belirtmek isterseniz lütfen as_named_input yöntemini çağırın.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_download(path_on_compute=None)

Parametreler

Name	Description
path_on_compute	str verilerin kullanılabilmesi için işlemdeki hedef yol. varsayılan değer: None

Açıklamalar

Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, indirme konumu indirilen tek dosyanın yolu olur. Aksi takdirde, indirme konumu indirilen tüm dosyalar için kapsayan klasörün yolu olur.

path_on_compute bir / ile başlarsa, mutlak yol olarak değerlendirilir. / ile başlamıyorsa, çalışma dizinine göre göreli bir yol olarak değerlendirilir. Mutlak bir yol belirttiyseniz, lütfen işin bu dizine yazma izni olduğundan emin olun.

as_hdfs

Modu hdfs olarak ayarlayın.

Gönderilen synapse çalıştırmasında, veri kümelerindeki dosyalar işlem hedefindeki yerel yola dönüştürülür. hdfs yolu bağımsız değişken değerlerinden ve işletim sistemi ortam değişkenlerinden alınabilir.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_<hash>']

as_hdfs()

Açıklamalar

Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, hdfs yolu tek dosyanın yolu olur. Aksi takdirde, hdfs yolu tüm bağlı dosyalar için kapsayan klasörün yolu olur.

as_mount

Modu bağlama olarak ayarlanmış bir DatasetConsumptionConfig oluşturun.

Gönderilen çalıştırmada, veri kümelerindeki dosyalar işlem hedefindeki yerel yola bağlanır. Bağlama noktası, bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir. Otomatik olarak bir giriş adı oluşturacağız. Özel bir giriş adı belirtmek isterseniz lütfen as_named_input yöntemini çağırın.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_mount(path_on_compute=None)

Parametreler

Name	Description
path_on_compute	str verilerin kullanılabilmesi için işlemdeki hedef yol. varsayılan değer: None

Açıklamalar

Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, bağlama noktası bağlı tek dosyanın yolu olur. Aksi takdirde, bağlama noktası tüm bağlı dosyalar için kapsayan klasörün yolu olacaktır.

download

Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını indirin.

download(target_path=None, overwrite=False, ignore_not_found=False)

Parametreler

Name	Description
target_path Gerekli	str Dosyaların indirilmesi için yerel dizin. Hiçbiri ise, veriler geçici bir dizine indirilir.
overwrite Gerekli	bool Varolan dosyaların üzerine yazılıp yazılmayacağını gösterir. Varsayılan değer False'tur. Üzerine yazma True olarak ayarlanırsa mevcut dosyaların üzerine yazılır; aksi takdirde bir özel durum oluşturulur.
ignore_not_found Gerekli	bool Veri kümesi tarafından işaret edilen bazı dosyalar bulunamazsa indirme işleminin başarısız olup olmayacağını gösterir. Varsayılan değer False'tur. ignore_not_found False olarak ayarlanırsa herhangi bir dosya indirme işlemi herhangi bir nedenle başarısız olursa indirme başarısız olur; aksi takdirde, başka hata türleriyle karşılaşılmadığı sürece bir waring bulunamadı hataları için günlüğe kaydedilir ve dowload başarılı olur.

Döndürülenler

Tür	Description
list(str)	İndirilen her dosya için bir dosya yolu dizisi döndürür.

Açıklamalar

target_path ile başlıyorsa, mutlak yol olarak değerlendirilir. / ile başlamıyorsa, geçerli çalışma dizinine göre göreli bir yol olarak değerlendirilir.

file_metadata

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Meta veri sütun adını belirterek dosya meta verileri ifadesini alın.

Desteklenen dosya meta veri sütunları Size, LastModifiedTime, CreationTime, Extension ve CanSeek'tir

file_metadata(col)

Parametreler

Name	Description
col Gerekli	str Sütunun adı

Döndürülenler

Tür	Description
<xref:azureml.dataprep.api.expression.RecordFieldExpression>	Belirtilen sütundaki değeri alan bir ifade döndürür.

filter

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Yalnızca belirtilen ifadeyle eşleşen kayıtları bırakarak verileri filtreleyin.

filter(expression)

Parametreler

Name	Description
expression Gerekli	<xref:azureml.dataprep.api.expression.Expression> Değerlendirilecek ifade.

Döndürülenler

Tür	Description
FileDataset	Değiştirilen veri kümesi (kaydı kaldırılmış).

Açıklamalar

İfadeler, Veri Kümesinde bir sütunun adıyla dizin oluşturarak başlatılır. Bunlar çeşitli işlevleri ve işleçleri destekler ve mantıksal işleçler kullanılarak birleştirilebilir. Sonuçta elde edilen ifade, tanımlandığı yerde değil, bir veri çekme işlemi gerçekleştiğinde her kayıt için gevşek bir şekilde değerlendirilir.


   (dataset.file_metadata('Size') > 10000) & (dataset.file_metadata('CanSeek') == True)
   dataset.file_metadata('Extension').starts_with('j')

hydrate

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri kümesini datacache_store belirtilen istenen çoğaltmalara nemlendiren.

hydrate(datacache_store, replica_count=None)

Parametreler

Name	Description
datacache_store Gerekli	DatacacheStore Hidrant yapmak için kullanılacak datacachestore.
replica_count Gerekli	<xref:Int>, <xref:optional> Hidrat için çoğaltma sayısı.

Döndürülenler

Tür	Description
DatacacheHydrationTracker	Datacache'in çalıştırmada nasıl gerçekleştirilmesi gerektiğini açıklayan yapılandırma nesnesi.

mount

Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını bağlamak için bir bağlam yöneticisi oluşturun.

mount(mount_point=None, **kwargs)

Parametreler

Name	Description
mount_point Gerekli	str Dosyaların bağlanacak yerel dizin. Hiçbiri ise, veriler geçici bir dizine bağlanır ve bunu MountContext.mount_point örnek yöntemini çağırarak bulabilirsiniz.

Döndürülenler

Tür	Description
<xref:MountContext>: <xref:the> <xref:context> <xref:manager.> <xref:Upon> <xref:entering> <xref:the> <xref:context> <xref:manager>, <xref:the> <xref:dataflow> <xref:will> <xref:be> <xref:mounted> <xref:to> <xref:the> <xref:mount_point.> <xref:Upon> exit, <xref:it> <xref:will> <xref:remove> <xref:the> mount <xref:point> <xref:and> clean <xref:up> <xref:the> <xref:daemon> <xref:process> <xref:used> <xref:to> mount <xref:the> <xref:dataflow.>	Bağlamanın yaşam döngüsünü yönetmek için bir bağlam yöneticisi döndürür.

Tür

Description

<xref:MountContext>: <xref:the> <xref:context> <xref:manager.> <xref:Upon> <xref:entering> <xref:the> <xref:context> <xref:manager>, <xref:the> <xref:dataflow> <xref:will> <xref:be> <xref:mounted> <xref:to> <xref:the> <xref:mount_point.> <xref:Upon> exit, <xref:it> <xref:will> <xref:remove> <xref:the> mount <xref:point> <xref:and> clean <xref:up> <xref:the> <xref:daemon> <xref:process> <xref:used> <xref:to> mount <xref:the> <xref:dataflow.>

Bağlamanın yaşam döngüsünü yönetmek için bir bağlam yöneticisi döndürür.

Açıklamalar

Bağlamanın yaşam döngüsünü yönetmek için bir bağlam yöneticisi döndürülür. Bağlamak için bağlam yöneticisini girmeniz ve bağlamayı kaldırmak için bağlam yöneticisinden çıkmanız gerekir.

Bağlama yalnızca libfuse yerel paketin yüklü olduğu Unix veya Unix benzeri işletim sistemlerinde desteklenir. Docker kapsayıcısının içinde çalışıyorsanız docker kapsayıcısı –privileged bayrağıyla veya –cap-add SYS_ADMIN –device /dev/fuse ile başlatılmalıdır.


   datastore = Datastore.get(workspace, 'workspaceblobstore')
   dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))

   with dataset.mount() as mount_context:
       # list top level mounted files and folders in the dataset
       os.listdir(mount_context.mount_point)

   # You can also use the start and stop methods
   mount_context = dataset.mount()
   mount_context.start()  # this will mount the file streams
   mount_context.stop()  # this will unmount the file streams

target_path ile başlıyorsa, mutlak yol olarak kabul edilir. / ile başlamıyorsa, geçerli çalışma dizinine göre göreli bir yol olarak kabul edilir.

random_split

Veri kümesindeki dosya akışlarını rastgele ve yaklaşık olarak belirtilen yüzdeye göre iki bölüme bölün.

Döndürülen ilk veri kümesi yaklaşık olarak percentage toplam dosya başvurusu sayısını, ikinci veri kümesi ise kalan dosya başvurularını içerir.

random_split(percentage, seed=None)

Parametreler

Name	Description
percentage Gerekli	float Veri kümesinin bölündüğü yaklaşık yüzde. Bu, 0,0 ile 1,0 arasında bir sayı olmalıdır.
seed Gerekli	int Rastgele oluşturucu için kullanılacak isteğe bağlı bir tohum.

Döndürülenler

Tür	Description
(FileDataset, FileDataset)	Bölmeden sonra iki veri kümesini temsil eden yeni FileDataset nesnelerinin bir demetini döndürür.

skip

Belirtilen sayıya göre veri kümesinin en üstünden dosya akışlarını atlayın.

skip(count)

Parametreler

Name	Description
count Gerekli	int Atlana dosya akışlarının sayısı.

Döndürülenler

Tür	Description
FileDataset	Dosya akışları atlanmış bir veri kümesini temsil eden yeni bir FileDataset nesnesi döndürür.

take

Belirtilen sayıya göre veri kümesinin en üstünden dosya akışlarının bir örneğini alın.

take(count)

Parametreler

Name	Description
count Gerekli	int Alınacak dosya akışlarının sayısı.

Döndürülenler

Tür	Description
FileDataset	Örneklenen veri kümesini temsil eden yeni bir FileDataset nesnesi döndürür.

take_sample

Veri kümesinde belirtilen olasılığa göre rastgele bir dosya akışı örneği alın.

take_sample(probability, seed=None)

Parametreler

Name	Description
probability Gerekli	float Bir dosya akışının örne dahil edilme olasılığı.
seed Gerekli	int Rastgele oluşturucu için kullanılacak isteğe bağlı bir tohum.

Döndürülenler

Tür	Description
FileDataset	Örneklenen veri kümesini temsil eden yeni bir FileDataset nesnesi döndürür.

to_path

Veri kümesi tarafından tanımlanan her dosya akışı için dosya yollarının listesini alın.

to_path()

Döndürülenler

Tür	Description
list(str)	Bir dosya yolu dizisi döndürür.

Açıklamalar

Dosya yolları, dosya akışları indirildiğinde veya bağlandığında yerel dosyaların göreli yollarıdır.

Veri kümesini oluşturmak için veri kaynağının nasıl belirtildiğine bağlı olarak dosya yollarından ortak bir ön ek kaldırılır. Örnek:


   datastore = Datastore.get(workspace, 'workspaceblobstore')
   dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))
   print(dataset.to_path())

   # ['year-2018/1.jpg'
   #  'year-2018/2.jpg'
   #  'year-2019/1.jpg']

   dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/green-small/*.csv')

   print(dataset.to_path())
   # ['/green_tripdata_2013-08.csv']

FileDataset Sınıf

Oluşturucu

Açıklamalar

Yöntemler

as_cache

Parametreler

Döndürülenler

as_download

Parametreler

Açıklamalar

as_hdfs

Açıklamalar

as_mount

Parametreler

Açıklamalar

download

Parametreler

Döndürülenler

Açıklamalar

file_metadata

Parametreler

Döndürülenler

filter

Parametreler

Döndürülenler

Açıklamalar

hydrate

Parametreler

Döndürülenler

mount

Parametreler

Döndürülenler

Açıklamalar

random_split

Parametreler

Döndürülenler

skip

Parametreler

Döndürülenler

take

Parametreler

Döndürülenler

take_sample

Parametreler

Döndürülenler

to_path

Döndürülenler

Açıklamalar

Geri Bildirim

Geri Bildirim

Ek kaynaklar