FileDataset Sınıf

Azure Machine Learning'de kullanılacak veri depolarındaki veya genel URL'lerdeki dosya başvurularından oluşan bir koleksiyonu temsil eder.

FileDataset, veri kaynağından dosya akışlarına veri yüklemek için bir dizi yavaş değerlendirilen, sabit işlem tanımlar. FileDataset'ten veri teslimi istenene kadar veriler kaynaktan yüklenmez.

FileDatasetFactory sınıfının yöntemi kullanılarak from_files bir FileDataset oluşturulur.

Daha fazla bilgi için Veri kümeleri ekleme & kaydetme makalesine bakın. Dosya veri kümesiyle çalışmaya başlamak için bkz https://aka.ms/filedataset-samplenotebook. .

FileDataset nesnesini başlatın.

Bu oluşturucu doğrudan çağrılmayacak. Veri kümesinin sınıfı kullanılarak FileDatasetFactory oluşturulması amaçlanmıştır.

Devralma
FileDataset

Oluşturucu

FileDataset()

Açıklamalar

FileDataset, deneme çalıştırmasının girişi olarak kullanılabilir. Ayrıca, belirtilen adla çalışma alanına kaydedilebilir ve daha sonra bu adla alınabilir.

FileDataset, bu sınıfta kullanılabilen farklı alt ayar yöntemleri çağrılarak alt kümelenebilir. Alt sıfırlamanın sonucu her zaman yeni bir FileDataset'tir.

Gerçek veri yükleme işlemi, FileDataset'in verileri başka bir depolama mekanizmasına (ör. indirilen veya yerel yola bağlanan dosyalar) teslim etmesinin istenmesiyle gerçekleşir.

Yöntemler

as_cache

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

bir datacache_store ve bir veri kümesiyle eşlenmiş bir DatacacheConsumptionConfig oluşturun.

as_download

Modu indirecek şekilde ayarlanmış bir DatasetConsumptionConfig oluşturun.

Gönderilen çalıştırmada, veri kümesindeki dosyalar işlem hedefindeki yerel yola indirilir. İndirme konumu bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir. Otomatik olarak bir giriş adı oluşturacağız. Özel bir giriş adı belirtmek isterseniz lütfen as_named_input yöntemini çağırın.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_hdfs

Modu hdfs olarak ayarlayın.

Gönderilen synapse çalıştırmasında, veri kümelerindeki dosyalar işlem hedefindeki yerel yola dönüştürülür. hdfs yolu bağımsız değişken değerlerinden ve işletim sistemi ortam değişkenlerinden alınabilir.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_<hash>']
as_mount

Modu bağlama olarak ayarlanmış bir DatasetConsumptionConfig oluşturun.

Gönderilen çalıştırmada, veri kümelerindeki dosyalar işlem hedefindeki yerel yola bağlanır. Bağlama noktası, bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir. Otomatik olarak bir giriş adı oluşturacağız. Özel bir giriş adı belirtmek isterseniz lütfen as_named_input yöntemini çağırın.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
download

Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını indirin.

file_metadata

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Meta veri sütun adını belirterek dosya meta verileri ifadesini alın.

Desteklenen dosya meta veri sütunları Size, LastModifiedTime, CreationTime, Extension ve CanSeek'tir

filter

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Yalnızca belirtilen ifadeyle eşleşen kayıtları bırakarak verileri filtreleyin.

hydrate

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri kümesini datacache_store belirtilen istenen çoğaltmalara nemlendiren.

mount

Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını bağlamak için bir bağlam yöneticisi oluşturun.

random_split

Veri kümesindeki dosya akışlarını rastgele ve yaklaşık olarak belirtilen yüzdeye göre iki bölüme bölün.

Döndürülen ilk veri kümesi yaklaşık olarak percentage toplam dosya başvurusu sayısını, ikinci veri kümesi ise kalan dosya başvurularını içerir.

skip

Belirtilen sayıya göre veri kümesinin en üstünden dosya akışlarını atlayın.

take

Belirtilen sayıya göre veri kümesinin en üstünden dosya akışlarının bir örneğini alın.

take_sample

Veri kümesinde belirtilen olasılığa göre rastgele bir dosya akışı örneği alın.

to_path

Veri kümesi tarafından tanımlanan her dosya akışı için dosya yollarının listesini alın.

as_cache

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

bir datacache_store ve bir veri kümesiyle eşlenmiş bir DatacacheConsumptionConfig oluşturun.

as_cache(datacache_store)

Parametreler

Name Description
datacache_store
Gerekli

Hidrant yapmak için kullanılacak datacachestore.

Döndürülenler

Tür Description

Datacache'in çalıştırmada nasıl gerçekleştirilmesi gerektiğini açıklayan yapılandırma nesnesi.

as_download

Modu indirecek şekilde ayarlanmış bir DatasetConsumptionConfig oluşturun.

Gönderilen çalıştırmada, veri kümesindeki dosyalar işlem hedefindeki yerel yola indirilir. İndirme konumu bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir. Otomatik olarak bir giriş adı oluşturacağız. Özel bir giriş adı belirtmek isterseniz lütfen as_named_input yöntemini çağırın.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)

Parametreler

Name Description
path_on_compute
str

verilerin kullanılabilmesi için işlemdeki hedef yol.

varsayılan değer: None

Açıklamalar

Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, indirme konumu indirilen tek dosyanın yolu olur. Aksi takdirde, indirme konumu indirilen tüm dosyalar için kapsayan klasörün yolu olur.

path_on_compute bir / ile başlarsa, mutlak yol olarak değerlendirilir. / ile başlamıyorsa, çalışma dizinine göre göreli bir yol olarak değerlendirilir. Mutlak bir yol belirttiyseniz, lütfen işin bu dizine yazma izni olduğundan emin olun.

as_hdfs

Modu hdfs olarak ayarlayın.

Gönderilen synapse çalıştırmasında, veri kümelerindeki dosyalar işlem hedefindeki yerel yola dönüştürülür. hdfs yolu bağımsız değişken değerlerinden ve işletim sistemi ortam değişkenlerinden alınabilir.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_<hash>']
as_hdfs()

Açıklamalar

Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, hdfs yolu tek dosyanın yolu olur. Aksi takdirde, hdfs yolu tüm bağlı dosyalar için kapsayan klasörün yolu olur.

as_mount

Modu bağlama olarak ayarlanmış bir DatasetConsumptionConfig oluşturun.

Gönderilen çalıştırmada, veri kümelerindeki dosyalar işlem hedefindeki yerel yola bağlanır. Bağlama noktası, bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir. Otomatik olarak bir giriş adı oluşturacağız. Özel bir giriş adı belirtmek isterseniz lütfen as_named_input yöntemini çağırın.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)

Parametreler

Name Description
path_on_compute
str

verilerin kullanılabilmesi için işlemdeki hedef yol.

varsayılan değer: None

Açıklamalar

Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, bağlama noktası bağlı tek dosyanın yolu olur. Aksi takdirde, bağlama noktası tüm bağlı dosyalar için kapsayan klasörün yolu olacaktır.

path_on_compute bir / ile başlarsa, mutlak yol olarak değerlendirilir. / ile başlamıyorsa, çalışma dizinine göre göreli bir yol olarak değerlendirilir. Mutlak bir yol belirttiyseniz, lütfen işin bu dizine yazma izni olduğundan emin olun.

download

Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını indirin.

download(target_path=None, overwrite=False, ignore_not_found=False)

Parametreler

Name Description
target_path
Gerekli
str

Dosyaların indirilmesi için yerel dizin. Hiçbiri ise, veriler geçici bir dizine indirilir.

overwrite
Gerekli

Varolan dosyaların üzerine yazılıp yazılmayacağını gösterir. Varsayılan değer False'tur. Üzerine yazma True olarak ayarlanırsa mevcut dosyaların üzerine yazılır; aksi takdirde bir özel durum oluşturulur.

ignore_not_found
Gerekli

Veri kümesi tarafından işaret edilen bazı dosyalar bulunamazsa indirme işleminin başarısız olup olmayacağını gösterir. Varsayılan değer False'tur. ignore_not_found False olarak ayarlanırsa herhangi bir dosya indirme işlemi herhangi bir nedenle başarısız olursa indirme başarısız olur; aksi takdirde, başka hata türleriyle karşılaşılmadığı sürece bir waring bulunamadı hataları için günlüğe kaydedilir ve dowload başarılı olur.

Döndürülenler

Tür Description

İndirilen her dosya için bir dosya yolu dizisi döndürür.

Açıklamalar

target_path ile başlıyorsa, mutlak yol olarak değerlendirilir. / ile başlamıyorsa, geçerli çalışma dizinine göre göreli bir yol olarak değerlendirilir.

file_metadata

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Meta veri sütun adını belirterek dosya meta verileri ifadesini alın.

Desteklenen dosya meta veri sütunları Size, LastModifiedTime, CreationTime, Extension ve CanSeek'tir

file_metadata(col)

Parametreler

Name Description
col
Gerekli
str

Sütunun adı

Döndürülenler

Tür Description
<xref:azureml.dataprep.api.expression.RecordFieldExpression>

Belirtilen sütundaki değeri alan bir ifade döndürür.

filter

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Yalnızca belirtilen ifadeyle eşleşen kayıtları bırakarak verileri filtreleyin.

filter(expression)

Parametreler

Name Description
expression
Gerekli
<xref:azureml.dataprep.api.expression.Expression>

Değerlendirilecek ifade.

Döndürülenler

Tür Description

Değiştirilen veri kümesi (kaydı kaldırılmış).

Açıklamalar

İfadeler, Veri Kümesinde bir sütunun adıyla dizin oluşturarak başlatılır. Bunlar çeşitli işlevleri ve işleçleri destekler ve mantıksal işleçler kullanılarak birleştirilebilir. Sonuçta elde edilen ifade, tanımlandığı yerde değil, bir veri çekme işlemi gerçekleştiğinde her kayıt için gevşek bir şekilde değerlendirilir.


   (dataset.file_metadata('Size') > 10000) & (dataset.file_metadata('CanSeek') == True)
   dataset.file_metadata('Extension').starts_with('j')

hydrate

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri kümesini datacache_store belirtilen istenen çoğaltmalara nemlendiren.

hydrate(datacache_store, replica_count=None)

Parametreler

Name Description
datacache_store
Gerekli

Hidrant yapmak için kullanılacak datacachestore.

replica_count
Gerekli
<xref:Int>, <xref:optional>

Hidrat için çoğaltma sayısı.

Döndürülenler

Tür Description

Datacache'in çalıştırmada nasıl gerçekleştirilmesi gerektiğini açıklayan yapılandırma nesnesi.

mount

Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını bağlamak için bir bağlam yöneticisi oluşturun.

mount(mount_point=None, **kwargs)

Parametreler

Name Description
mount_point
Gerekli
str

Dosyaların bağlanacak yerel dizin. Hiçbiri ise, veriler geçici bir dizine bağlanır ve bunu MountContext.mount_point örnek yöntemini çağırarak bulabilirsiniz.

Döndürülenler

Tür Description
<xref:MountContext>: <xref:the> <xref:context> <xref:manager.> <xref:Upon> <xref:entering> <xref:the> <xref:context> <xref:manager>, <xref:the> <xref:dataflow> <xref:will> <xref:be> <xref:mounted> <xref:to> <xref:the> <xref:mount_point.> <xref:Upon> exit, <xref:it> <xref:will> <xref:remove> <xref:the> mount <xref:point> <xref:and> clean <xref:up> <xref:the> <xref:daemon> <xref:process> <xref:used> <xref:to> mount <xref:the> <xref:dataflow.>

Bağlamanın yaşam döngüsünü yönetmek için bir bağlam yöneticisi döndürür.

Açıklamalar

Bağlamanın yaşam döngüsünü yönetmek için bir bağlam yöneticisi döndürülür. Bağlamak için bağlam yöneticisini girmeniz ve bağlamayı kaldırmak için bağlam yöneticisinden çıkmanız gerekir.

Bağlama yalnızca libfuse yerel paketin yüklü olduğu Unix veya Unix benzeri işletim sistemlerinde desteklenir. Docker kapsayıcısının içinde çalışıyorsanız docker kapsayıcısı –privileged bayrağıyla veya –cap-add SYS_ADMIN –device /dev/fuse ile başlatılmalıdır.


   datastore = Datastore.get(workspace, 'workspaceblobstore')
   dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))

   with dataset.mount() as mount_context:
       # list top level mounted files and folders in the dataset
       os.listdir(mount_context.mount_point)

   # You can also use the start and stop methods
   mount_context = dataset.mount()
   mount_context.start()  # this will mount the file streams
   mount_context.stop()  # this will unmount the file streams

target_path ile başlıyorsa, mutlak yol olarak kabul edilir. / ile başlamıyorsa, geçerli çalışma dizinine göre göreli bir yol olarak kabul edilir.

random_split

Veri kümesindeki dosya akışlarını rastgele ve yaklaşık olarak belirtilen yüzdeye göre iki bölüme bölün.

Döndürülen ilk veri kümesi yaklaşık olarak percentage toplam dosya başvurusu sayısını, ikinci veri kümesi ise kalan dosya başvurularını içerir.

random_split(percentage, seed=None)

Parametreler

Name Description
percentage
Gerekli

Veri kümesinin bölündüğü yaklaşık yüzde. Bu, 0,0 ile 1,0 arasında bir sayı olmalıdır.

seed
Gerekli
int

Rastgele oluşturucu için kullanılacak isteğe bağlı bir tohum.

Döndürülenler

Tür Description

Bölmeden sonra iki veri kümesini temsil eden yeni FileDataset nesnelerinin bir demetini döndürür.

skip

Belirtilen sayıya göre veri kümesinin en üstünden dosya akışlarını atlayın.

skip(count)

Parametreler

Name Description
count
Gerekli
int

Atlana dosya akışlarının sayısı.

Döndürülenler

Tür Description

Dosya akışları atlanmış bir veri kümesini temsil eden yeni bir FileDataset nesnesi döndürür.

take

Belirtilen sayıya göre veri kümesinin en üstünden dosya akışlarının bir örneğini alın.

take(count)

Parametreler

Name Description
count
Gerekli
int

Alınacak dosya akışlarının sayısı.

Döndürülenler

Tür Description

Örneklenen veri kümesini temsil eden yeni bir FileDataset nesnesi döndürür.

take_sample

Veri kümesinde belirtilen olasılığa göre rastgele bir dosya akışı örneği alın.

take_sample(probability, seed=None)

Parametreler

Name Description
probability
Gerekli

Bir dosya akışının örne dahil edilme olasılığı.

seed
Gerekli
int

Rastgele oluşturucu için kullanılacak isteğe bağlı bir tohum.

Döndürülenler

Tür Description

Örneklenen veri kümesini temsil eden yeni bir FileDataset nesnesi döndürür.

to_path

Veri kümesi tarafından tanımlanan her dosya akışı için dosya yollarının listesini alın.

to_path()

Döndürülenler

Tür Description

Bir dosya yolu dizisi döndürür.

Açıklamalar

Dosya yolları, dosya akışları indirildiğinde veya bağlandığında yerel dosyaların göreli yollarıdır.

Veri kümesini oluşturmak için veri kaynağının nasıl belirtildiğine bağlı olarak dosya yollarından ortak bir ön ek kaldırılır. Örnek:


   datastore = Datastore.get(workspace, 'workspaceblobstore')
   dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))
   print(dataset.to_path())

   # ['year-2018/1.jpg'
   #  'year-2018/2.jpg'
   #  'year-2019/1.jpg']

   dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/green-small/*.csv')

   print(dataset.to_path())
   # ['/green_tripdata_2013-08.csv']