FileDataset Sınıf

Başvuru

Azure Machine Learning'de kullanılacak veri depolarındaki veya genel URL'lerdeki dosya başvurularından oluşan bir koleksiyonu temsil eder.

FileDataset, veri kaynağından dosya akışlarına veri yüklemek için bir dizi yavaş değerlendirilen, sabit işlem tanımlar. FileDataset'ten veri teslimi istenene kadar veriler kaynaktan yüklenmez.

FileDatasetFactory sınıfının yöntemi kullanılarak from_files bir FileDataset oluşturulur.

Daha fazla bilgi için Veri kümeleri ekleme & kaydetme makalesine bakın. Dosya veri kümesiyle çalışmaya başlamak için bkz https://aka.ms/filedataset-samplenotebook. .

FileDataset nesnesini başlatın.

Bu oluşturucu doğrudan çağrılmayacak. Veri kümesinin sınıfı kullanılarak FileDatasetFactory oluşturulması amaçlanmıştır.

Devralma: AbstractDataset

FileDataset

Oluşturucu

FileDataset()

Açıklamalar

FileDataset, deneme çalıştırmasının girişi olarak kullanılabilir. Ayrıca, belirtilen adla çalışma alanına kaydedilebilir ve daha sonra bu adla alınabilir.

FileDataset, bu sınıfta kullanılabilen farklı alt ayar yöntemleri çağrılarak alt kümelenebilir. Alt sıfırlamanın sonucu her zaman yeni bir FileDataset'tir.

Gerçek veri yükleme işlemi, FileDataset'in verileri başka bir depolama mekanizmasına (ör. indirilen veya yerel yola bağlanan dosyalar) teslim etmesinin istenmesiyle gerçekleşir.

Yöntemler

as_cache	Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. bir datacache_store ve bir veri kümesiyle eşlenmiş bir DatacacheConsumptionConfig oluşturun.
as_download	Modu indirecek şekilde ayarlanmış bir DatasetConsumptionConfig oluşturun. Gönderilen çalıştırmada, veri kümesindeki dosyalar işlem hedefindeki yerel yola indirilir. İndirme konumu bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir. Otomatik olarak bir giriş adı oluşturacağız. Özel bir giriş adı belirtmek isterseniz lütfen as_named_input yöntemini çağırın. # Given a run submitted with dataset input like this: dataset_input = dataset.as_download() experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input])) # Following are sample codes running in context of the submitted run: # The download location can be retrieved from argument values import sys download_location = sys.argv[1] # The download location can also be retrieved from input_datasets of the run context. from azureml.core import Run download_location = Run.get_context().input_datasets['input_1']
as_hdfs	Modu hdfs olarak ayarlayın. Gönderilen synapse çalıştırmasında, veri kümelerindeki dosyalar işlem hedefindeki yerel yola dönüştürülür. hdfs yolu bağımsız değişken değerlerinden ve işletim sistemi ortam değişkenlerinden alınabilir. `# Given a run submitted with dataset input like this: dataset_input = dataset.as_hdfs() experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input])) # Following are sample codes running in context of the submitted run: # The hdfs path can be retrieved from argument values import sys hdfs_path = sys.argv[1] # The hdfs path can also be retrieved from input_datasets of the run context. import os hdfs_path = os.environ['input_<hash>']`
as_mount	Modu bağlama olarak ayarlanmış bir DatasetConsumptionConfig oluşturun. Gönderilen çalıştırmada, veri kümelerindeki dosyalar işlem hedefindeki yerel yola bağlanır. Bağlama noktası, bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir. Otomatik olarak bir giriş adı oluşturacağız. Özel bir giriş adı belirtmek isterseniz lütfen as_named_input yöntemini çağırın. `# Given a run submitted with dataset input like this: dataset_input = dataset.as_mount() experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input])) # Following are sample codes running in context of the submitted run: # The mount point can be retrieved from argument values import sys mount_point = sys.argv[1] # The mount point can also be retrieved from input_datasets of the run context. from azureml.core import Run mount_point = Run.get_context().input_datasets['input_1']`
download	Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını indirin.
file_metadata	Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Meta veri sütun adını belirterek dosya meta verileri ifadesini alın. Desteklenen dosya meta veri sütunları Size, LastModifiedTime, CreationTime, Extension ve CanSeek'tir
filter	Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Yalnızca belirtilen ifadeyle eşleşen kayıtları bırakarak verileri filtreleyin.
hydrate	Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Veri kümesini datacache_store'de belirtilen istenen çoğaltmalara nemlendiren.
mount	Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını bağlamak için bir bağlam yöneticisi oluşturun.
random_split	Veri kümesindeki dosya akışlarını rastgele ve yaklaşık olarak belirtilen yüzdeye göre iki bölüme bölün. Döndürülen ilk veri kümesi yaklaşık olarak `percentage` toplam dosya başvurusu sayısını, ikinci veri kümesi ise kalan dosya başvurularını içerir.
skip	Belirtilen sayıya göre veri kümesinin en üstünden dosya akışlarını atlayın.
take	Belirtilen sayıya göre veri kümesinin en üstünden dosya akışlarının bir örneğini alın.
take_sample	Veri kümesinde belirtilen olasılığa göre rastgele bir dosya akışı örneği alın.
to_path	Veri kümesi tarafından tanımlanan her dosya akışı için dosya yollarının listesini alın.

as_cache

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

bir datacache_store ve bir veri kümesiyle eşlenmiş bir DatacacheConsumptionConfig oluşturun.

as_cache(datacache_store)

Parametreler

datacache_store: DatacacheStore

Gerekli

Hidrant yapmak için kullanılacak datacachestore.

Döndürülenler

Datacache'in çalıştırmada nasıl gerçekleştirilmesi gerektiğini açıklayan yapılandırma nesnesi.

Dönüş türü

DatacacheConsumptionConfig

as_download

Modu indirecek şekilde ayarlanmış bir DatasetConsumptionConfig oluşturun.

Gönderilen çalıştırmada, veri kümesindeki dosyalar işlem hedefindeki yerel yola indirilir. İndirme konumu bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir. Otomatik olarak bir giriş adı oluşturacağız. Özel bir giriş adı belirtmek isterseniz lütfen as_named_input yöntemini çağırın.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_download(path_on_compute=None)

Parametreler

path_on_compute: str

varsayılan değer: None

verilerin kullanılabilmesi için işlemdeki hedef yol.

Açıklamalar

Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, indirme konumu indirilen tek dosyanın yolu olur. Aksi takdirde, indirme konumu indirilen tüm dosyalar için kapsayan klasörün yolu olur.

path_on_compute bir / ile başlarsa, mutlak yol olarak değerlendirilir. / ile başlamıyorsa, çalışma dizinine göre göreli bir yol olarak değerlendirilir. Mutlak bir yol belirttiyseniz, lütfen işin bu dizine yazma izni olduğundan emin olun.

as_hdfs

Modu hdfs olarak ayarlayın.

Gönderilen synapse çalıştırmasında, veri kümelerindeki dosyalar işlem hedefindeki yerel yola dönüştürülür. hdfs yolu bağımsız değişken değerlerinden ve işletim sistemi ortam değişkenlerinden alınabilir.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_<hash>']

as_hdfs()

Açıklamalar

Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, hdfs yolu tek dosyanın yolu olur. Aksi takdirde, hdfs yolu tüm bağlı dosyalar için kapsayan klasörün yolu olur.

as_mount

Modu bağlama olarak ayarlanmış bir DatasetConsumptionConfig oluşturun.

Gönderilen çalıştırmada, veri kümelerindeki dosyalar işlem hedefindeki yerel yola bağlanır. Bağlama noktası, bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir. Otomatik olarak bir giriş adı oluşturacağız. Özel bir giriş adı belirtmek isterseniz lütfen as_named_input yöntemini çağırın.


   # Given a run submitted with dataset input like this:
   dataset_input = dataset.as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_mount(path_on_compute=None)

Parametreler

path_on_compute: str

varsayılan değer: None

verilerin kullanılabilmesi için işlemdeki hedef yol.

Açıklamalar

Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, bağlama noktası bağlı tek dosyanın yolu olur. Aksi takdirde, bağlama noktası tüm bağlı dosyalar için kapsayan klasörün yolu olacaktır.

download

Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını indirin.

download(target_path=None, overwrite=False, ignore_not_found=False)

Parametreler

target_path: str

Gerekli

Dosyaların indirilmesi için yerel dizin. Hiçbiri ise, veriler geçici bir dizine indirilir.

overwrite: bool

Gerekli

Varolan dosyaların üzerine yazılıp yazılmayacağını gösterir. Varsayılan değer False'tur. Üzerine yazma True olarak ayarlanırsa mevcut dosyaların üzerine yazılır; aksi takdirde bir özel durum oluşturulur.

ignore_not_found: bool

Gerekli

Veri kümesi tarafından işaret edilen bazı dosyalar bulunamazsa indirme işleminin başarısız olup olmayacağını gösterir. Varsayılan değer False'tur. ignore_not_found False olarak ayarlanırsa herhangi bir dosya indirme işlemi herhangi bir nedenle başarısız olursa indirme başarısız olur; aksi takdirde, başka hata türleriyle karşılaşılmadığı sürece bir waring bulunamadı hataları için günlüğe kaydedilir ve dowload başarılı olur.

Döndürülenler

İndirilen her dosya için bir dosya yolu dizisi döndürür.

Dönüş türü

list(str)

Açıklamalar

target_path ile başlıyorsa, mutlak yol olarak değerlendirilir. / ile başlamıyorsa, geçerli çalışma dizinine göre göreli bir yol olarak değerlendirilir.

file_metadata

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Meta veri sütun adını belirterek dosya meta verileri ifadesini alın.

Desteklenen dosya meta veri sütunları Size, LastModifiedTime, CreationTime, Extension ve CanSeek'tir

file_metadata(col)

Parametreler

col: str

Gerekli

Sütunun adı

Döndürülenler

Belirtilen sütundaki değeri alan bir ifade döndürür.

Dönüş türü

<xref:azureml.dataprep.api.expression.RecordFieldExpression>

filter

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Yalnızca belirtilen ifadeyle eşleşen kayıtları bırakarak verileri filtreleyin.

filter(expression)

Parametreler

expression: <xref:azureml.dataprep.api.expression.Expression>

Gerekli

Değerlendirilecek ifade.

Döndürülenler

Değiştirilen veri kümesi (kaydı kaldırılmış).

Dönüş türü

FileDataset

Açıklamalar

İfadeler, Veri Kümesinde bir sütunun adıyla dizin oluşturarak başlatılır. Bunlar çeşitli işlevleri ve işleçleri destekler ve mantıksal işleçler kullanılarak birleştirilebilir. Sonuçta elde edilen ifade, tanımlandığı yerde değil, bir veri çekme işlemi gerçekleştiğinde her kayıt için gevşek bir şekilde değerlendirilir.


   (dataset.file_metadata('Size') > 10000) & (dataset.file_metadata('CanSeek') == True)
   dataset.file_metadata('Extension').starts_with('j')

hydrate

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri kümesini datacache_store'de belirtilen istenen çoğaltmalara nemlendiren.

hydrate(datacache_store, replica_count=None)

Parametreler

datacache_store: DatacacheStore

Gerekli

Hidrant yapmak için kullanılacak datacachestore.

replica_count: <xref:Int>, <xref:optional>

Gerekli

Hidrat için çoğaltma sayısı.

Döndürülenler

Datacache'in çalıştırmada nasıl gerçekleştirilmesi gerektiğini açıklayan yapılandırma nesnesi.

Dönüş türü

DatacacheHydrationTracker

mount

Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını bağlamak için bir bağlam yöneticisi oluşturun.

mount(mount_point=None, **kwargs)

Parametreler

mount_point: str

Gerekli

Dosyaların bağlanacak yerel dizin. Hiçbiri ise, veriler geçici bir dizine bağlanır ve bunu MountContext.mount_point örnek yöntemini çağırarak bulabilirsiniz.

Döndürülenler

Bağlamanın yaşam döngüsünü yönetmek için bir bağlam yöneticisi döndürür.

Dönüş türü

<xref:<xref:MountContext: the context manager. Upon entering the context manager>, <xref:the dataflow will bemounted to the mount_point. Upon exit>, <xref:it will remove the mount point and clean up the daemon processused to mount the dataflow.>>

Açıklamalar

Bağlamanın yaşam döngüsünü yönetmek için bir bağlam yöneticisi döndürülür. Bağlamak için bağlam yöneticisini girmeniz ve bağlamayı kaldırmak için bağlam yöneticisinden çıkmanız gerekir.

Bağlama yalnızca libfuse yerel paketin yüklü olduğu Unix veya Unix benzeri işletim sistemlerinde desteklenir. Docker kapsayıcısının içinde çalışıyorsanız, docker kapsayıcısı –privileged bayrağıyla veya –cap-add SYS_ADMIN –device /dev/fuse ile başlatılmalıdır.


   datastore = Datastore.get(workspace, 'workspaceblobstore')
   dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))

   with dataset.mount() as mount_context:
       # list top level mounted files and folders in the dataset
       os.listdir(mount_context.mount_point)

   # You can also use the start and stop methods
   mount_context = dataset.mount()
   mount_context.start()  # this will mount the file streams
   mount_context.stop()  # this will unmount the file streams

target_path ile başlıyorsa, mutlak yol olarak kabul edilir. / ile başlamıyorsa, geçerli çalışma dizinine göre göreli bir yol olarak kabul edilir.

random_split

Veri kümesindeki dosya akışlarını rastgele ve yaklaşık olarak belirtilen yüzdeye göre iki bölüme bölün.

Döndürülen ilk veri kümesi yaklaşık olarak percentage toplam dosya başvurusu sayısını, ikinci veri kümesi ise kalan dosya başvurularını içerir.

random_split(percentage, seed=None)

Parametreler

percentage: float

Gerekli

Veri kümesinin bölündüğü yaklaşık yüzde. Bu, 0,0 ile 1,0 arasında bir sayı olmalıdır.

seed: int

Gerekli

Rastgele oluşturucu için kullanılacak isteğe bağlı bir tohum.

Döndürülenler

Bölmeden sonra iki veri kümesini temsil eden yeni FileDataset nesnelerinin bir demetini döndürür.

Dönüş türü

(FileDataset, FileDataset)

skip

Belirtilen sayıya göre veri kümesinin en üstünden dosya akışlarını atlayın.

skip(count)

Parametreler

count: int

Gerekli

Atlana dosya akışlarının sayısı.

Döndürülenler

Dosya akışları atlanmış bir veri kümesini temsil eden yeni bir FileDataset nesnesi döndürür.

Dönüş türü

FileDataset

take

Belirtilen sayıya göre veri kümesinin en üstünden dosya akışlarının bir örneğini alın.

take(count)

Parametreler

count: int

Gerekli

Alınacak dosya akışlarının sayısı.

Döndürülenler

Örneklenen veri kümesini temsil eden yeni bir FileDataset nesnesi döndürür.

Dönüş türü

FileDataset

take_sample

Veri kümesinde belirtilen olasılığa göre rastgele bir dosya akışı örneği alın.

take_sample(probability, seed=None)

Parametreler

probability: float

Gerekli

Bir dosya akışının örne dahil edilme olasılığı.

seed: int

Gerekli

Rastgele oluşturucu için kullanılacak isteğe bağlı bir tohum.

Döndürülenler

Örneklenen veri kümesini temsil eden yeni bir FileDataset nesnesi döndürür.

Dönüş türü

FileDataset

to_path

Veri kümesi tarafından tanımlanan her dosya akışı için dosya yollarının listesini alın.

to_path()

Döndürülenler

Bir dosya yolu dizisi döndürür.

Dönüş türü

list(str)

Açıklamalar

Dosya yolları, dosya akışları indirildiğinde veya bağlandığında yerel dosyaların göreli yollarıdır.

Veri kümesini oluşturmak için veri kaynağının nasıl belirtildiğine bağlı olarak dosya yollarından ortak bir ön ek kaldırılır. Örnek:


   datastore = Datastore.get(workspace, 'workspaceblobstore')
   dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))
   print(dataset.to_path())

   # ['year-2018/1.jpg'
   #  'year-2018/2.jpg'
   #  'year-2019/1.jpg']

   dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/green-small/*.csv')

   print(dataset.to_path())
   # ['/green_tripdata_2013-08.csv']

FileDataset Sınıf

Oluşturucu

Açıklamalar

Yöntemler

as_cache

Parametreler

Döndürülenler

Dönüş türü

as_download

Parametreler

Açıklamalar

as_hdfs

Açıklamalar

as_mount

Parametreler

Açıklamalar

download

Parametreler

Döndürülenler

Dönüş türü

Açıklamalar

file_metadata

Parametreler

Döndürülenler

Dönüş türü

filter

Parametreler

Döndürülenler

Dönüş türü

Açıklamalar

hydrate

Parametreler

Döndürülenler

Dönüş türü

mount

Parametreler

Döndürülenler

Dönüş türü

Açıklamalar

random_split

Parametreler

Döndürülenler

Dönüş türü

skip

Parametreler

Döndürülenler

Dönüş türü

take

Parametreler

Döndürülenler

Dönüş türü

take_sample

Parametreler

Döndürülenler

Dönüş türü

to_path

Döndürülenler

Dönüş türü

Açıklamalar

Geri Bildirim

Geri Bildirim

Ek kaynaklar