Dataset Sınıf

Veri kaynakları içinde verileri keşfetmeye, dönüştürmeye ve yönetmeye Azure Machine Learning.

Veri Kümesi, genel web URL'leri içinde veya Datastore arkasında yer alan verilere başvurudur.

Bu sınıfta kullanım dışı olan yöntemler için lütfen geliştirilmiş AbstractDataset API'ler için sınıfı kontrol edin.

Aşağıdaki Veri kümeleri türleri de desteklene:

  • TabularDataset sağlanan dosyayı veya dosya listesini ayrıştırarak oluşturulan tablo biçiminde verileri temsil eder.

  • FileDataset veri depolarındaki veya genel URL'lerden gelen bir veya birden çok dosyaya başvurur.

Veri kümelerini çalışmaya başlamanız için Veri kümelerini &ekleme makalesine veya not defterlerini ve 'ye https://aka.ms/tabulardataset-samplenotebook https://aka.ms/filedataset-samplenotebook bakın.

Devralma
builtins.object
Dataset

Oluşturucu

Dataset(definition, workspace=None, name=None, id=None)

Açıklamalar

Veri kümesi sınıfı, karşılık gelen fabrika yöntemleriyle çalışmadan veri kümesi oluşturmak için kullanabileceğiniz iki kullanışlı sınıf özniteliğini ( ve File Tabular ) sunar. Örneğin, şu öznitelikleri kullanarak bir veri kümesi oluşturmak için:

  • Dataset.Tabular.from_delimited_files()

  • Dataset.File.from_files()

Ayrıca, ve içinde tanımlanan sınıfın karşılık gelen fabrika yöntemlerini doğrudan çağırarak yeni bir TabularDataset veya FileDataset TabularDatasetFactory FileDatasetFactory oluşturabilirsiniz.

Aşağıdaki örnekte veri deposundaki tek bir yola işaret eden bir TabularDataset'in nasıl oluşturulduğu gösterilir.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

Tam örnek şu siteden kullanılabilir: https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

Değişkenler

azureml.core.Dataset.File

Yeni FileDataset nesneleri oluşturmak için FileDatasetFactory yöntemlerine erişim sağlayan bir sınıf özniteliği. Kullanım: Dataset.File.from_files() .

azureml.core.Dataset.Tabular

Yeni TabularDataset nesneleri oluşturmak için TabularDatasetFactory yöntemlerine erişim sağlayan bir sınıf özniteliği. Kullanım: Dataset.Tabular.from_delimited_files() .

Yöntemler

archive

Etkin veya kullanım dışı bir veri kümesi arşivleme.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

auto_read_files

Belirtilen yolda dosyaları analiz eder ve yeni bir Veri Kümesi döndürür.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Dosyaları okumak için Dataset.Tabular.from_* yöntemlerinin kullanılması önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

compare_profiles

Geçerli Veri Kümesi profilini başka bir veri kümesi profiliyle karşılaştırın.

Bu, iki veri kümesi arasındaki özet istatistikleri arasındaki farkları gösterir. 'rhs_dataset' parametresi "sağ taraf" ifadesinin açılımıdır ve yalnızca ikinci veri kümesidir. İlk veri kümesi (geçerli veri kümesi nesnesi), "sol taraf" olarak kabul edilir.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

create_snapshot

Kayıtlı Veri Kümesi'nin anlık görüntüsünü oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

delete_snapshot

Veri kümesi anlık görüntüsünü adına göre silin.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

deprecate

Çalışma alanında başka bir veri kümesi tarafından etkin bir veri kümesi kullanım dışıdır.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

diff

Geçerli Veri Kümesi'nin rhs_dataset.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

from_binary_files

İkili dosyalardan kayıtsız, bellek içinde bir Veri Kümesi oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Bunun yerine Dataset.File.from_files önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

from_delimited_files

Sınırlandırılmış dosyalardan kaydedilmemiş, bellek içi veri kümesi oluşturun.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

Bunun yerine Dataset.Tabular.from_delimited_files kullanmanız önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
from_excel_files

Excel dosyalarından kaydedilmemiş, bellek içi veri kümesi oluşturun.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

from_json_files

JSON dosyalarından kaydedilmemiş, bellek içi veri kümesi oluşturun.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

JSON satırları dosyasından okumak için Dataset.Tabular.from_json_lines_files kullanmanız önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

from_pandas_dataframe

Bir Pandas dataframe 'ten kaydedilmemiş, bellek içi veri kümesi oluşturun.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

Bunun yerine Dataset.Tabular.register_pandas_dataframe kullanmanız önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

from_parquet_files

Parquet dosyalarından kaydedilmemiş, bellek içi veri kümesi oluşturun.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

Bunun yerine Dataset.Tabular.from_parquet_files kullanmanız önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

from_sql_query

SQL sorgusundan kaydedilmemiş, bellek içi veri kümesi oluşturun.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

Bunun yerine Dataset.Tabular.from_sql_query kullanmanız önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

generate_profile

Veri kümesi için yeni profil oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get

Adını veya kimliğini belirterek çalışma alanında zaten var olan bir Veri Kümesi alırsınız.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Bunun yerine ve get_by_name kullanılması get_by_id önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get_all

Çalışma alanında kayıtlı tüm veri kümelerini alır.

get_all_snapshots

Veri Kümesi'nin tüm anlık görüntülerini alın.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get_by_id

Çalışma alanına kaydedilen bir Veri Kümesi alır.

get_by_name

Çalışma alanında kayıt adına göre kayıtlı bir Veri Kümesi alın.

get_definition

Veri Kümesi'nin belirli bir tanımını elde.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get_definitions

Veri Kümesi'nin tüm tanımlarını al.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get_profile

Daha önce hesaplanan Veri Kümesi ile ilgili özet istatistiklerini elde.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get_snapshot

Veri kümesi anlık görüntüsünü adına göre alın.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

head

Bu Veri Kümesinden belirtilen kayıt sayısını çekin ve bunları Bir DataFrame olarak döndürür.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

list

Çalışma alanında, Özelliği False'a eşit olanlar da dahil olmak üzere is_visible tüm Veri Kümelerini listele.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Bunun yerine kullanılması get_all önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

reactivate

Arşivlenmiş veya kullanım dışı veri kümelerini yeniden etkinleştirme.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

register

Veri kümesi çalışma alanına kaydederek çalışma alanının diğer kullanıcıları tarafından kullanılabilir hale geldi.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Bunun yerine kullanılması register önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

sample

Kaynak veri kümesinden, belirtilen örnekleme stratejisini ve parametrelerini kullanarak yeni bir örnek oluşturun.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

TabularDatasetDataSet. tablolu üzerinde statik yöntemleri çağırarak oluşturun ve bu take_sample yöntemi kullanın. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

to_pandas_dataframe

Bu veri kümesi tanımı tarafından tanımlanan dönüştürme işlem hattını yürüterek bir Pandas dataframe oluşturun.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

TabularDatasetDataSet. tablolu üzerinde statik yöntemleri çağırarak oluşturun ve bu to_pandas_dataframe yöntemi kullanın. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

to_spark_dataframe

Bu veri kümesi tanımı tarafından tanımlanan dönüştürme ardışık düzenini yürütebileceği bir Spark DataFrame oluşturun.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

TabularDatasetDataSet. tablolu üzerinde statik yöntemleri çağırarak oluşturun ve bu to_spark_dataframe yöntemi kullanın. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

update

Çalışma alanındaki değişebilir özniteliklerini güncelleştirin ve çalışma alanından güncelleştirilmiş veri kümesini döndürün.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

update_definition

Veri kümesi tanımını güncelleştirin.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

archive

Etkin veya kullanım dışı bir veri kümesi arşivleme.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

archive()

Döndürülenler

Yok.

Dönüş türü

<xref:None>

Açıklamalar

Arşivleme sonrasında, Veri Kümesi'nin tüketilmesine yapılan tüm girişimler hataya neden olur. Kazayla arşivlenirse, yeniden etkinleştir etkin hale gelecektir.

auto_read_files

Belirtilen yolda dosyaları analiz eder ve yeni bir Veri Kümesi döndürür.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Dosyaları okumak için Dataset.Tabular.from_* yöntemlerinin kullanılması önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

auto_read_files(path, include_path=False, partition_format=None)

Parametreler

path
DataReference veya <xref:str>
Gerekli

Kayıtlı bir veri deposu, yerel yol veya HTTP URL'si (CSV/TSV) içinde bir veri yolu.

include_path
<xref:bool>
Gerekli

Verilerin okunan dosyanın yolunu içeren bir sütunun dahil olup olmadığı. Birden çok dosyayı okurken ve belirli bir kaydın hangi dosyadan kaynaklandığını bilmek isterken kullanışlıdır. Ayrıca, bir sütunda istediğiniz dosya yolunda veya adda bilgi varsa yararlı olur.

partition_format
<xref:str>
Gerekli

'{x}' biçiminde bölüm biçimini belirtin ve '{x:yyyy/AA/dd/HH/mm/ss}' biçiminden '{x}' biçiminde dize sütunları oluşturun. Burada 'yyyy', 'MM', 'dd', 'HH', 'mm' ve 'ss', tarih saat türü için yıl, ay, gün, saat, dakika ve saniye ek olarak kullanılır. Biçimin ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlaması gerekir. Örneğin, '.. dosya yolu verilmiştir. Verilerin departman adı ve saatle bölümlenmiş olduğu /Accounts/2019/01/01/data.csv', tarih saat türünde 'Department' ve 'PartitionDate' sütunlarını oluşturmak için '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' sütunlarını oluşturabiliriz.

Döndürülenler

Veri kümesi nesnesi.

Dönüş türü

Açıklamalar

Dosya biçimlerinin ve sınırlayıcıların otomatik olarak algılandığında bu yöntemi kullanın.

Bir Veri Kümesi oluşturdukta, algılanan sütun get_profile türlerini ve her sütunun özet istatistiklerini listeleyebilirsiniz.

Döndürülen Veri Kümesi çalışma alanına kayıtlı değil.

compare_profiles

Geçerli Veri Kümesi profilini başka bir veri kümesi profiliyle karşılaştırın.

Bu, iki veri kümesi arasındaki özet istatistikleri arasındaki farkları gösterir. 'rhs_dataset' parametresi "sağ taraf" ifadesinin açılımıdır ve yalnızca ikinci veri kümesidir. İlk veri kümesi (geçerli veri kümesi nesnesi), "sol taraf" olarak kabul edilir.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=<HistogramCompareMethod.WASSERSTEIN: 0>)

Parametreler

rhs_dataset
Dataset
Gerekli

Karşılaştırma için "sağ taraf" Veri Kümesi olarak da adlandırılan ikinci bir Veri Kümesi.

profile_arguments
<xref:dict>
Gerekli

Belirli bir profili yeniden deneme bağımsız değişkenleri.

include_columns
list[<xref:str>]
Gerekli

Karşılaştırmaya dahil edilecek sütun adlarının listesi.

exclude_columns
list[<xref:str>]
Gerekli

Karşılaştırmada hariç tutulacak sütun adlarının listesi.

histogram_compare_method
HistogramCompareMethod
Gerekli

Karşılaştırma yöntemini açıklayan enum, ör: Wasserstein veya Enerji

Döndürülenler

İki veri kümesi profili arasındaki fark.

Dönüş türü

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Açıklamalar

Bu yalnızca kayıtlı Veri Kümeleri için kullanılır. Geçerli Veri Kümesi profili yoksa bir özel durum oluşturur. Kayıtsız Veri Kümeleri için profile.compare yöntemini kullanın.

create_snapshot

Kayıtlı Veri Kümesi'nin anlık görüntüsünü oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parametreler

snapshot_name
<xref:str>
Gerekli

Anlık görüntü adı. Anlık görüntü adları bir Veri Kümesi içinde benzersiz olmalıdır.

compute_target
<xref:typing.Union>[ComputeTarget, <xref:str>]
Gerekli

Anlık görüntü profili oluşturma işlemini gerçekleştirmek için isteğe bağlı işlem hedefi. Atlanırsa, yerel işlem kullanılır.

create_data_snapshot
<xref:bool>
Gerekli

True ise verilerin gerçekleştirilmiş bir kopyası oluşturulur.

target_datastore
<xref:typing.Union>[AbstractAzureStorageDatastore, <xref:str>]
Gerekli

Anlık görüntüyü kaydetmek için hedef veri deposu. Atlanırsa, anlık görüntü çalışma alanının varsayılan depolama alanında oluşturulur.

Döndürülenler

Veri kümesi anlık görüntüsü nesnesi.

Dönüş türü

Açıklamalar

Anlık görüntüler, temel alınan verilerin zaman özet istatistiklerini ve verilerin isteğe bağlı bir kopyasını yakalar. Anlık görüntü oluşturma hakkında daha fazla bilgi edinmek için' https://aka.ms/azureml/howto/createsnapshots gidin.

delete_snapshot

Veri kümesi anlık görüntüsünü adına göre silin.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Parametreler

snapshot_name
<xref:str>
Gerekli

Anlık görüntü adı.

Döndürülenler

Yok.

Dönüş türü

<xref:None>

Açıklamalar

Artık ihtiyacınız kalmadan anlık görüntülere kaydedilen veriler tarafından tüketilen depolama alanını serbest bırakarak bunu kullanın.

deprecate

Çalışma alanında başka bir veri kümesi tarafından etkin bir veri kümesi kullanım dışıdır.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Parametreler

deprecate_by_dataset_id
<xref:str>
Gerekli

Bu Veri Kümesi için amaçlanan değiştirme olan Veri Kümesi Kimliği.

Döndürülenler

Yok.

Dönüş türü

<xref:None>

Açıklamalar

Kullanım dışı olan Veri Kümeleri, tüketildiğinde uyarıları günlüğe kaydedilir. Bir veri kümesi kullanım dışı olduğu için tüm tanımları kullanım dışıdır.

Kullanım dışı veri kümeleri yine de tüketilebilir. Bir Veri Kümesi'nin tüketilmesine tamamen engel olmak için arşivle.

Kazayla kullanım dışı bırakılması, yeniden etkinleştirmeyi etkinleştirir.

diff

Geçerli Veri Kümesi'nin rhs_dataset.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Parametreler

rhs_dataset
Dataset
Gerekli

Karşılaştırma için sağ taraf Veri Kümesi olarak da adlandırılan başka bir Veri Kümesi

compute_target
<xref:typing.Union>[ComputeTarget, <xref:str>]
Gerekli

fark gerçekleştirmek için işlem hedefi. Atlanırsa, yerel işlem kullanılır.

columns
list[<xref:str>]
Gerekli

Farka dahil edilecek sütun adlarının listesi.

Döndürülenler

Veri kümesi eylem çalıştırma nesnesi.

Dönüş türü

from_binary_files

İkili dosyalardan kayıtsız, bellek içinde bir Veri Kümesi oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Bunun yerine Dataset.File.from_files önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

from_binary_files(path)

Parametreler

path
DataReference veya <xref:str>
Gerekli

Kayıtlı bir veri deposu veya yerel yol içinde bir veri yolu.

Döndürülenler

Veri kümesi nesnesi.

Dönüş türü

Açıklamalar

Dosyaları ikili veri akışları olarak okumak için bu yöntemi kullanın. Dosya okuma başına bir dosya akışı nesnesi döndürür. Görüntüleri, videoları, sesi veya diğer ikili verileri okurken bu yöntemi kullanın.

get_profile ve create_snapshot bu yöntem tarafından oluşturulan bir Veri Kümesi için beklendiği gibi çalışmaz.

Döndürülen Veri Kümesi çalışma alanına kayıtlı değil.

from_delimited_files

Sınırlandırılmış dosyalardan kaydedilmemiş, bellek içi veri kümesi oluşturun.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

Bunun yerine Dataset.Tabular.from_delimited_files kullanmanız önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
from_delimited_files(path, separator=',', header=<PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS: 3>, encoding=<FileEncoding.UTF8: 0>, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=<SkipLinesBehavior.NO_ROWS: 0>, comment=None, include_path=False, archive_options=None, partition_format=None)

Parametreler

path
DataReference veya <xref:str>
Gerekli

Kayıtlı bir veri deposundaki veri yolu, yerel yol veya HTTP URL 'SI.

separator
<xref:str>
Gerekli

Sütunları ayırmak için kullanılan ayırıcı.

header
PromoteHeadersBehavior
Gerekli

Dosyalardan okurken sütun üstbilgilerinin nasıl yükseltildiğini denetler.

encoding
FileEncoding
Gerekli

Okunan dosyaların kodlaması.

quoting
<xref:bool>
Gerekli

Yeni satır karakterlerinin tırnak içinde nasıl işleneceğini belirtin. Varsayılan (false), yeni satır karakterlerinin tırnak içinde olup olmadığı bağımsız olarak yeni satırları başlatma olarak yorumlanmanız şeklindedir. True olarak ayarlanırsa, tekliflerin içindeki yeni satır karakterleri yeni satırlara neden olmaz ve dosya okuma hızı yavaşlar.

infer_column_types
<xref:bool>
Gerekli

Sütun veri türlerinin çıkarsanmadığını gösterir.

skip_rows
<xref:int>
Gerekli

Okunan dosya (lar) da kaç satır atlanacak.

skip_mode
SkipLinesBehavior
Gerekli

Dosyalardan okurken satırların nasıl atlandığını denetler.

comment
<xref:str>
Gerekli

Okunan dosyalardaki yorum çizgilerini göstermek için kullanılan karakter. Bu dizeyle başlayan satırlar atlanacak.

include_path
<xref:bool>
Gerekli

Verilerin okunduğu dosyanın yolunu içeren bir sütun eklenip eklenmeyeceğini belirtir. Bu, birden çok dosyayı okurken ve belirli bir kaydın hangi dosyaya geldiğini bilmeniz veya dosya yolunda yararlı bilgileri saklamak istediğinizde yararlıdır.

archive_options
<xref:azureml.dataprep.ArchiveOptions>
Gerekli

Arşiv türü ve giriş glob deseninin dahil olduğu arşiv dosyası seçenekleri. Şu anda yalnızca ZIP Arşiv türü olarak ZIP destekliyoruz. Örneğin,


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

ZIP içinde "10-20.csv" ile biten adı taşıyan tüm dosyaları okur.

partition_format
<xref:str>
Gerekli

Yol içinde bölüm biçimini belirtin ve ' {x} ' biçiminde dize sütunları ve ' {x ' biçiminden DateTime sütunu oluşturun: yyyy/aa/gg/HH/mm/ss} ', tarih saat türü için yıl, ay, gün, saat, dakika ve saniye sasında ' yyyy ', ' AA ', ' gg ', ' HH ', ' mm ' ve ' ss ' kullanılır. Biçim, dosya yolunun sonuna kadar ilk bölüm anahtarının konumundan başlamalıdır. Örneğin, bir dosya yolu verilen '... /Accounts/2019/01/01/data.csv ' burada verilerin bölüm adı ve saatine göre bölümlenmesi durumunda '/{Department}/{PartitionDate: yyyy/aa/gg}/data.csv ' tanımlayabiliriz. dize türü ' Department ' sütunları ve DateTime türünde ' PartitionDate ' sütunları oluşturulabilir.

Döndürülenler

Veri kümesi nesnesi.

Dönüş türü

Açıklamalar

Kullanılan seçenekleri denetlemek istediğinizde, sınırlandırılmış metin dosyalarını okumak için bu yöntemi kullanın.

Bir veri kümesi oluşturduktan sonra, get_profile her sütun için algılanan sütun türlerini ve Özet istatistiklerini listelemek için ' i kullanmanız gerekir.

Döndürülen veri kümesi, çalışma alanına kayıtlı değil.

from_excel_files

Excel dosyalarından kaydedilmemiş, bellek içi veri kümesi oluşturun.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Parametreler

path
DataReference veya <xref:str>
Gerekli

Kayıtlı bir veri deposundaki veya yerel bir yoldaki veri yolu.

sheet_name
<xref:str>
Gerekli

yüklenecek Excel sayfanın adı. varsayılan olarak, her bir Excel dosyasından ilk sayfayı okuduk.

use_column_headers
<xref:bool>
Gerekli

İlk satırın sütun başlıkları olarak kullanılıp kullanılmayacağını denetler.

skip_rows
<xref:int>
Gerekli

Okunan dosya (lar) da kaç satır atlanacak.

include_path
<xref:bool>
Gerekli

Verilerin okunduğu dosyanın yolunu içeren bir sütun eklenip eklenmeyeceğini belirtir. Bu, birden çok dosyayı okurken ve belirli bir kaydın hangi dosyaya geldiğini bilmeniz veya dosya yolunda yararlı bilgileri saklamak istediğinizde yararlıdır.

infer_column_types
<xref:bool>
Gerekli

True ise, sütun veri türleri çıkarsalınacaktır.

partition_format
<xref:str>
Gerekli

Yol içinde bölüm biçimini belirtin ve ' {x} ' biçiminde dize sütunları ve ' {x ' biçiminden DateTime sütunu oluşturun: yyyy/aa/gg/HH/mm/ss} ', tarih saat türü için yıl, ay, gün, saat, dakika ve saniye sasında ' yyyy ', ' AA ', ' gg ', ' HH ', ' mm ' ve ' ss ' kullanılır. Biçim, dosya yolunun sonuna kadar ilk bölüm anahtarının konumundan başlamalıdır. Örneğin, bir dosya yolu verilen '... /Accounts/2019/01/01/data.xlsx ' burada verilerin bölüm adı ve saatine göre bölümlenmesi durumunda '/{Department}/{PartitionDate: yyyy/aa/gg}/data.xlsx ' tanımlayabiliriz. dize türü ' Department ' sütunları ve DateTime türünde ' PartitionDate ' sütunları oluşturulabilir.

Döndürülenler

Veri kümesi nesnesi.

Dönüş türü

Açıklamalar

.xlsx biçimindeki Excel dosyaları okumak için bu yöntemi kullanın. veriler her bir Excel dosyasında bir sayfadan okunabilir. Bir veri kümesi oluşturduktan sonra, get_profile her sütun için algılanan sütun türlerini ve Özet istatistiklerini listelemek için ' i kullanmanız gerekir. Döndürülen veri kümesi, çalışma alanına kayıtlı değil.

from_json_files

JSON dosyalarından kaydedilmemiş, bellek içi veri kümesi oluşturun.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

JSON satırları dosyasından okumak için Dataset.Tabular.from_json_lines_files kullanmanız önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

from_json_files(path, encoding=<FileEncoding.UTF8: 0>, flatten_nested_arrays=False, include_path=False, partition_format=None)

Parametreler

path
DataReference veya <xref:str>
Gerekli

Yüklemek ve ayrıştırmak istediğiniz dosya veya klasör (ler) in yolu. Bu, yerel bir yol ya da bir Azure Blob URL 'si olabilir. Glob destekleniyor. Örneğin, "Data" ile başlayan adı taşıyan tüm dosyaları okumak için path = "./Data *" kullanabilirsiniz.

encoding
FileEncoding
Gerekli

Okunan dosyaların kodlaması.

flatten_nested_arrays
<xref:bool>
Gerekli

Programın iç içe diziler işlemesini denetleyen özellik. İç içe geçmiş JSON dizilerini düzleştirmeniz tercih ederseniz, çok daha fazla sayıda satıra neden olabilir.

include_path
<xref:bool>
Gerekli

Verilerin okunacağı yolu içeren bir sütun eklenip eklenmeyeceğini belirtir. Bu, birden çok dosya okurken yararlı olur ve belirli bir kaydın hangi dosyaya geldiğini veya dosya yolunda yararlı bilgileri tutabilmesini isteyebilir.

partition_format
<xref:str>
Gerekli

Yol içinde bölüm biçimini belirtin ve ' {x} ' biçiminde dize sütunları ve ' {x ' biçiminden DateTime sütunu oluşturun: yyyy/aa/gg/HH/mm/ss} ', tarih saat türü için yıl, ay, gün, saat, dakika ve saniye sasında ' yyyy ', ' AA ', ' gg ', ' HH ', ' mm ' ve ' ss ' kullanılır. Biçim, dosya yolunun sonuna kadar ilk bölüm anahtarının konumundan başlamalıdır. Örneğin, bir dosya yolu verilen '... /Accounts/2019/01/01/Data,JSON ' ve veri, Bölüm adı ve saatine göre bölümlendirilir. '/{Department}/{PartitionDate: yyyy/aa/gg}/Data. json ' dizesini, dize türünde ' Department ' sütunları ve tarih saat türünde ' PartitionDate ' sütunları oluşturmak için tanımlayabiliriz.

Döndürülenler

Yerel veri kümesi nesnesi.

Dönüş türü

from_pandas_dataframe

Bir Pandas dataframe 'ten kaydedilmemiş, bellek içi veri kümesi oluşturun.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

Bunun yerine Dataset.Tabular.register_pandas_dataframe kullanmanız önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

from_pandas_dataframe(dataframe, path=None, in_memory=False)

Parametreler

dataframe
DataFrame
Gerekli

Pandas DataFrame.

path
<xref:typing.Union>[DataReference, <xref:str>]
Gerekli

Kayıtlı veri deposundaki veya yerel klasör yolundaki bir veri yolu.

in_memory
<xref:bool>
Gerekli

Diske kalıcı değil yerine bellekten veri çerçevesinin okunup okunmayacağı.

Döndürülenler

Bir veri kümesi nesnesi.

Dönüş türü

Açıklamalar

Bir Pandas veri çerçevesini bir veri kümesi nesnesine dönüştürmek için bu yöntemi kullanın. Bu yöntem tarafından oluşturulan bir veri kümesi, veriler bellekten olduğu için kaydedilemez.

in_memoryYanlışsa, Pandas DataFrame yerel olarak BIR CSV dosyasına dönüştürülür. , pat DataReference türünde ise, Pandas çerçevesi veri deposuna yüklenir ve veri kümesi DataReference ' ı temel alacak. ' ' Path ' yerel bir klasöriyorsa, veri kümesi silinemeyecek yerel dosya üzerinde oluşturulur.

Geçerli DataReference bir klasör yolu değilse bir özel durum oluşturur.

from_parquet_files

Parquet dosyalarından kaydedilmemiş, bellek içi veri kümesi oluşturun.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

Bunun yerine Dataset.Tabular.from_parquet_files kullanmanız önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

from_parquet_files(path, include_path=False, partition_format=None)

Parametreler

path
DataReference veya <xref:str>
Gerekli

Kayıtlı bir veri deposundaki veya yerel bir yoldaki veri yolu.

include_path
<xref:bool>
Gerekli

Verilerin okunduğu dosyanın yolunu içeren bir sütun eklenip eklenmeyeceğini belirtir. Bu, birden çok dosyayı okurken ve belirli bir kaydın hangi dosyaya geldiğini bilmeniz veya dosya yolunda yararlı bilgileri saklamak istediğinizde yararlıdır.

partition_format
<xref:str>
Gerekli

Yol içinde bölüm biçimini belirtin ve ' {x} ' biçiminde dize sütunları ve ' {x ' biçiminden DateTime sütunu oluşturun: yyyy/aa/gg/HH/mm/ss} ', tarih saat türü için yıl, ay, gün, saat, dakika ve saniye sasında ' yyyy ', ' AA ', ' gg ', ' HH ', ' mm ' ve ' ss ' kullanılır. Biçim, dosya yolunun sonuna kadar ilk bölüm anahtarının konumundan başlamalıdır. Örneğin, bir dosya yolu verilen '... /Accounts/2019/01/01/Data,parquet ' burada, verilerin bölüm adı ve saatine göre bölümlenmesi durumunda '/{Department}/{PartitionDate: yyyy/aa/gg}/Data. parquet ' ' i String türünde ' Department ' sütunları ve DateTime türünde ' PartitionDate ' sütunları oluşturmak için tanımlayabiliriz.

Döndürülenler

Veri kümesi nesnesi.

Dönüş türü

Açıklamalar

Parquet dosyalarını okumak için bu yöntemi kullanın.

Bir veri kümesi oluşturduktan sonra, get_profile her sütun için algılanan sütun türlerini ve Özet istatistiklerini listelemek için ' i kullanmanız gerekir.

Döndürülen veri kümesi, çalışma alanına kayıtlı değil.

from_sql_query

SQL sorgusundan kaydedilmemiş, bellek içi veri kümesi oluşturun.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

Bunun yerine Dataset.Tabular.from_sql_query kullanmanız önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

from_sql_query(data_source, query)

Parametreler

data_source
AzureSqlDatabaseDatastore
Gerekli

Azure SQL veri deposunun ayrıntıları.

query
<xref:str>
Gerekli

Verileri okumak için yürütülecek sorgu.

Döndürülenler

Yerel veri kümesi nesnesi.

Dönüş türü

generate_profile

Veri kümesi için yeni profil oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Parametreler

compute_target
<xref:typing.Union>[ComputeTarget, <xref:str>]
Gerekli

Anlık görüntü profili oluşturma işlemini gerçekleştirmek için isteğe bağlı bir işlem hedefi. Atlanırsa, yerel işlem kullanılır.

workspace
Workspace
Gerekli

Geçici (kayıtsız) Veri Kümeleri için gereken çalışma alanı.

arguments
<xref:dict>[<xref:str>, <xref:object>]
Gerekli

Profil bağımsız değişkenleri. Geçerli bağımsız değişkenler:

  • bool include_stype_counts 'include_stype_counts' . Değerlerin e-posta adresi, IP Adresi (V4/V6), ABD telefon numarası, ABD posta kodu, Enlem/Boylam gibi bilinen bazı semantik türlere bennetli olup olamıyrın. Bunun etkinleştirilmesi performansı etkiler.

  • int number_of_histogram_bins 'number_of_histogram_bins'. Sayısal veriler için kullanılan histogram kutusu sayısını temsil eder. Varsayılan değer 10'dur.

Döndürülenler

Veri kümesi eylem çalıştırma nesnesi.

Dönüş türü

Açıklamalar

Zaman uyumlu çağrı, tamamlayana kadar engellenir. Eylemin get_result sonucu almak için çağrısı.

get

Adını veya kimliğini belirterek çalışma alanında zaten var olan bir Veri Kümesi alırsınız.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Bunun yerine ve get_by_name kullanılması get_by_id önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get(workspace, name=None, id=None)

Parametreler

workspace
Workspace
Gerekli

Veri kümesi oluşturulan mevcut AzureML çalışma alanı.

name
<xref:str>
Gerekli

Alın veri kümesi adı.

id
<xref:str>
Gerekli

Çalışma alanında Veri Kümesi'nin benzersiz tanımlayıcısı.

Döndürülenler

Belirtilen ad veya kimlik ile Veri Kümesi.

Dönüş türü

Açıklamalar

veya s name sağlamak için . id Şu durum ortaya çıkar:

  • hem name hem id de belirtilir, ancak eşleşmez.

  • belirtilen veya çalışma name alanında id bulunamaz olan Veri Kümesi.

get_all

Çalışma alanında kayıtlı tüm veri kümelerini alır.

get_all()

Parametreler

workspace
Workspace
Gerekli

Veri kümelerini kaydeden mevcut AzureML çalışma alanı.

Döndürülenler

TabularDataset ve FileDataset nesnelerinin kayıt adlarıyla anahtarlarına sahip bir sözlük.

Dönüş türü

<xref:dict>[<xref:str>, <xref:typing.Union>[TabularDataset, FileDataset]]

get_all_snapshots

Veri Kümesi'nin tüm anlık görüntülerini alın.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get_all_snapshots()

Döndürülenler

Veri kümesi anlık görüntülerinin listesi.

Dönüş türü

get_by_id

Çalışma alanına kaydedilen bir Veri Kümesi alır.

get_by_id(id)

Parametreler

workspace
Workspace
Gerekli

Veri Kümesi'nin kayded olduğu mevcut AzureML çalışma alanı.

id
<xref:str>
Gerekli

Veri kümesi kimliği.

Döndürülenler

Veri kümesi nesnesi. Veri kümesi kayıtlı ise kayıt adı ve sürümü de döndürülür.

Dönüş türü

<xref:typing.Union>[TabularDataset, FileDataset]

get_by_name

Çalışma alanında kayıt adına göre kayıtlı bir Veri Kümesi alın.

get_by_name(name, version='latest')

Parametreler

workspace
Workspace
Gerekli

Veri Kümesi'nin kayıtlı olduğu mevcut AzureML çalışma alanı.

name
<xref:str>
Gerekli

Kayıt adı.

version
<xref:int>
Gerekli

Kayıt sürümü. Varsayılan olarak 'latest' değeri kullanılır.

Döndürülenler

Kayıtlı veri kümesi nesnesi.

Dönüş türü

<xref:typing.Union>[TabularDataset, FileDataset]

get_definition

Veri Kümesi'nin belirli bir tanımını elde.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Parametreler

version_id
<xref:str>
Gerekli

Veri kümesi tanımının sürüm kimliği

Döndürülenler

Veri kümesi tanımı.

Dönüş türü

Açıklamalar

version_idSağlanırsa, Azure Machine Learning ilgili sürüme karşılık gelen tanımı almaya çalışır. Bu sürüm yoksa bir özel durum oluşturur. version_idatlanırsa, en son sürüm alınır.

get_definitions

Veri Kümesi'nin tüm tanımlarını al.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get_definitions()

Döndürülenler

Veri kümesi tanımlarının sözlüğü.

Dönüş türü

<xref:dict>[<xref:str>, DatasetDefinition]

Açıklamalar

AzureML çalışma alanına kayıtlı bir Veri Kümesinde her biri çağrılarak oluşturulan birden çok tanım update_definition olabilir. Her tanımın benzersiz bir tanımlayıcısı vardır. Geçerli tanım, oluşturulan en son tanımdır.

Kayıtsız Veri Kümeleri için yalnızca bir tanım vardır.

get_profile

Daha önce hesaplanan Veri Kümesi ile ilgili özet istatistiklerini elde.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Parametreler

arguments
<xref:dict>[<xref:str>, <xref:object>]
Gerekli

Profil bağımsız değişkenleri.

generate_if_not_exist
<xref:bool>
Gerekli

Bir profilin yoksa oluşturulıp oluşturula olmadığını gösterir.

workspace
Workspace
Gerekli

Geçici (kayıtsız) Veri Kümeleri için gereken çalışma alanı.

compute_target
<xref:typing.Union>[ComputeTarget, <xref:str>]
Gerekli

Profil eylemini yürütmek için bir işlem hedefi.

Döndürülenler

Veri Kümesi DataProfile.

Dönüş türü

Açıklamalar

Azure Machine Learning çalışma alanına Azure Machine Learning veri kümesi için bu yöntem, hala geçerli olup olmadığını çağırarak daha get_profile önce oluşturulmuş mevcut bir profili alır. Veri Kümesinde değiştirilen veriler algılandığında veya için bağımsız değişkenler profil oluşturulurken kullanılanlardan farklı olduğunda get_profile profiller geçersiz kılınır. Profil yoksa veya geçersiz kılınmışsa, generate_if_not_exist yeni bir profilin oluşturul olup olmadığını belirler.

Azure Machine Learning çalışma alanına kayıtlı Azure Machine Learning veri kümesi için bu yöntem her zaman çalışır generate_profile ve sonucu döndürür.

get_snapshot

Veri kümesi anlık görüntüsünü adına göre alın.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Parametreler

snapshot_name
<xref:str>
Gerekli

Anlık görüntü adı.

Döndürülenler

Veri kümesi anlık görüntüsü nesnesi.

Dönüş türü

head

Bu Veri Kümesinden belirtilen kayıt sayısını çekin ve bunları Bir DataFrame olarak döndürür.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

head(count)

Parametreler

count
<xref:int>
Gerekli

Çekilen kayıt sayısı.

Döndürülenler

A Pandas DataFrame.

Dönüş türü

list

Çalışma alanında, Özelliği False'a eşit olanlar da dahil olmak üzere is_visible tüm Veri Kümelerini listele.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Bunun yerine kullanılması get_all önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

list(workspace)

Parametreler

workspace
Workspace
Gerekli

Veri kümeleri listesini almak istediğiniz çalışma alanı.

Döndürülenler

Veri kümesi nesnelerinin listesi.

Dönüş türü

reactivate

Arşivlenmiş veya kullanım dışı veri kümelerini yeniden etkinleştirme.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

reactivate()

Döndürülenler

Yok.

Dönüş türü

<xref:None>

register

Veri kümesi çalışma alanına kaydederek çalışma alanının diğer kullanıcıları tarafından kullanılabilir hale geldi.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Bunun yerine kullanılması register önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Parametreler

workspace
Workspace
Gerekli

Veri kümesine kaydedilenin yer alan AzureML çalışma alanı.

name
<xref:str>
Gerekli

Çalışma alanında Veri Kümesi adı.

description
<xref:str>
Gerekli

Veri kümesinin açıklaması.

tags
<xref:dict>[<xref:str>, <xref:str>]
Gerekli

Veri kümesiyle ilişkilendirilecek Etiketler.

visible
<xref:bool>
Gerekli

Veri kümesinin Kullanıcı arabiriminde görünür olup olmadığını gösterir. Yanlış ise, veri kümesi Kullanıcı arabiriminde gizlenir ve SDK aracılığıyla kullanılabilir.

exist_ok
<xref:bool>
Gerekli

True ise, yöntemi belirtilen çalışma alanında zaten varsa, başka bir hata olan veri kümesini döndürür.

update_if_exist
<xref:bool>
Gerekli

exist_okTrue ise ve update_if_exist true ise, bu yöntem tanımı güncellenecek ve güncelleştirilmiş veri kümesini döndürecek.

Döndürülenler

Çalışma alanındaki kayıtlı bir veri kümesi nesnesi.

Dönüş türü

sample

Kaynak veri kümesinden, belirtilen örnekleme stratejisini ve parametrelerini kullanarak yeni bir örnek oluşturun.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

TabularDatasetDataSet. tablolu üzerinde statik yöntemleri çağırarak oluşturun ve bu take_sample yöntemi kullanın. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Parametreler

sample_strategy
<xref:str>
Gerekli

Kullanılacak örnek strateji. Kabul edilen değerler şunlardır "top_n", "simple_random" veya "strabir".

arguments
<xref:dict>[<xref:str>, <xref:object>]
Gerekli

Yukarıda gösterilen listedeki "Isteğe bağlı bağımsız değişkenden" anahtar içeren bir sözlük ve TYS "Type" sütununun değerleri. Yalnızca karşılık gelen örnekleme yönteminden bağımsız değişkenler kullanılabilir. Örneğin, bir "simple_random" örnek türü için yalnızca "olasılık" ve "çekirdek" anahtarlarıyla bir sözlük belirtebilirsiniz.

Döndürülenler

Özgün veri kümesinin bir örneği olarak veri kümesi nesnesi.

Dönüş türü

Açıklamalar

Örnekler, bu veri kümesi tarafından tanımlanan dönüştürme işlem hattı çalıştırılarak oluşturulur ve ardından örnekleme stratejisi ve parametreleri çıkış verilerine uygulanır. Her örnekleme yöntemi, aşağıdaki isteğe bağlı bağımsız değişkenleri destekler:

  • top_n

    • İsteğe bağlı bağımsız değişkenler

      • n, tamsayı yazın. Örneğinizdeki ilk N satırı seçin.
  • simple_random

    • İsteğe bağlı bağımsız değişkenler

      • olasılık, float yazın. Her bir satırın seçilme olasılığının eşit olduğu basit rastgele örnekleme. Olasılık 0 ile 1 arasında bir sayı olmalıdır.

      • çekirdek, float yazın. Rastgele sayı üreticisi tarafından kullanılır. Yinelenebilirlik için kullanın.

  • bağlı

    • İsteğe bağlı bağımsız değişkenler

      • sütunlar, tür listesi [Str]. Verilerdeki konuşmasıyla Strata sütunlarının listesi.

      • çekirdek, float yazın. Rastgele sayı üreticisi tarafından kullanılır. Yinelenebilirlik için kullanın.

      • kesirler, tür dict [Tuple, float]. Demet: bir stratum tanımlayan sütun değerleri sütun adlarıyla aynı sırada olmalıdır. Float: örnekleme sırasında bir katman 'a eklenen ağırlık.

Aşağıdaki kod parçacıkları, farklı örnek yöntemlere yönelik örnek tasarım desenleridir.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Bu veri kümesi tanımı tarafından tanımlanan dönüştürme işlem hattını yürüterek bir Pandas dataframe oluşturun.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

TabularDatasetDataSet. tablolu üzerinde statik yöntemleri çağırarak oluşturun ve bu to_pandas_dataframe yöntemi kullanın. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Döndürülenler

Pandas DataFrame.

Dönüş türü

Açıklamalar

Bellekte tamamen gerçekleştirilmiş bir Pandas DataFrame döndürün.

to_spark_dataframe

Bu veri kümesi tanımı tarafından tanımlanan dönüştürme ardışık düzenini yürütebileceği bir Spark DataFrame oluşturun.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

TabularDatasetDataSet. tablolu üzerinde statik yöntemleri çağırarak oluşturun ve bu to_spark_dataframe yöntemi kullanın. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Döndürülenler

Spark veri çerçevesi.

Dönüş türü

Açıklamalar

Döndürülen Spark Dataframe yalnızca bir yürütme planı ve Spark Dataframes geç tarafından değerlendirildiğinden aslında hiçbir veri içermez.

update

Çalışma alanındaki değişebilir özniteliklerini güncelleştirin ve çalışma alanından güncelleştirilmiş veri kümesini döndürün.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Parametreler

name
<xref:str>
Gerekli

Çalışma alanındaki veri kümesinin adı.

description
<xref:str>
Gerekli

Verilerin açıklaması.

tags
<xref:dict>[<xref:str>, <xref:str>]
Gerekli

Veri kümesini ile ilişkilendirilecek Etiketler.

visible
<xref:bool>
Gerekli

Veri kümesinin Kullanıcı arabiriminde görünür olup olmadığını gösterir.

Döndürülenler

Çalışma alanından güncelleştirilmiş bir veri kümesi nesnesi.

Dönüş türü

update_definition

Veri kümesi tanımını güncelleştirin.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Parametreler

definition
DatasetDefinition
Gerekli

Bu veri kümesinin yeni tanımı.

definition_update_message
<xref:str>
Gerekli

Tanım güncelleştirme iletisi.

Döndürülenler

Çalışma alanından güncelleştirilmiş bir veri kümesi nesnesi.

Dönüş türü

Açıklamalar

Güncelleştirilmiş veri kümesini kullanmak için, bu yöntemin döndürdüğü nesneyi kullanın.

Öznitelikler

definition

Geçerli veri kümesi tanımını döndürür.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

Döndürülenler

Veri kümesi tanımı.

Dönüş türü

Açıklamalar

Veri kümesi tanımı, verilerin nasıl okunacağını ve dönüştürüleceğini belirten bir dizi adımdan oluşur.

Bir AzureML çalışma alanında kayıtlı bir veri kümesi, her biri çağırarak tarafından oluşturulan birden fazla tanıma sahip olabilir update_definition . Her tanım benzersiz bir tanımlayıcıya sahiptir. Birden çok tanım olması, eski tanımına bağlı olan modelleri ve işlem hatlarını bozmadan var olan veri kümelerinde değişiklik yapmanıza olanak tanır.

Kayıtlı olmayan veri kümelerinde yalnızca bir tanım var.

definition_version

Veri kümesinin geçerli tanımının sürümünü döndürün.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

Döndürülenler

Veri kümesi tanımı sürümü.

Dönüş türü

<xref:str>

Açıklamalar

Veri kümesi tanımı, verilerin nasıl okunacağını ve dönüştürüleceğini belirten bir dizi adımdan oluşur.

Bir AzureML çalışma alanında kayıtlı bir veri kümesi, her biri çağırarak tarafından oluşturulan birden fazla tanıma sahip olabilir update_definition . Her tanım benzersiz bir tanımlayıcıya sahiptir. Geçerli tanım, KIMLIĞI bu tarafından döndürülen en son oluşturulan bir parametredir.

Kayıtlı olmayan veri kümelerinde yalnızca bir tanım var.

description

Veri kümesinin açıklamasını döndürün.

Döndürülenler

Veri kümesi açıklaması.

Dönüş türü

<xref:str>

Açıklamalar

Veri kümesindeki verilerin bir açıklamasını belirtmek, çalışma alanının kullanıcılarının verilerin ne kadar temsil ettiğini ve bunları nasıl kullanabileceğini anlamalarına olanak sağlar.

id

Veri kümesi bir çalışma alanında kaydedilmişse, veri kümesinin KIMLIĞINI döndürün. Aksi takdirde, hiçbirini geri döndürün.

Döndürülenler

Veri kümesi KIMLIĞI.

Dönüş türü

<xref:str>

is_visible

Azure ML çalışma alanı kullanıcı arabirimindeki kayıtlı bir veri kümesinin görünürlüğünü denetleyin.

Not

Bu yöntem kullanımdan kaldırılmıştır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

Döndürülenler

Veri kümesi görünürlüğü.

Dönüş türü

<xref:bool>

Açıklamalar

Döndürülen değerler:

  • True: DataSet, Workspace Kullanıcı arabiriminde görünür. Varsayılan.

  • Yanlış: Veri kümesi çalışma alanı kullanıcı arabiriminde gizlenir.

Kaydı yapılan Veri Kümeleri üzerinde hiçbir etkisi yoktur.

name

Veri kümesi adını girin.

Döndürülenler

Veri kümesi adı.

Dönüş türü

<xref:str>

state

Veri Kümesi'nin durumunu iade.

Not

Bu yöntem kullanım dışıdır ve artık desteklemeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

Döndürülenler

Veri kümesi durumu.

Dönüş türü

<xref:str>

Açıklamalar

Durumları anlamı ve etkisi aşağıdaki gibidir:

  • Etkin. Etkin tanımlar tam olarak kulağa tam olarak ne gibi geliyorsa, tüm eylemler etkin tanımlarda yapılabilir.

  • Kullanım dışı. kullanım dışı tanımı kullanılabilir, ancak temel alınan verilere her erişilirken günlüklerde bir uyarının günlüğe kaydediliyor olmasıyla sonuçlandır.

  • Arşivlenmiş. Arşivlenmiş bir tanım, herhangi bir eylem gerçekleştirmek için kullanılamaz. Arşivlenmiş bir tanım üzerinde eylem gerçekleştirmek için yeniden etkinleştirmeniz gerekir.

tags

Veri kümesiyle ilişkili etiketleri iade edin.

Döndürülenler

Veri kümesi etiketleri.

Dönüş türü

<xref:dict>[<xref:str>, <xref:str>]

workspace

Veri kümesi bir çalışma alanına kaydedilmişse bunu geri dönebilirsiniz. Aksi takdirde, Hiçbiri'ne geri döner.

Döndürülenler

Çalışma alanı.

Dönüş türü