Dataset Sınıf

Azure Machine Learning'de verileri keşfetmeye, dönüştürmeye ve yönetmeye yönelik bir kaynağı temsil eder.

Veri kümesi, genel web url'lerinin arkasındaki veya içindeki Datastore verilere başvurudur.

Bu sınıfta kullanım dışı bırakılan yöntemler için lütfen geliştirilmiş API'ler için sınıfı denetleyin AbstractDataset .

Aşağıdaki Veri Kümeleri türleri desteklenir:

  • TabularDataset sağlanan dosyayı veya dosya listesini ayrıştırarak oluşturulan tablo biçiminde verileri temsil eder.

  • FileDataset veri depolarındaki veya genel URL'lerden gelen bir veya birden çok dosyaya başvurur.

Veri kümelerini kullanmaya başlamak için Veri kümeleri ekleme & kaydetme makalesine bakın veya ve not defterlerine https://aka.ms/tabulardataset-samplenotebook bakın https://aka.ms/filedataset-samplenotebook.

Dataset nesnesini başlatın.

Çalışma alanına önceden kaydedilmiş bir Veri Kümesi almak için get yöntemini kullanın.

Devralma
builtins.object
Dataset

Oluşturucu

Dataset(definition, workspace=None, name=None, id=None)

Parametreler

definition
<xref:azureml.data.DatasetDefinition>
Gerekli

Veri kümesi tanımı.

workspace
Workspace
Gerekli

Veri Kümesinin bulunduğu çalışma alanı.

name
str
Gerekli

Veri Kümesinin adı.

id
str
Gerekli

Veri Kümesinin benzersiz tanımlayıcısı.

Açıklamalar

Dataset sınıfı, ilgili fabrika yöntemleriyle çalışmadan veri kümesi oluşturmak için kullanabileceğiniz iki kolaylık sınıfı özniteliğini (File ve Tabular) kullanıma sunar. Örneğin, şu öznitelikleri kullanarak bir veri kümesi oluşturmak için:

  • Dataset.Tabular.from_delimited_files()

  • Dataset.File.from_files()

ayrıca ve FileDatasetFactoryiçinde TabularDatasetFactory tanımlanan sınıfının ilgili fabrika yöntemlerini doğrudan çağırarak yeni bir TabularDataset veya FileDataset oluşturabilirsiniz.

Aşağıdaki örnekte veri deposundaki tek bir yola işaret eden bir TabularDataset'in nasıl oluşturulduğu gösterilir.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

Tam örnek şu kaynaktan edinilebilir: https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

Değişkenler

azureml.core.Dataset.File

Yeni FileDataset nesneleri oluşturmak için FileDatasetFactory yöntemlerine erişim sağlayan bir sınıf özniteliği. Kullanım: Dataset.File.from_files().

azureml.core.Dataset.Tabular

Yeni TabularDataset nesneleri oluşturmak için TabularDatasetFactory yöntemlerine erişim sağlayan bir sınıf özniteliği. Kullanım: Dataset.Tabular.from_delimited_files().

Yöntemler

archive

Etkin veya kullanım dışı bir veri kümesini arşivler.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

auto_read_files

Belirtilen yolda dosyaları analiz eder ve yeni bir Veri Kümesi döndürür.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Dosyaları okumak için Dataset.Tabular.from_* yöntemlerinin kullanılması önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

compare_profiles

Geçerli Veri Kümesinin profilini başka bir veri kümesi profiliyle karşılaştırın.

Bu, iki veri kümesi arasındaki özet istatistik farklarını gösterir. 'rhs_dataset' parametresi "sağ taraf" anlamına gelir ve yalnızca ikinci veri kümesidir. İlk veri kümesi (geçerli veri kümesi nesnesi) "sol taraf" olarak kabul edilir.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

create_snapshot

Kayıtlı Veri Kümesinin anlık görüntüsünü oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

delete_snapshot

Veri kümesinin anlık görüntüsünü ada göre silin.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

deprecate

Çalışma alanındaki etkin veri kümesini başka bir veri kümesi tarafından kullanımdan kaldırın.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

diff

Geçerli Veri Kümesini rhs_dataset ile fark edin.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

from_binary_files

İkili dosyalardan kayıtlı olmayan, bellek içi bir Veri Kümesi oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Bunun yerine Dataset.File.from_files kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

from_delimited_files

Sınırlandırılmış dosyalardan kayıtlı olmayan, bellek içi bir Veri Kümesi oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Bunun yerine Dataset.Tabular.from_delimited_files kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
from_excel_files

Excel dosyalarından kayıtlı olmayan, bellek içi bir Veri Kümesi oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

from_json_files

JSON dosyalarından kayıtlı olmayan, bellek içi bir Veri Kümesi oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

JSON satırları dosyasından okumak için bunun yerine Dataset.Tabular.from_json_lines_files kullanılması önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

from_pandas_dataframe

Pandas veri çerçevesinden kayıtlı olmayan, bellek içi bir Veri Kümesi oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Bunun yerine Dataset.Tabular.register_pandas_dataframe kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

from_parquet_files

Parquet dosyalarından kayıtlı olmayan, bellek içi bir Veri Kümesi oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Bunun yerine Dataset.Tabular.from_parquet_files kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

from_sql_query

SQL sorgusundan kayıtlı olmayan, bellek içi bir Veri Kümesi oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Bunun yerine Dataset.Tabular.from_sql_query kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

generate_profile

Veri Kümesi için yeni profil oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get

Adını veya kimliğini belirterek çalışma alanında zaten var olan bir Veri Kümesini alın.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

bunun yerine ve get_by_id kullanılmasını get_by_name önerin. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get_all

Çalışma alanındaki tüm kayıtlı veri kümelerini alın.

get_all_snapshots

Veri Kümesinin tüm anlık görüntülerini alın.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get_by_id

Çalışma alanına kaydedilen bir Veri Kümesi alın.

get_by_name

Kayıt adına göre çalışma alanından kayıtlı bir Veri Kümesi alın.

get_definition

Veri Kümesinin belirli bir tanımını alın.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get_definitions

Veri Kümesinin tüm tanımlarını alın.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get_profile

Daha önce hesaplanan Veri Kümesiyle ilgili özet istatistikleri alın.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get_snapshot

Ada göre Veri Kümesinin anlık görüntüsünü alın.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

head

Bu Veri Kümesinden belirtilen kayıt sayısını çekin ve bunları DataFrame olarak döndürür.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

list

False özelliğine sahip is_visible olanlar da dahil olmak üzere çalışma alanındaki tüm Veri Kümelerini listeleyin.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Bunun yerine kullanılması get_all önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

reactivate

Arşivlenmiş veya kullanım dışı bırakılmış bir veri kümesini yeniden etkinleştirme.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

register

Veri Kümesini çalışma alanına kaydederek çalışma alanının diğer kullanıcılarının kullanımına açın.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Bunun yerine kullanılması register önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

sample

Sağlanan örnekleme stratejisini ve parametreleri kullanarak kaynak Veri Kümesinden yeni bir örnek oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Dataset.Tabular üzerindeki statik yöntemleri çağırarak bir TabularDataset oluşturun ve yöntemini orada kullanın take_sample . Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

to_pandas_dataframe

Bu Veri Kümesi tanımı tarafından tanımlanan dönüştürme işlem hattını yürüterek bir Pandas veri çerçevesi oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Dataset.Tabular üzerindeki statik yöntemleri çağırarak bir TabularDataset oluşturun ve yöntemini orada kullanın to_pandas_dataframe . Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

to_spark_dataframe

Bu Veri Kümesi tanımı tarafından tanımlanan dönüştürme işlem hattını yürütebilen bir Spark DataFrame oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Dataset.Tabular üzerindeki statik yöntemleri çağırarak bir TabularDataset oluşturun ve yöntemini orada kullanın to_spark_dataframe . Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

update

Çalışma alanındaki Veri kümesi değiştirilebilir özniteliklerini güncelleştirin ve çalışma alanından güncelleştirilmiş Veri Kümesini döndürin.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

update_definition

Veri kümesi tanımını güncelleştirin.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

archive

Etkin veya kullanım dışı bir veri kümesini arşivler.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

archive()

Döndürülenler

Yok.

Dönüş türü

Açıklamalar

Arşivlemeden sonra, Veri Kümesini kullanma girişimleri hataya neden olur. Yanlışlıkla arşivlenirse, yeniden etkinleştir etkinleştirildiğinde etkinleştirilir.

auto_read_files

Belirtilen yolda dosyaları analiz eder ve yeni bir Veri Kümesi döndürür.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Dosyaları okumak için Dataset.Tabular.from_* yöntemlerinin kullanılması önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

static auto_read_files(path, include_path=False, partition_format=None)

Parametreler

path
DataReference veya str
Gerekli

Kayıtlı bir veri deposundaki veri yolu, yerel yol veya HTTP URL'si (CSV/TSV).

include_path
bool
Gerekli

Verilerin okunduğu dosyanın yolunu içeren bir sütunun eklenip eklenmeyeceği. Birden çok dosya okurken ve belirli bir kaydın hangi dosyadan kaynaklandığını bilmek istediğinizde kullanışlıdır. Ayrıca, dosya yolunda veya adında bir sütunda olmasını istediğiniz bilgiler varsa da kullanışlıdır.

partition_format
str
Gerekli

Yolda bölüm biçimini belirtin ve '{x}' biçiminde ve '{x:yyyy/AA/GG/HH/mm/ss}' biçimindeki tarih saat sütununu oluşturun; burada 'yyyy', 'MM', 'dd', 'SS', 'mm' ve 'ss' tarih saat türü için yıl, ay, gün, saat, dakika ve saniye için kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. adlı bir dosya yolu verilmiştir. /Accounts/2019/01/01/data.csv'; burada veriler bölüm adı ve saatlerine göre bölümlendi, dize türünde 'Bölüm' ve tarih saat türünde 'BölümTarihi' sütunları oluşturmak için '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' tanımlayabiliriz.

Döndürülenler

Veri kümesi nesnesi.

Dönüş türü

Açıklamalar

Dosya biçimlerinin ve sınırlayıcıların otomatik olarak algılandığında bu yöntemi kullanın.

Veri Kümesi oluşturduktan sonra, algılanan sütun türlerini ve her sütun için özet istatistikleri listelemek için komutunu kullanmanız get_profile gerekir.

Döndürülen Veri Kümesi çalışma alanına kaydedilmedi.

compare_profiles

Geçerli Veri Kümesinin profilini başka bir veri kümesi profiliyle karşılaştırın.

Bu, iki veri kümesi arasındaki özet istatistik farklarını gösterir. 'rhs_dataset' parametresi "sağ taraf" anlamına gelir ve yalnızca ikinci veri kümesidir. İlk veri kümesi (geçerli veri kümesi nesnesi) "sol taraf" olarak kabul edilir.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parametreler

rhs_dataset
Dataset
Gerekli

Karşılaştırma için "sağ taraf" veri kümesi olarak da adlandırılan ikinci bir Veri Kümesi.

profile_arguments
dict
Gerekli

Belirli bir profili yeniden deneme bağımsız değişkenleri.

include_columns
list[str]
Gerekli

Karşılaştırmaya eklenecek sütun adlarının listesi.

exclude_columns
list[str]
Gerekli

Karşılaştırmada dışlanacak sütun adlarının listesi.

histogram_compare_method
HistogramCompareMethod
Gerekli

Karşılaştırma yöntemini açıklayan sabit listesi, örneğin: Wasserstein veya Enerji

Döndürülenler

İki veri kümesi profili arasındaki fark.

Dönüş türü

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Açıklamalar

Bu yalnızca kayıtlı Veri Kümeleri içindir. Geçerli Veri Kümesinin profili yoksa bir özel durum oluşturur. Kayıtlı olmayan Veri Kümeleri için profile.compare yöntemini kullanın.

create_snapshot

Kayıtlı Veri Kümesinin anlık görüntüsünü oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parametreler

snapshot_name
str
Gerekli

Anlık görüntü adı. Anlık görüntü adları bir Veri Kümesi içinde benzersiz olmalıdır.

compute_target
Union[ComputeTarget, str]
Gerekli

Anlık görüntü profili oluşturmayı gerçekleştirmek için isteğe bağlı işlem hedefi. Atlanırsa, yerel işlem kullanılır.

create_data_snapshot
bool
Gerekli

True ise verilerin gerçekleştirilmiş bir kopyası oluşturulur.

target_datastore
Union[AbstractAzureStorageDatastore, str]
Gerekli

Anlık görüntüyü kaydetmek için hedef veri deposu. Atlanırsa, anlık görüntü çalışma alanının varsayılan depolama alanında oluşturulur.

Döndürülenler

Veri kümesi anlık görüntüsü nesnesi.

Dönüş türü

Açıklamalar

Anlık görüntüler, temel alınan verilerin zaman özet istatistiklerini ve verilerin isteğe bağlı bir kopyasını yakalar. Anlık görüntüler oluşturma hakkında daha fazla bilgi edinmek için adresine https://aka.ms/azureml/howto/createsnapshotsgidin.

delete_snapshot

Veri kümesinin anlık görüntüsünü ada göre silin.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Parametreler

snapshot_name
str
Gerekli

Anlık görüntü adı.

Döndürülenler

Yok.

Dönüş türü

Açıklamalar

Artık ihtiyacınız olmayan anlık görüntülerde kaydedilen veriler tarafından kullanılan depolama alanını boşaltmak için bunu kullanın.

deprecate

Çalışma alanındaki etkin veri kümesini başka bir veri kümesi tarafından kullanımdan kaldırın.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Parametreler

deprecate_by_dataset_id
str
Gerekli

Bu Veri Kümesinin yerini alması amaçlanan Veri Kümesi Kimliği.

Döndürülenler

Yok.

Dönüş türü

Açıklamalar

Kullanım dışı bırakılan Veri Kümeleri, kullanıldıklarında uyarıları günlüğe kaydeder. Veri kümesinin kullanım dışı bırakılması tüm tanımlarını kullanım dışı bırakmıştır.

Kullanım dışı Bırakılmış Veri Kümeleri yine de kullanılabilir. Bir Veri Kümesinin tüketilmesini tamamen engellemek için bu veri kümesini arşivleyin.

Yanlışlıkla kullanım dışı bırakıldıysa, yeniden etkinleştir seçeneği etkinleştirilecektir.

diff

Geçerli Veri Kümesini rhs_dataset ile fark edin.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Parametreler

rhs_dataset
Dataset
Gerekli

Karşılaştırma için sağ taraftaki Veri Kümesi olarak da adlandırılan başka bir Veri Kümesi

compute_target
Union[ComputeTarget, str]
Gerekli

farkını gerçekleştirmek için işlem hedefi. Atlanırsa, yerel işlem kullanılır.

columns
list[str]
Gerekli

Diff'e eklenecek sütun adlarının listesi.

Döndürülenler

Veri kümesi eylemi çalıştırma nesnesi.

Dönüş türü

from_binary_files

İkili dosyalardan kayıtlı olmayan, bellek içi bir Veri Kümesi oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Bunun yerine Dataset.File.from_files kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

static from_binary_files(path)

Parametreler

path
DataReference veya str
Gerekli

Kayıtlı bir veri deposundaki veya yerel bir yoldaki veri yolu.

Döndürülenler

Dataset nesnesi.

Dönüş türü

Açıklamalar

Dosyaları ikili veri akışları olarak okumak için bu yöntemi kullanın. Dosya okuma başına bir dosya akışı nesnesi döndürür. Görüntüleri, videoları, sesleri veya diğer ikili verileri okurken bu yöntemi kullanın.

get_profile ve create_snapshot bu yöntem tarafından oluşturulan bir Veri Kümesi için beklendiği gibi çalışmaz.

Döndürülen Veri Kümesi çalışma alanına kaydedilmedi.

from_delimited_files

Sınırlandırılmış dosyalardan kayıtlı olmayan, bellek içi bir Veri Kümesi oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Bunun yerine Dataset.Tabular.from_delimited_files kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

Parametreler

path
DataReference veya str
Gerekli

Kayıtlı bir veri deposundaki veri yolu, yerel yol veya HTTP URL'si.

separator
str
Gerekli

Sütunları bölmek için kullanılan ayırıcı.

header
PromoteHeadersBehavior
Gerekli

Dosyalardan okurken sütun üst bilgilerinin nasıl yükseltilir olduğunu denetler.

encoding
FileEncoding
Gerekli

Okunan dosyaların kodlaması.

quoting
bool
Gerekli

Tırnak içinde yeni satır karakterlerinin nasıl işleneceğini belirtin. Varsayılan (Yanlış) yeni satır karakterlerini, yeni satır karakterlerinin tırnak içinde olup olmamasına bakılmaksızın yeni satırlar başlatacak şekilde yorumlamaktır. True olarak ayarlanırsa, tırnak içindeki yeni satır karakterleri yeni satırlara neden olmaz ve dosya okuma hızı yavaşlar.

infer_column_types
bool
Gerekli

Sütun veri türlerinin çıkarılıp çıkarılmadığını gösterir.

skip_rows
int
Gerekli

Okunan dosyalarda kaç satırın atlandığı.

skip_mode
SkipLinesBehavior
Gerekli

Dosyalardan okurken satırların atlanma şeklini denetler.

comment
str
Gerekli

Okunan dosyalardaki açıklama satırlarını belirtmek için kullanılan karakter. Bu dizeyle başlayan satırlar atlanır.

include_path
bool
Gerekli

Verilerin okunduğu dosyanın yolunu içeren bir sütunun eklenip eklenmeyeceği. Bu, birden çok dosya okurken ve belirli bir kaydın hangi dosyadan kaynaklandığını bilmek veya yararlı bilgileri dosya yolunda tutmak istediğinizde yararlıdır.

archive_options
<xref:azureml.dataprep.ArchiveOptions>
Gerekli

Arşiv türü ve giriş glob deseni de dahil olmak üzere arşiv dosyası seçenekleri. Şu anda yalnızca arşiv türü olarak ZIP'i destekliyoruz. Örneğin, belirtme


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

ZIP'te adı "10-20.csv" ile biten tüm dosyaları okur.

partition_format
str
Gerekli

Yolda bölüm biçimini belirtin ve '{x}' biçiminde ve '{x:yyyy/AA/GG/HH/mm/ss}' biçimindeki tarih saat sütununu oluşturun; burada 'yyyy', 'MM', 'dd', 'SS', 'mm' ve 'ss' tarih saat türü için yıl, ay, gün, saat, dakika ve saniye için kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. adlı bir dosya yolu verilmiştir. /Accounts/2019/01/01/data.csv'; burada veriler bölüm adı ve saatlerine göre bölümlendi, dize türünde 'Bölüm' ve tarih saat türünde 'BölümTarihi' sütunları oluşturmak için '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' tanımlayabiliriz.

Döndürülenler

Veri kümesi nesnesi.

Dönüş türü

Açıklamalar

Kullanılan seçenekleri denetlemek istediğinizde sınırlandırılmış metin dosyalarını okumak için bu yöntemi kullanın.

Veri Kümesi oluşturduktan sonra, algılanan sütun türlerini ve her sütun için özet istatistikleri listelemek için komutunu kullanmanız get_profile gerekir.

Döndürülen Veri Kümesi çalışma alanına kaydedilmedi.

from_excel_files

Excel dosyalarından kayıtlı olmayan, bellek içi bir Veri Kümesi oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Parametreler

path
DataReference veya str
Gerekli

Kayıtlı bir veri deposundaki veya yerel bir yoldaki veri yolu.

sheet_name
str
Gerekli

Yüklenemiyor Excel sayfasının adı. Varsayılan olarak her Excel dosyasından ilk sayfayı okuruz.

use_column_headers
bool
Gerekli

İlk satırın sütun başlığı olarak kullanılıp kullanılmayacağını denetler.

skip_rows
int
Gerekli

Okunan dosyalarda atlanmasını istediğiniz satır sayısı.

include_path
bool
Gerekli

Verilerin okunduğu dosyanın yolunu içeren bir sütun eklenip eklenmeyeceği. Bu, birden çok dosya okurken ve belirli bir kaydın hangi dosyadan geldiğini bilmek veya dosya yolunda yararlı bilgileri tutmak istediğinizde yararlıdır.

infer_column_types
bool
Gerekli

True ise, sütun veri türleri çıkarılır.

partition_format
str
Gerekli

Yolda bölüm biçimini belirtin ve '{x}' biçiminde ve '{x:yy/AA/GG/HH/mm/ss}' biçimindeki tarih saat sütunlarını oluşturun; burada 'yyyy', 'MM', 'dd', 'SS', 'mm' ve 'ss', tarih saat türü için fazladan yıl, ay, gün, saat, dakika ve saniye için kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.xlsx' (verilerin bölüm adı ve zamanına göre bölümlendiği) '/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx' tanımlayarak dize türünde 'Department' ve datetime türünde 'PartitionDate' sütunlarını oluşturabiliriz.

Döndürülenler

Veri kümesi nesnesi.

Dönüş türü

Açıklamalar

Excel dosyalarını .xlsx biçimde okumak için bu yöntemi kullanın. Veriler her Excel dosyasındaki bir sayfadan okunabilir. Bir Veri Kümesi oluşturduktan sonra, her sütun için algılanan sütun türlerini ve özet istatistiklerini listelemek için komutunu kullanmanız get_profile gerekir. Döndürülen Veri Kümesi çalışma alanına kaydedilmedi.

from_json_files

JSON dosyalarından kayıtlı olmayan, bellek içi bir Veri Kümesi oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

JSON satırları dosyasından okumak için bunun yerine Dataset.Tabular.from_json_lines_files kullanılması önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

Parametreler

path
DataReference veya str
Gerekli

Yüklemek ve ayrıştırmak istediğiniz dosya veya klasörün yolu. Yerel yol veya Azure Blob URL'si olabilir. Globbing desteklenir. Örneğin, adı "data" ile başlayan tüm dosyaları okumak için path = "./data*" kullanabilirsiniz.

encoding
FileEncoding
Gerekli

Okunan dosyaların kodlaması.

flatten_nested_arrays
bool
Gerekli

Programın iç içe dizileri işlemesini denetleen özellik. İç içe JSON dizilerini düzleştirmeyi seçerseniz, çok daha fazla satırla sonuçlanabilir.

include_path
bool
Gerekli

Verilerin okunduğu yolu içeren bir sütunun eklenip eklenmeyeceği. Bu, birden çok dosya okurken yararlıdır ve belirli bir kaydın hangi dosyadan geldiğini bilmek veya yararlı bilgileri dosya yolunda tutmak isteyebilirsiniz.

partition_format
str
Gerekli

Yolda bölüm biçimini belirtin ve '{x}' biçiminde ve '{x:yy/AA/GG/HH/mm/ss}' biçimindeki tarih saat sütunlarını oluşturun; burada 'yyyy', 'MM', 'dd', 'SS', 'mm' ve 'ss', tarih saat türü için fazladan yıl, ay, gün, saat, dakika ve saniye için kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.json' ve veriler departman adına ve saatine göre bölümlendi. Dize türünde 'Bölüm' ve tarih saat türünde 'BölümTarihi' sütunları oluşturmak için '/{Department}/{PartitionDate:yyyy/MM/dd}/data.json' tanımlayabiliriz.

Döndürülenler

Yerel Veri Kümesi nesnesi.

Dönüş türü

from_pandas_dataframe

Pandas veri çerçevesinden kayıtlı olmayan, bellek içi bir Veri Kümesi oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Bunun yerine Dataset.Tabular.register_pandas_dataframe kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

Parametreler

dataframe
DataFrame
Gerekli

Pandas Veri Çerçevesi.

path
Union[DataReference, str]
Gerekli

Kayıtlı veri deposundaki veya yerel klasör yolundaki bir veri yolu.

in_memory
bool
Gerekli

Diskte kalıcı hale getirmek yerine DataFrame'in bellekten okunup okunmayacağı.

Döndürülenler

Veri kümesi nesnesi.

Dönüş türü

Açıklamalar

Pandas veri çerçevesini Bir Dataset nesnesine dönüştürmek için bu yöntemi kullanın. Veriler bellekten olduğundan, bu yöntem tarafından oluşturulan bir Veri Kümesi kaydedilemez.

False ise in_memory Pandas DataFrame yerel olarak bir CSV dosyasına dönüştürülür. DataReference türündeyse pat Pandas çerçevesi veri deposuna yüklenir ve Veri Kümesi DataReference'ı temel alır. ''path' yerel bir klasörse, Veri Kümesi silinemeyen yerel dosyadan oluşturulur.

Geçerli DataReference bir klasör yolu değilse özel durum oluşturur.

from_parquet_files

Parquet dosyalarından kayıtlı olmayan, bellek içi bir Veri Kümesi oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Bunun yerine Dataset.Tabular.from_parquet_files kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

static from_parquet_files(path, include_path=False, partition_format=None)

Parametreler

path
DataReference veya str
Gerekli

Kayıtlı bir veri deposundaki veya yerel bir yoldaki veri yolu.

include_path
bool
Gerekli

Verilerin okunduğu dosyanın yolunu içeren bir sütun eklenip eklenmeyeceği. Bu, birden çok dosya okurken ve belirli bir kaydın hangi dosyadan geldiğini bilmek veya dosya yolunda yararlı bilgileri tutmak istediğinizde yararlıdır.

partition_format
str
Gerekli

Yolda bölüm biçimini belirtin ve '{x}' biçiminde ve '{x:yy/AA/GG/HH/mm/ss}' biçimindeki tarih saat sütunlarını oluşturun; burada 'yyyy', 'MM', 'dd', 'SS', 'mm' ve 'ss', tarih saat türü için fazladan yıl, ay, gün, saat, dakika ve saniye için kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.parquet', verilerin bölüm adı ve saatlerine göre bölümlendiği yerde, dize türünde 'Bölüm' ve tarih saat türünde 'BölümTarihi' sütunları oluşturmak için '/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' tanımlayabiliriz.

Döndürülenler

Veri kümesi nesnesi.

Dönüş türü

Açıklamalar

Parquet dosyalarını okumak için bu yöntemi kullanın.

Bir Veri Kümesi oluşturduktan sonra, her sütun için algılanan sütun türlerini ve özet istatistiklerini listelemek için komutunu kullanmanız get_profile gerekir.

Döndürülen Veri Kümesi çalışma alanına kaydedilmedi.

from_sql_query

SQL sorgusundan kayıtlı olmayan, bellek içi bir Veri Kümesi oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Bunun yerine Dataset.Tabular.from_sql_query kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

static from_sql_query(data_source, query)

Parametreler

data_source
AzureSqlDatabaseDatastore
Gerekli

Azure SQL veri deposunun ayrıntıları.

query
str
Gerekli

Verileri okumak için yürütülecek sorgu.

Döndürülenler

Yerel Veri Kümesi nesnesi.

Dönüş türü

generate_profile

Veri Kümesi için yeni profil oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Parametreler

compute_target
Union[ComputeTarget, str]
Gerekli

Anlık görüntü profili oluşturmayı gerçekleştirmek için isteğe bağlı bir işlem hedefi. Atlanırsa, yerel işlem kullanılır.

workspace
Workspace
Gerekli

Geçici (kayıtlı olmayan) Veri Kümeleri için gereken çalışma alanı.

arguments
dict[str, object]
Gerekli

Profil bağımsız değişkenleri. Geçerli bağımsız değişkenler şunlardır:

  • Bool türünde 'include_stype_counts'. Değerlerin e-posta adresi, IP Adresi (V4/V6), ABD telefon numarası, ABD posta kodu, Enlem/Boylam gibi bazı iyi bilinen anlam türleri gibi görünüp görünmediğini denetleyin. Bunun etkinleştirilmesi performansı etkiler.

  • int türünde 'number_of_histogram_bins'. Sayısal veriler için kullanılacak histogram bölmelerinin sayısını temsil eder. Varsayılan değer 10'dur.

Döndürülenler

Veri kümesi eylemi çalıştırma nesnesi.

Dönüş türü

Açıklamalar

Zaman uyumlu çağrı, tamamlanana kadar engeller. Eylemin sonucunu almak için çağrısı get_result .

get

Adını veya kimliğini belirterek çalışma alanında zaten var olan bir Veri Kümesini alın.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

bunun yerine ve get_by_id kullanılmasını get_by_name önerin. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

static get(workspace, name=None, id=None)

Parametreler

workspace
Workspace
Gerekli

Veri Kümesinin oluşturulduğu mevcut AzureML çalışma alanı.

name
str
Gerekli

Alınacak Veri Kümesinin adı.

id
str
Gerekli

Çalışma alanındaki Veri Kümesinin benzersiz tanımlayıcısı.

Döndürülenler

Belirtilen ada veya kimliğine sahip Veri Kümesi.

Dönüş türü

Açıklamalar

veya idsağlayabilirsinizname. Şu durumlarda bir özel durum oluşur:

  • id hem hem de name belirtilir ancak eşleşmiyor.

  • belirtilen name veya id ile veri kümesi çalışma alanında bulunamıyor.

get_all

Çalışma alanındaki tüm kayıtlı veri kümelerini alın.

get_all()

Parametreler

workspace
Workspace
Gerekli

Veri Kümelerinin kayıtlı olduğu mevcut AzureML çalışma alanı.

Döndürülenler

Kayıt adlarına göre anahtarlanan TabularDataset ve FileDataset nesnelerinin sözlüğü.

Dönüş türü

get_all_snapshots

Veri Kümesinin tüm anlık görüntülerini alın.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get_all_snapshots()

Döndürülenler

Veri kümesi anlık görüntülerinin listesi.

Dönüş türü

get_by_id

Çalışma alanına kaydedilen bir Veri Kümesi alın.

get_by_id(id, **kwargs)

Parametreler

workspace
Workspace
Gerekli

Veri Kümesinin kaydedildiği mevcut AzureML çalışma alanı.

id
str
Gerekli

Veri kümesinin kimliği.

Döndürülenler

Veri kümesi nesnesi. Veri kümesi kayıtlıysa, kayıt adı ve sürümü de döndürülür.

Dönüş türü

get_by_name

Kayıt adına göre çalışma alanından kayıtlı bir Veri Kümesi alın.

get_by_name(name, version='latest', **kwargs)

Parametreler

workspace
Workspace
Gerekli

Veri Kümesinin kayıtlı olduğu mevcut AzureML çalışma alanı.

name
str
Gerekli

Kayıt adı.

version
int
Gerekli

Kayıt sürümü. Varsayılan olarak 'en son' olarak gösterilir.

Döndürülenler

Kayıtlı veri kümesi nesnesi.

Dönüş türü

get_definition

Veri Kümesinin belirli bir tanımını alın.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Parametreler

version_id
str
Gerekli

Veri Kümesi tanımının sürüm kimliği

Döndürülenler

Veri kümesi tanımı.

Dönüş türü

Açıklamalar

Sağlanırsa version_id , Azure Machine Learning bu sürüme karşılık gelen tanımı almaya çalışır. Bu sürüm yoksa, bir özel durum oluşturulur. Atlanırsa version_id en son sürüm alınır.

get_definitions

Veri Kümesinin tüm tanımlarını alın.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get_definitions()

Döndürülenler

Veri kümesi tanımlarının sözlüğü.

Dönüş türü

Açıklamalar

AzureML çalışma alanına kayıtlı bir Veri Kümesinin, her biri çağrılarak update_definitionoluşturulan birden çok tanımı olabilir. Her tanımın benzersiz bir tanımlayıcısı vardır. Geçerli tanım, oluşturulan en son tanımdır.

Kayıtlı olmayan Veri Kümeleri için yalnızca bir tanım vardır.

get_profile

Daha önce hesaplanan Veri Kümesiyle ilgili özet istatistikleri alın.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Parametreler

arguments
dict[str, object]
Gerekli

Profil bağımsız değişkenleri.

generate_if_not_exist
bool
Gerekli

Yoksa profil oluşturulup oluşturulmayacağını gösterir.

workspace
Workspace
Gerekli

Geçici (kayıtlı olmayan) Veri Kümeleri için gereken çalışma alanı.

compute_target
Union[ComputeTarget, str]
Gerekli

Profil eylemini yürütmek için bir işlem hedefi.

Döndürülenler

Veri Kümesinin DataProfile dosyası.

Dönüş türü

<xref:azureml.dataprep.DataProfile>

Açıklamalar

Azure Machine Learning çalışma alanına kayıtlı bir Veri Kümesi için bu yöntem, hala geçerliyse çağrısı get_profile yaparak daha önce oluşturulmuş mevcut bir profili alır. Veri kümesinde değiştirilen veriler algılandığında veya için bağımsız değişkenleri get_profile profil oluşturulurken kullanılanlardan farklı olduğunda profiller geçersiz kılınıyor. Profil yoksa veya geçersiz kılındıysa, generate_if_not_exist yeni bir profil oluşturulacağını belirler.

Azure Machine Learning çalışma alanına kayıtlı olmayan bir Veri Kümesi için bu yöntem her zaman çalışır generate_profile ve sonucu döndürür.

get_snapshot

Ada göre Veri Kümesinin anlık görüntüsünü alın.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Parametreler

snapshot_name
str
Gerekli

Anlık görüntü adı.

Döndürülenler

Veri kümesi anlık görüntüsü nesnesi.

Dönüş türü

head

Bu Veri Kümesinden belirtilen kayıt sayısını çekin ve bunları DataFrame olarak döndürür.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

head(count)

Parametreler

count
int
Gerekli

Çekecek kayıt sayısı.

Döndürülenler

A Pandas DataFrame.

Dönüş türü

list

False özelliğine sahip is_visible olanlar da dahil olmak üzere çalışma alanındaki tüm Veri Kümelerini listeleyin.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Bunun yerine kullanılması get_all önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

static list(workspace)

Parametreler

workspace
Workspace
Gerekli

Veri Kümeleri listesini almak istediğiniz çalışma alanı.

Döndürülenler

Veri kümesi nesnelerinin listesi.

Dönüş türü

reactivate

Arşivlenmiş veya kullanım dışı bırakılmış bir veri kümesini yeniden etkinleştirme.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

reactivate()

Döndürülenler

Yok.

Dönüş türü

register

Veri Kümesini çalışma alanına kaydederek çalışma alanının diğer kullanıcılarının kullanımına açın.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Bunun yerine kullanılması register önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Parametreler

workspace
Workspace
Gerekli

Veri Kümesinin kaydedildiği AzureML çalışma alanı.

name
str
Gerekli

Çalışma alanındaki Veri Kümesinin adı.

description
str
Gerekli

Veri Kümesinin açıklaması.

tags
dict[str, str]
Gerekli

Veri Kümesi ile ilişkilendirilecek etiketler.

visible
bool
Gerekli

Veri Kümesinin kullanıcı arabiriminde görünür olup olmadığını gösterir. False ise Veri Kümesi kullanıcı arabiriminde gizlenir ve SDK aracılığıyla kullanılabilir.

exist_ok
bool
Gerekli

True ise, yöntem veri kümesi verilen çalışma alanında zaten varsa veri kümesini döndürür, aksi takdirde hata verir.

update_if_exist
bool
Gerekli

exist_ok True ve update_if_exist True ise, bu yöntem tanımı güncelleştirir ve güncelleştirilmiş Veri Kümesini döndürür.

Döndürülenler

Çalışma alanında kayıtlı bir Dataset nesnesi.

Dönüş türü

sample

Sağlanan örnekleme stratejisini ve parametreleri kullanarak kaynak Veri Kümesinden yeni bir örnek oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Dataset.Tabular üzerindeki statik yöntemleri çağırarak bir TabularDataset oluşturun ve yöntemini orada kullanın take_sample . Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Parametreler

sample_strategy
str
Gerekli

Kullanılacak örnek strateji. Kabul edilen değerler "top_n", "simple_random" veya "katmanlı" değerlerdir.

arguments
dict[str, object]
Gerekli

Yukarıda gösterilen listede "İsteğe bağlı bağımsız değişken"den anahtarlar ve tye "Type" sütunundaki değerleri içeren bir sözlük. Yalnızca ilgili örnekleme yönteminden bağımsız değişkenler kullanılabilir. Örneğin, "simple_random" örnek türü için yalnızca "olasılık" ve "tohum" anahtarlarıyla bir sözlük belirtebilirsiniz.

Döndürülenler

Özgün veri kümesinin bir örneği olarak veri kümesi nesnesi.

Dönüş türü

Açıklamalar

Örnekler, bu Veri Kümesi tarafından tanımlanan dönüştürme işlem hattı yürütülerek ve ardından çıkış verilerine örnekleme stratejisi ve parametreleri uygulanarak oluşturulur. Her örnekleme yöntemi aşağıdaki isteğe bağlı bağımsız değişkenleri destekler:

  • top_n

    • İsteğe bağlı bağımsız değişkenler

      • n, tamsayı yazın. Örneğiniz olarak ilk N satırı seçin.
  • simple_random

    • İsteğe bağlı bağımsız değişkenler

      • olasılık, float yazın. Her satırın eşit seçilme olasılığına sahip olduğu basit rastgele örnekleme. Olasılık 0 ile 1 arasında bir sayı olmalıdır.

      • seed, float yazın. Rastgele sayı oluşturucu tarafından kullanılır. Tekrarlanabilirlik için kullanın.

  • Tabakalı

    • İsteğe bağlı bağımsız değişkenler

      • sütunlarını seçin, list[str] yazın. Verilerdeki katman sütunlarının listesi.

      • seed, float yazın. Rastgele sayı oluşturucu tarafından kullanılır. Tekrarlanabilirlik için kullanın.

      • kesirler, dict[demet, float] yazın. Tanımlama grubu: Bir katman tanımlayan sütun değerleri, sütun adlarıyla aynı sırada olmalıdır. Float: Örnekleme sırasında bir katmana bağlı ağırlık.

Aşağıdaki kod parçacıkları, farklı örnek yöntemler için örnek tasarım desenleridir.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Bu Veri Kümesi tanımı tarafından tanımlanan dönüştürme işlem hattını yürüterek bir Pandas veri çerçevesi oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Dataset.Tabular üzerindeki statik yöntemleri çağırarak bir TabularDataset oluşturun ve yöntemini orada kullanın to_pandas_dataframe . Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Döndürülenler

A Pandas DataFrame.

Dönüş türü

Açıklamalar

Bellekte tam olarak gerçekleştirilmiş bir Pandas DataFrame döndürür.

to_spark_dataframe

Bu Veri Kümesi tanımı tarafından tanımlanan dönüştürme işlem hattını yürütebilen bir Spark DataFrame oluşturun.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Dataset.Tabular üzerindeki statik yöntemleri çağırarak bir TabularDataset oluşturun ve yöntemini orada kullanın to_spark_dataframe . Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Döndürülenler

A Spark DataFrame.

Dönüş türü

Açıklamalar

Döndürülen Spark Veri Çerçevesi yalnızca bir yürütme planıdır ve Spark Dataframe'ler lazily olarak değerlendirildiğinden gerçekte herhangi bir veri içermez.

update

Çalışma alanındaki Veri kümesi değiştirilebilir özniteliklerini güncelleştirin ve çalışma alanından güncelleştirilmiş Veri Kümesini döndürin.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Parametreler

name
str
Gerekli

Çalışma alanındaki Veri Kümesinin adı.

description
str
Gerekli

Verilerin açıklaması.

tags
dict[str, str]
Gerekli

Veri Kümesini ilişkilendirilecek etiketler.

visible
bool
Gerekli

Veri Kümesinin kullanıcı arabiriminde görünür olup olmadığını gösterir.

Döndürülenler

Çalışma alanından güncelleştirilmiş bir Veri Kümesi nesnesi.

Dönüş türü

update_definition

Veri kümesi tanımını güncelleştirin.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Parametreler

definition
DatasetDefinition
Gerekli

Bu Veri Kümesinin yeni tanımı.

definition_update_message
str
Gerekli

Tanım güncelleştirme iletisi.

Döndürülenler

Çalışma alanından güncelleştirilmiş bir Veri Kümesi nesnesi.

Dönüş türü

Açıklamalar

Güncelleştirilmiş Veri Kümesini kullanmak için bu yöntem tarafından döndürülen nesnesini kullanın.

Öznitelikler

definition

Geçerli Veri Kümesi tanımını döndürür.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

Döndürülenler

Veri kümesi tanımı.

Dönüş türü

Açıklamalar

Veri kümesi tanımı, verilerin nasıl okunacağını ve dönüştürüleceğini belirten bir dizi adımdır.

AzureML çalışma alanına kayıtlı bir veri kümesinin, her biri çağrılarak update_definitionoluşturulan birden çok tanımı olabilir. Her tanımın benzersiz bir tanımlayıcısı vardır. Birden çok tanıma sahip olmak, eski tanıma bağlı olan modelleri ve işlem hatlarını bozmadan mevcut Veri Kümelerinde değişiklik yapmanıza olanak tanır.

Kayıtlı olmayan Veri Kümeleri için yalnızca bir tanım vardır.

definition_version

Veri Kümesinin geçerli tanımının sürümünü döndürür.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

Döndürülenler

Veri kümesi tanımı sürümü.

Dönüş türü

str

Açıklamalar

Veri kümesi tanımı, verilerin nasıl okunacağını ve dönüştürüleceğini belirten bir dizi adımdır.

AzureML çalışma alanına kayıtlı bir veri kümesinin, her biri çağrılarak update_definitionoluşturulan birden çok tanımı olabilir. Her tanımın benzersiz bir tanımlayıcısı vardır. Geçerli tanım, kimliği bununla döndürülen en son tanımdır.

Kayıtlı olmayan Veri Kümeleri için yalnızca bir tanım vardır.

description

Veri Kümesinin açıklamasını döndür.

Döndürülenler

Veri kümesi açıklaması.

Dönüş türü

str

Açıklamalar

Veri Kümesinde verilerin açıklamasının belirtilmesi, çalışma alanı kullanıcılarının verilerin neyi temsil ettiği ve bunları nasıl kullanabileceklerini anlamasına olanak tanır.

id

Veri Kümesi bir çalışma alanına kaydedildiyse, Veri Kümesinin kimliğini döndürür. Aksi takdirde Hiçbiri'ne dönün.

Döndürülenler

Veri Kümesi Kimliği.

Dönüş türü

str

is_visible

Azure ML çalışma alanı kullanıcı arabiriminde kayıtlı bir Veri Kümesinin görünürlüğünü denetleyin.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

Döndürülenler

Veri kümesi görünürlüğü.

Dönüş türü

Açıklamalar

Döndürülen değerler:

  • Doğru: Veri kümesi çalışma alanı kullanıcı arabiriminde görünür. Varsayılan.

  • Yanlış: Veri kümesi çalışma alanı kullanıcı arabiriminde gizlenir.

Kayıtlı olmayan Veri Kümeleri üzerinde hiçbir etkisi yoktur.

name

Veri kümesi adını döndürür.

Döndürülenler

Veri kümesi adı.

Dönüş türü

str

state

Veri Kümesinin durumunu döndürür.

Not

Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.

Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.

Döndürülenler

Veri kümesi durumu.

Dönüş türü

str

Açıklamalar

Durumların anlamı ve etkisi aşağıdaki gibidir:

  • Etkin. Etkin tanımlar tam olarak göründüğü gibidir, tüm eylemler etkin tanımlar üzerinde gerçekleştirilebilir.

  • Kullanım dışı. kullanım dışı bırakılmış tanım kullanılabilir, ancak temel alınan verilere her erişildiğinde günlüklerde bir uyarının günlüğe kaydedilmesine neden olur.

  • Arşivlenmiş. Arşivlenmiş tanım herhangi bir eylem gerçekleştirmek için kullanılamaz. Arşivlenmiş bir tanım üzerinde eylem gerçekleştirmek için yeniden etkinleştirilmesi gerekir.

tags

Veri Kümesi ile ilişkili etiketleri döndürün.

Döndürülenler

Veri kümesi etiketleri.

Dönüş türü

workspace

Veri kümesi bir çalışma alanına kaydedildiyse, bunu döndürebilirsiniz. Aksi takdirde Hiçbiri'ne dönün.

Döndürülenler

Çalışma alanı.

Dönüş türü

Tabular

Oluşturmak için fabrika FileDataset

diğer adı TabularDatasetFactory