TabularDataset Sınıf

Başvuru

Azure Machine Learning'de kullanılacak tablosal veri kümesini temsil eder.

TabularDataset, veri kaynağından tablosal gösterime veri yüklemek için bir dizi yavaş değerlendirilen, sabit işlem tanımlar. TabularDataset'ten veri teslimi istenene kadar veriler kaynaktan yüklenmez.

TabularDataset, sınıfından TabularDatasetFactory gibi from_delimited_files yöntemler kullanılarak oluşturulur.

Daha fazla bilgi için Veri kümeleri ekleme & kaydetme makalesine bakın. Tablosal veri kümesiyle çalışmaya başlamak için bkz https://aka.ms/tabulardataset-samplenotebook. .

TabularDataset nesnesini başlatın.

Bu oluşturucu doğrudan çağrılmamalıdır. Veri kümesinin sınıfı kullanılarak TabularDatasetFactory oluşturulması amaçlanmıştır.

Devralma: AbstractDataset

TabularDataset

Oluşturucu

TabularDataset()

Açıklamalar

Sınıfının yöntemleri TabularDatasetFactory kullanılarak from_* CSV, TSV, Parquet dosyaları veya SQL sorgusundan TabularDataset oluşturulabilir. TabularDataset üzerinde kayıtları bölme, atlama ve filtreleme gibi alt sıfırlama işlemleri gerçekleştirebilirsiniz. Alt ayarın sonucu her zaman bir veya daha fazla yeni TabularDataset nesnesidir.

TabularDataset'i pandas DataFrame gibi başka biçimlere de dönüştürebilirsiniz. Gerçek veri yükleme işlemi, TabularDataset'in verileri başka bir depolama mekanizmasına (pandas Dataframe veya CSV dosyası gibi) teslim etmesinin istenmesi halinde gerçekleşir.

TabularDataset bir deneme çalıştırmasının girişi olarak kullanılabilir. Ayrıca, belirtilen adla çalışma alanına kaydedilebilir ve daha sonra bu adla alınabilir.

Yöntemler

download	Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Veri kümesi tarafından tanımlanan dosya akışlarını yerel yola indirin.
drop_columns	Belirtilen sütunları veri kümesinden bırakın. Bir timeseries sütunu bırakılırsa, döndürülen veri kümesi için ilgili özellikler de bırakılır.
filter	Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Yalnızca belirtilen ifadeyle eşleşen kayıtları bırakarak verileri filtreleyin.
get_profile	Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Bu veya çalışma alanındaki aynı veri kümesi için gönderilen en son profil çalıştırmasından veri profili alın.
get_profile_runs	Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Çalışma alanında bu veya aynı veri kümesiyle ilişkili önceki profil çalıştırmalarını döndür.
keep_columns	Belirtilen sütunları tutun ve diğer tüm sütunları veri kümesinden kaldırın. Bir timeseries sütunu bırakılırsa, döndürülen veri kümesi için ilgili özellikler de bırakılır.
mount	Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını bağlamak için bir bağlam yöneticisi oluşturun.
partition_by	Bölümlenmiş veriler kopyalanır ve hedef tarafından belirtilen hedefe çıkış yapılır. bölüm biçimine sahip çıktı veri yolundan veri kümesini oluşturun, ad sağlanmışsa veri kümesini kaydedin, bölümler içeren yeni veri yolu için veri kümesini döndürin `ds = Dataset.get_by_name('test') # indexed by country, state, partition_date # #1: call partition_by locally new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'], target=DataPath(datastore, "repartition")) partition_keys = newds.partition_keys # ['country'] # new_ds can be passed to PRS as input dataset`
random_split	Veri kümesindeki kayıtları rastgele ve yaklaşık olarak belirtilen yüzdeye göre iki bölüme bölün. İlk veri kümesi toplam kayıtların yaklaşık `percentage` bir kısmını, ikinci veri kümesini ise kalan kayıtları içerir.
skip	Belirtilen sayıya göre veri kümesinin en üstündeki kayıtları atlayın.
submit_profile_run	Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Veri profilini hesaplamak için bir deneme çalıştırması gönderin. Veri profili, sütun türü, eksik değerler vb. gibi veriler hakkında yararlı bilgiler sağlayarak giriş verilerini anlamak, anomalileri ve eksik değerleri tanımlamak için çok yararlı olabilir.
take	Belirtilen sayıya göre veri kümesinin en üstünden bir kayıt örneği alın.
take_sample	Veri kümesindeki kayıtların rastgele bir örneğini yaklaşık olarak belirtilen olasılığa göre alın.
time_after	Belirtilen başlangıç zamanından sonra TabularDataset'i zaman damgası sütunlarıyla filtreleyin.
time_before	TabularDataset'i belirtilen bitiş saatinden önce zaman damgası sütunlarıyla filtreleyin.
time_between	Belirtilen başlangıç ve bitiş saati arasında TabularDataset'i filtreleyin.
time_recent	TabularDataset'i yalnızca belirtilen süre (miktar) son verileri içerecek şekilde filtreleyin.
to_csv_files	Geçerli veri kümesini CSV dosyalarını içeren bir FileDataset'e dönüştürün. Sonuçta elde edilen veri kümesi, her biri geçerli veri kümesindeki bir veri bölümüne karşılık gelen bir veya daha fazla CSV dosyası içerir. Bu dosyalar indirilene veya okunana kadar gerçekleştirilmemiştir.
to_dask_dataframe	Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Veri kümesindeki verileri gizlice okuyabilen bir Dask DataFrame döndürür.
to_pandas_dataframe	Veri kümesindeki tüm kayıtları pandas DataFrame'e yükleyin.
to_parquet_files	Geçerli veri kümesini Parquet dosyalarını içeren bir FileDataset'e dönüştürün. Sonuçta elde edilen veri kümesi, her biri geçerli veri kümesindeki bir veri bölümüne karşılık gelen bir veya daha fazla Parquet dosyası içerir. Bu dosyalar indirilene veya okunana kadar gerçekleştirilmemiştir.
to_spark_dataframe	Veri kümesindeki tüm kayıtları bir Spark DataFrame'e yükleyin.
with_timestamp_columns	Veri kümesi için zaman damgası sütunları tanımlayın.

download

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri kümesi tarafından tanımlanan dosya akışlarını yerel yola indirin.

download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)

Parametreler

Name	Description
stream_column Gerekli	str İndirilmesi gereken akış sütunu.
target_path Gerekli	str Dosyaların indirilmesi için yerel dizin. Hiçbiri ise, veriler geçici bir dizine indirilir.
overwrite Gerekli	bool Varolan dosyaların üzerine yazılıp yazılmayacağını gösterir. Varsayılan değer False'tur. Üzerine yazma True olarak ayarlanırsa mevcut dosyaların üzerine yazılır; aksi takdirde bir özel durum oluşturulur.
ignore_not_found Gerekli	bool Veri kümesi tarafından işaret edilen bazı dosyalar bulunamazsa indirme işleminin başarısız olup olmayacağını gösterir. Varsayılan değer True'dur. ignore_not_found False olarak ayarlanırsa herhangi bir dosya indirme işlemi herhangi bir nedenle başarısız olursa indirme başarısız olur; aksi takdirde, başka hata türleriyle karşılaşılmadığı sürece bir waring bulunamadı hataları için günlüğe kaydedilir ve dowload başarılı olur.

Döndürülenler

Tür	Description
ndarray	İndirilen her dosya için bir dosya yolu dizisi döndürür.

drop_columns

Belirtilen sütunları veri kümesinden bırakın.

Bir timeseries sütunu bırakılırsa, döndürülen veri kümesi için ilgili özellikler de bırakılır.

drop_columns(columns)

Parametreler

Name	Description
columns Gerekli	Union[str, list[str]] Bırakacak sütunların adı veya ad listesi.

Döndürülenler

Tür	Description
TabularDataset	Belirtilen sütunların bırakılmasıyla yeni bir TabularDataset nesnesi döndürür.

filter

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Yalnızca belirtilen ifadeyle eşleşen kayıtları bırakarak verileri filtreleyin.

filter(expression)

Parametreler

Name	Description
expression Gerekli	any Değerlendirilecek ifade.

Döndürülenler

Tür	Description
TabularDataset	Değiştirilen veri kümesi (kaydı kaldırılmış).

Açıklamalar

İfadeler, Veri Kümesinde bir sütunun adıyla dizin oluşturarak başlatılır. Bunlar çeşitli işlevleri ve işleçleri destekler ve mantıksal işleçler kullanılarak birleştirilebilir. Sonuçta elde edilen ifade, tanımlandığı yerde değil, bir veri çekme işlemi gerçekleştiğinde her kayıt için gevşek bir şekilde değerlendirilir.


   dataset['myColumn'] > dataset['columnToCompareAgainst']
   dataset['myColumn'].starts_with('prefix')

get_profile

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Bu veya çalışma alanındaki aynı veri kümesi için gönderilen en son profil çalıştırmasından veri profili alın.

get_profile(workspace=None)

Parametreler

Name	Description
workspace Gerekli	Workspace Profil çalıştırmasının gönderildiği çalışma alanı. Varsayılan olarak bu veri kümesinin çalışma alanını kullanır. Veri kümesi bir çalışma alanıyla ilişkilendirilmemişse gereklidir. Çalışma alanları hakkında daha fazla bilgi için bkz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace .

Döndürülenler

Tür	Description
DatasetProfile	DatasetProfile türünde en son profil çalıştırmasından elde edilen profil sonucu.

get_profile_runs

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Çalışma alanında bu veya aynı veri kümesiyle ilişkili önceki profil çalıştırmalarını döndür.

get_profile_runs(workspace=None)

Parametreler

Name	Description
workspace Gerekli	Workspace Profil çalıştırmasının gönderildiği çalışma alanı. Varsayılan olarak bu veri kümesinin çalışma alanını kullanır. Veri kümesi bir çalışma alanıyla ilişkilendirilmemişse gereklidir. Çalışma alanları hakkında daha fazla bilgi için bkz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace .

Döndürülenler

Tür	Description
iter(Run)	azureml.core.Run türünde yineleyici nesnesi.

keep_columns

Belirtilen sütunları tutun ve diğer tüm sütunları veri kümesinden kaldırın.

Bir timeseries sütunu bırakılırsa, döndürülen veri kümesi için ilgili özellikler de bırakılır.

keep_columns(columns, validate=False)

Parametreler

Name	Description
columns Gerekli	Union[str, list[str]] Tutulacak sütunların adı veya ad listesi.
validate Gerekli	bool Döndürülen veri kümesinden veri yüklenip yüklenemeyeceğinin doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer False'tur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.

Döndürülenler

Tür	Description
TabularDataset	Yalnızca belirtilen sütunların tutulduğu yeni bir TabularDataset nesnesi döndürür.

mount

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını bağlamak için bir bağlam yöneticisi oluşturun.

mount(stream_column, mount_point=None)

Parametreler

Name	Description
stream_column Gerekli	str Bağlanacak akış sütunu.
mount_point Gerekli	str Dosyaların bağlanacak yerel dizin. Hiçbiri ise, veriler geçici bir dizine bağlanır ve bunu MountContext.mount_point örnek yöntemini çağırarak bulabilirsiniz.

Döndürülenler

Tür	Description
<xref:azureml.dataprep.fuse.daemon.MountContext>	Bağlamanın yaşam döngüsünü yönetmek için bir bağlam yöneticisi döndürür.

partition_by

Bölümlenmiş veriler kopyalanır ve hedef tarafından belirtilen hedefe çıkış yapılır.

bölüm biçimine sahip çıktı veri yolundan veri kümesini oluşturun, ad sağlanmışsa veri kümesini kaydedin, bölümler içeren yeni veri yolu için veri kümesini döndürin


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset

partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)

Parametreler

Name	Description
partition_keys Gerekli	list[str] Gerekli, bölüm anahtarları
target Gerekli	DataPath, Datastore veya tuple(Datastore, str) object Gerekli, veri çerçevesi parquet verilerinin yüklendiği veri deposu yolu. Çakışmayı önlemek için hedef yol altında bir guid klasörü oluşturulur.
name Gerekli	str İsteğe bağlı, Kayıt adı.
show_progress Gerekli	bool İsteğe bağlı olarak, yükleme işleminin ilerleme durumunun konsolda gösterilip gösterilmeyeceğini gösterir. Varsayılan değer True olur.
partition_as_file_dataset Gerekli	İsteğe bağlı, bir filedataset döndürerek döndürmediğini gösterir. Varsayılan değer False olur.

Döndürülenler

Tür	Description
TabularDataset	Kaydedilen veya kaydedilen veri kümesi.

random_split

Veri kümesindeki kayıtları rastgele ve yaklaşık olarak belirtilen yüzdeye göre iki bölüme bölün.

İlk veri kümesi toplam kayıtların yaklaşık percentage bir kısmını, ikinci veri kümesini ise kalan kayıtları içerir.

random_split(percentage, seed=None)

Parametreler

Name	Description
percentage Gerekli	float Veri kümesinin bölündüğü yaklaşık yüzde. Bu, 0,0 ile 1,0 arasında bir sayı olmalıdır.
seed Gerekli	int Rastgele oluşturucu için kullanılacak isteğe bağlı tohum.

Döndürülenler

Tür	Description
(TabularDataset, TabularDataset)	Bölme işleminden sonra iki veri kümesini temsil eden yeni TabularDataset nesnelerinin bir demetini döndürür.

skip

Belirtilen sayıya göre veri kümesinin en üstündeki kayıtları atlayın.

skip(count)

Parametreler

Name	Description
count Gerekli	int Atlana kayıtların sayısı.

Döndürülenler

Tür	Description
TabularDataset	Kayıtları atlanmış bir veri kümesini temsil eden yeni bir TabularDataset nesnesi döndürür.

submit_profile_run

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri profilini hesaplamak için bir deneme çalıştırması gönderin.

Veri profili, sütun türü, eksik değerler vb. gibi veriler hakkında yararlı bilgiler sağlayarak giriş verilerini anlamak, anomalileri ve eksik değerleri tanımlamak için çok yararlı olabilir.

submit_profile_run(compute_target, experiment, cache_datastore_name=None)

Parametreler

Name	Description
compute_target Gerekli	Union[str, ComputeTarget] Profil hesaplama denemesinin çalıştırılacak işlem hedefi. Yerel işlem kullanmak için 'local' değerini belirtin. İşlem hedefleri hakkında daha fazla bilgi için bkz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget .
experiment Gerekli	Experiment Deneme nesnesi. Denemeler hakkında daha fazla bilgi için bkz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment .
cache_datastore_name Gerekli	str Profil önbelleğini depolamak için veri deposunun adı, Hiçbiri ise varsayılan veri deposu kullanılır

Döndürülenler

Tür	Description
DatasetProfileRun	DatasetProfileRun sınıfı türünde bir nesne.

take

Belirtilen sayıya göre veri kümesinin en üstünden bir kayıt örneği alın.

take(count)

Parametreler

Name	Description
count Gerekli	int Alınacak kayıt sayısı.

Döndürülenler

Tür	Description
TabularDataset	Örneklenen veri kümesini temsil eden yeni bir TabularDataset nesnesi döndürür.

take_sample

Veri kümesindeki kayıtların rastgele bir örneğini yaklaşık olarak belirtilen olasılığa göre alın.

take_sample(probability, seed=None)

Parametreler

Name	Description
probability Gerekli	float Bir kaydın örneğine dahil edilme olasılığı.
seed Gerekli	int Rastgele oluşturucu için kullanılacak isteğe bağlı tohum.

Döndürülenler

Tür	Description
TabularDataset	Örneklenen veri kümesini temsil eden yeni bir TabularDataset nesnesi döndürür.

time_after

Belirtilen başlangıç zamanından sonra TabularDataset'i zaman damgası sütunlarıyla filtreleyin.

time_after(start_time, include_boundary=True, validate=True)

Parametreler

Name	Description
start_time Gerekli	datetime Verileri filtrelemek için alt sınır.
include_boundary Gerekli	bool Sınır saatiyle (`start_time`) ilişkili satırın dahil edilmesi gerekip gerekmediğini belirtin.
validate Gerekli	bool Belirtilen sütunların veri kümesinde mevcut olup olmadığının doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer True'dur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.

Döndürülenler

Tür	Description
TabularDataset	Yeni filtrelenmiş veri kümesine sahip bir TabularDataset.

time_before

TabularDataset'i belirtilen bitiş saatinden önce zaman damgası sütunlarıyla filtreleyin.

time_before(end_time, include_boundary=True, validate=True)

Parametreler

Name	Description
end_time Gerekli	datetime Verileri filtrelemek için üst sınır.
include_boundary Gerekli	bool Sınır saatiyle (`end_time`) ilişkili satırın dahil edilmesi gerekip gerekmediğini belirtin.
validate Gerekli	bool Belirtilen sütunların veri kümesinde mevcut olup olmadığının doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer True'dur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.

Döndürülenler

Tür	Description
TabularDataset	Yeni filtrelenmiş veri kümesine sahip bir TabularDataset.

time_between

Belirtilen başlangıç ve bitiş saati arasında TabularDataset'i filtreleyin.

time_between(start_time, end_time, include_boundary=True, validate=True)

Parametreler

Name	Description
start_time Gerekli	datetime Verileri filtrelemek için Alt sınır.
end_time Gerekli	datetime Verileri filtrelemek için üst sınır.
include_boundary Gerekli	bool Sınır süresiyle (`start_end` ve `end_time`) ilişkili satırın dahil edilmesi gerekip gerekmediğini gösterir.
validate Gerekli	bool Belirtilen sütunların veri kümesinde mevcut olup olmadığının doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer True'dur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.

Döndürülenler

Tür	Description
TabularDataset	Yeni filtrelenmiş veri kümesine sahip bir TabularDataset.

time_recent

TabularDataset'i yalnızca belirtilen süre (miktar) son verileri içerecek şekilde filtreleyin.

time_recent(time_delta, include_boundary=True, validate=True)

Parametreler

Name	Description
time_delta Gerekli	timedelta Alınacak son verilerin süresi (miktarı).
include_boundary Gerekli	bool Sınır saatiyle (`time_delta`) ilişkili satırın dahil edilmesi gerekip gerekmediğini belirtin.
validate Gerekli	bool Belirtilen sütunların veri kümesinde mevcut olup olmadığının doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer True'dur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.

Döndürülenler

Tür	Description
TabularDataset	Yeni filtrelenmiş veri kümesine sahip bir TabularDataset.

to_csv_files

Geçerli veri kümesini CSV dosyalarını içeren bir FileDataset'e dönüştürün.

Sonuçta elde edilen veri kümesi, her biri geçerli veri kümesindeki bir veri bölümüne karşılık gelen bir veya daha fazla CSV dosyası içerir. Bu dosyalar indirilene veya okunana kadar gerçekleştirilmemiştir.

to_csv_files(separator=',')

Parametreler

Name	Description
separator Gerekli	str Sonuçta elde edilen dosyadaki değerleri ayırmak için kullanılacak ayırıcı.

Döndürülenler

Tür	Description
FileDataset	Bu veri kümesindeki verileri içeren bir dizi CSV dosyası içeren yeni bir FileDataset nesnesi döndürür.

to_dask_dataframe

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri kümesindeki verileri gizlice okuyabilen bir Dask DataFrame döndürür.

to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')

Parametreler

Name	Description
sample_size Gerekli	Şemayı ve türleri belirlemek için okunacak kayıt sayısı.
dtypes Gerekli	Beklenen sütunları ve bunların dtype'lerini belirten isteğe bağlı bir dikte. sample_size sağlanırsa yoksayılır.
on_error Gerekli	Değerleri ayrıştırırken bir hata tarafından üretilenler gibi veri kümesindeki hata değerlerini işleme. Geçerli değerler, null ile değiştiren 'null' değerleridir; ve bir özel durumla sonuçlanacak 'fail'.
out_of_range_datetime Gerekli	Pandas tarafından desteklenen aralığın dışında olan tarih-saat değerlerini işleme. Geçerli değerler, null ile değiştiren 'null' değerleridir; ve bir özel durumla sonuçlanacak 'fail'.

Döndürülenler

Tür	Description
	dask.dataframe.core.DataFrame

to_pandas_dataframe

Veri kümesindeki tüm kayıtları pandas DataFrame'e yükleyin.

to_pandas_dataframe(on_error='null', out_of_range_datetime='null')

Parametreler

Name	Description
on_error Gerekli	Değerleri ayrıştırırken bir hata tarafından üretilenler gibi veri kümesindeki hata değerlerini işleme. Geçerli değerler, null ile değiştiren 'null' değerleridir; ve bir özel durumla sonuçlanacak 'fail'.
out_of_range_datetime Gerekli	Pandas tarafından desteklenen aralığın dışında olan tarih-saat değerlerini işleme. Geçerli değerler, null ile değiştiren 'null' değerleridir; ve bir özel durumla sonuçlanacak 'fail'.

Döndürülenler

Tür	Description
DataFrame	Pandas DataFrame döndürür.

to_parquet_files

Geçerli veri kümesini Parquet dosyalarını içeren bir FileDataset'e dönüştürün.

Sonuçta elde edilen veri kümesi, her biri geçerli veri kümesindeki bir veri bölümüne karşılık gelen bir veya daha fazla Parquet dosyası içerir. Bu dosyalar indirilene veya okunana kadar gerçekleştirilmemiştir.

to_parquet_files()

Döndürülenler

Tür	Description
FileDataset	Bu veri kümesindeki verileri içeren parquet dosyaları kümesine sahip yeni bir FileDataset nesnesi döndürür.

to_spark_dataframe

Veri kümesindeki tüm kayıtları bir Spark DataFrame'e yükleyin.

to_spark_dataframe()

Döndürülenler

Tür	Description
DataFrame	Spark DataFrame döndürür.

with_timestamp_columns

Veri kümesi için zaman damgası sütunları tanımlayın.

with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)

Parametreler

Name	Description
timestamp Gerekli	str Sütunun zaman damgası olarak adı (fine_grain_timestamp olarak adlandırılır) (isteğe bağlı). Varsayılan değer None(clear) değeridir.
partition_timestamp Gerekli	str Sütun partition_timestamp adı (kaba taneli zaman damgası olarak adlandırılır) (isteğe bağlı). Varsayılan değer None(clear) değeridir.
validate Gerekli	bool Belirtilen sütunların veri kümesinde mevcut olup olmadığının doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer False'tur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.

Döndürülenler

Tür	Description
TabularDataset	Zaman damgası sütunlarının tanımlandığı yeni bir TabularDataset döndürür.

Açıklamalar

yöntemi, zaman damgası olarak kullanılacak sütunları tanımlar. Bir veri kümesindeki zaman damgası sütunları, verileri zaman serisi verileri olarak ele alma ve ek özellikleri etkinleştirmeyi mümkün hale getirir. Bir veri kümesinde hem hem de timestamp (used to be referred as fine_grain_timestamp)partition_timestamp (used to be referred as coarse grain timestamp) belirtildiğinde, iki sütun aynı zaman çizelgesini temsil etmelidir.

Öznitelikler

timestamp_columns

Zaman damgası sütunlarını döndür.

Döndürülenler

Tür	Description
(str, str)	Veri kümesi için tanımlanan zaman damgası (fine_grain_timestamp olarak adlandırılır) ve partition_timestamp (kaba taneli zaman damgası olarak adlandırılır) için sütun adları.

TabularDataset Sınıf

Oluşturucu

Açıklamalar

Yöntemler

download

Parametreler

Döndürülenler

drop_columns

Parametreler

Döndürülenler

filter

Parametreler

Döndürülenler

Açıklamalar

get_profile

Parametreler

Döndürülenler

get_profile_runs

Parametreler

Döndürülenler

keep_columns

Parametreler

Döndürülenler

mount

Parametreler

Döndürülenler

partition_by

Parametreler

Döndürülenler

random_split

Parametreler

Döndürülenler

skip

Parametreler

Döndürülenler

submit_profile_run

Parametreler

Döndürülenler

take

Parametreler

Döndürülenler

take_sample

Parametreler

Döndürülenler

time_after

Parametreler

Döndürülenler

time_before

Parametreler

Döndürülenler

time_between

Parametreler

Döndürülenler

time_recent

Parametreler

Döndürülenler

to_csv_files

Parametreler

Döndürülenler

to_dask_dataframe

Parametreler

Döndürülenler

to_pandas_dataframe

Parametreler

Döndürülenler

to_parquet_files

Döndürülenler

to_spark_dataframe

Döndürülenler

with_timestamp_columns

Parametreler

Döndürülenler

Açıklamalar

Öznitelikler

timestamp_columns

Döndürülenler

Geri Bildirim

Geri Bildirim

Ek kaynaklar