TabularDatasetFactory Sınıf

Azure Machine Learning için tablosal veri kümesi oluşturma yöntemlerini içerir.

TabularDataset, bu sınıftaki from_* yöntemler kullanılarak oluşturulur, örneğin yöntemifrom_delimited_files.

Tablosal veri kümeleriyle çalışma hakkında daha fazla bilgi için not defterine https://aka.ms/tabulardataset-samplenotebookbakın.

Devralma
builtins.object
TabularDatasetFactory

Oluşturucu

TabularDatasetFactory()

Yöntemler

from_delimited_files

Sınırlandırılmış dosyalarda (e.g. CSV ve TSV) tablo verilerini göstermek için bir TabularDataset oluşturun.

from_json_lines_files

JSON Satırları dosyalarındaki tablosal verileri temsil eden bir TabularDataset oluşturun (http://jsonlines.org/).

from_parquet_files

Parquet dosyalarındaki tablo verilerini temsil eden bir TabularDataset oluşturun.

from_sql_query

SQL veritabanlarındaki tablo verilerini temsil eden bir TabularDataset oluşturun.

register_dask_dataframe

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

dask dataframe'den bir veri kümesi oluşturun.

register_pandas_dataframe

pandas veri çerçevesinden bir veri kümesi oluşturun.

register_spark_dataframe

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Spark veri çerçevesinden bir veri kümesi oluşturun.

from_delimited_files

Sınırlandırılmış dosyalarda (e.g. CSV ve TSV) tablo verilerini göstermek için bir TabularDataset oluşturun.

static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')

Parametreler

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Gerekli

Tek değer veya URL dizesi listesi (http[s]|abfs[s]|wasb[s]), DataPath nesnesi veya ve göreli yolu demeti Datastore olabilecek kaynak dosyaların yolu. Yol listesinin hem URL'leri hem de veri depolarını birlikte içereebileceğini unutmayın.

validate
bool
Gerekli

Döndürülen veri kümesinden veri yüklenip yüklenmediğini doğrulamak için Boole değeri. Varsayılan değer True'dır. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir. Doğrulamayı devre dışı bırakmak için "infer_column_types" değerinin de False olarak ayarlanması gerekir.

include_path
bool
Gerekli

Veri kümesinde yol bilgilerini sütun olarak tutmak için Boole değeri. Varsayılan değer False'tur. Bu, birden çok dosyayı okurken ve belirli bir kaydın hangi dosyadan kaynaklandığını bilmek veya yararlı bilgileri dosya yolunda tutmak istediğinizde yararlıdır.

infer_column_types
bool
Gerekli

Sütun veri türlerini çıkarsamak için Boole değeri. Varsayılan değer True'dır. Tür çıkarımı, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir. Şu anda tür çıkarımı yalnızca ilk 200 satırı çeker. Veriler birden çok değer türü içeriyorsa, set_column_types bağımsız değişkeni aracılığıyla istenen türü geçersiz kılma olarak sağlamak daha iyidir. set_column_types hakkında kod örnekleri için lütfen Açıklamalar bölümüne bakın.

set_column_types
dict[str, DataType]
Gerekli

Sütun veri türünü ayarlamak için bir sözlük; burada anahtar sütun adı, değer ise şeklindedir DataType.

separator
str
Gerekli

Sütunları bölmek için kullanılan ayırıcı.

header
bool veya PromoteHeadersBehavior
Gerekli

Dosyalardan okurken sütun üst bilgilerinin nasıl yükseltilir olduğunu denetler. Aynı üst bilgisine sahip tüm dosyalar için varsayılan değer True'dır. Dosyalar üst bilgi olmadan okunacak When header=False. enum değeri PromoteHeadersBehaviorkullanılarak daha fazla seçenek belirtilebilir.

partition_format
str
Gerekli

Yolun bölüm biçimini belirtin. Varsayılan değer Yok'tır. Her yolun bölüm bilgileri belirtilen biçime göre sütunlara ayıklanır. '{column_name}' biçim bölümü dize sütunu oluşturur ve '{column_name:yyyy/AA/GG/HH/aa/ss}' datetime sütunu oluşturur; burada tarih saat türü için yıl, ay, gün, saat, dakika ve saniyeyi ayıklamak için 'yyyy', 'MM', 'dd', 'SS', 'd' ve 'ss' kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.csv'; burada bölüm bölüm adına ve saat değerine göre partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv', 'Accounts' değeriyle 'Department' dize sütunu ve 'PartitionDate' değeri '2019-01-01' olan bir tarih saat sütunu oluşturur.

support_multi_line
bool
Gerekli

Varsayılan olarak (support_multi_line=Yanlış), tırnak içindeki alan değerleri dahil olmak üzere tüm satır sonları kayıt sonu olarak yorumlanır. Verileri bu şekilde okumak, birden çok CPU çekirdeğinde paralel yürütme için daha hızlı ve daha iyileştirilmiştir. Ancak, yanlış hizalanmış alan değerlerine sahip daha fazla kaydın sessizce üretilmesine neden olabilir. Sınırlandırılmış dosyaların tırnak içine alınmış satır sonları içerdiği biliniyorsa, bu True olarak ayarlanmalıdır.

Örnek olarak bu csv dosyası göz önüne alındığında, veriler support_multi_line göre farklı şekilde okunur.

A,B,C A1,B1,C1 A2,"B 2",C2


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # default behavior: support_multi_line=False
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path)
   print(dataset.to_pandas_dataframe())
   #      A   B     C
   #  0  A1  B1    C1
   #  1  A2   B  None
   #  2  2"  C2  None

   # to handle quoted line breaks
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path,
                                                  support_multi_line=True)
   print(dataset.to_pandas_dataframe())
   #      A       B   C
   #  0  A1      B1  C1
   #  1  A2  B\r\n2  C2
empty_as_string
bool
Gerekli

Boş alan değerlerinin boş dizeler olarak yüklenip yüklenmeyeceğini belirtin. Varsayılan (Yanlış) boş alan değerlerini null olarak okur. Bunu True olarak geçirmek boş alan değerlerini boş dizeler olarak okur. Değerler sayısal veya tarih saatine dönüştürülürse, boş değerler null değerlere dönüştürüleceğinden bunun bir etkisi olmaz.

encoding
str
Gerekli

Dosya kodlamasını belirtin. Desteklenen kodlamalar şunlardır: 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' ve 'windows1252'

Döndürülenler

Döndürür bir TabularDataset nesne.

Dönüş türü

Açıklamalar

from_delimited_files , sınırlandırılmış dosyalardan tablosal gösterime veri yükleme işlemlerini tanımlayan bir sınıf nesnesi TabularDataset oluşturur.

Verilerin Azure Machine Learning tarafından erişilebilir olması için , yol tarafından belirtilen sınırlandırılmış dosyaların Blob, ADLS 1. Nesil ve ADLS 2. Nesil'in genel web url'lerinde veya url'lerinde veya url'lerinde veya arkasında bulunması Datastore gerekir. kullanıcıların AAD belirteci, doğrudan şu işlevlerden birini çağırırsa not defterinde veya yerel Python programında kullanılır: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files işlem hedefinin kimliği, veri erişimi kimlik doğrulaması için Experiment.submit tarafından gönderilen işlerde kullanılır. Daha fazla bilgi edinin: https://aka.ms/data-access

Sütun veri türleri, sınırlandırılmış dosyalardaki verilerden varsayılan olarak çıkarılır. set_column_types sağlanması, döndürülen TabularDataset içindeki belirtilen sütunlar için veri türünü geçersiz kılar.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))

   # create tabular dataset from all csv files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
   tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.csv',
       'https://url/weather/2018/12.csv'
   ]
   tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)

from_json_lines_files

JSON Satırları dosyalarındaki tablosal verileri temsil eden bir TabularDataset oluşturun (http://jsonlines.org/).

static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')

Parametreler

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Gerekli

Tek değer veya URL dizesi listesi (http[s]|abfs[s]|wasb[s]), DataPath nesnesi veya ve göreli yolu demeti Datastore olabilecek kaynak dosyaların yolu. Yol listesinin hem URL'leri hem de veri depolarını birlikte içereebileceğini unutmayın.

validate
bool
Gerekli

Döndürülen veri kümesinden veri yüklenip yüklenmediğini doğrulamak için Boole değeri. Varsayılan değer True'dır. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.

include_path
bool
Gerekli

Veri kümesinde yol bilgilerini sütun olarak tutmak için Boole değeri. Varsayılan değer False'tur. Bu, birden çok dosyayı okurken ve belirli bir kaydın hangi dosyadan kaynaklandığını bilmek veya yararlı bilgileri dosya yolunda tutmak istediğinizde yararlıdır.

set_column_types
dict[str, DataType]
Gerekli

Anahtar sütun adı ve değer olan sütun veri türünü ayarlamak için bir sözlük DataType

partition_format
str
Gerekli

Yolun bölüm biçimini belirtin. Varsayılan değer Yok'tır. Her yolun bölüm bilgileri belirtilen biçime göre sütunlara ayıklanır. '{column_name}' biçim bölümü dize sütunu oluşturur ve '{column_name:yyyy/AA/GG/HH/aa/ss}' datetime sütunu oluşturur; burada tarih saat türü için yıl, ay, gün, saat, dakika ve saniyeyi ayıklamak için 'yyyy', 'MM', 'dd', 'SS', 'd' ve 'ss' kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.jsonl' bölümünde bölüm adı ve zamanına göre, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' değeri 'Accounts' olan bir 'Department' dize sütunu ve '2019-01-01' değeriyle 'PartitionDate' tarih saat sütunu oluşturur.

invalid_lines
str
Gerekli

Geçersiz JSON olan satırları işleme. Desteklenen değerler 'error' ve 'drop' değerleridir.

encoding
str
Gerekli

Dosya kodlamasını belirtin. Desteklenen kodlamalar şunlardır: 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' ve 'windows1252'

Döndürülenler

Döndürür bir TabularDataset nesne.

Dönüş türü

Açıklamalar

from_json_lines_files , JSON Satırları dosyalarından tablosal gösterime veri yükleme işlemlerini tanımlayan bir sınıf nesnesi TabularDataset oluşturur.

Verilerin Azure Machine Learning tarafından erişilebilir olması için , yol tarafından belirtilen JSON Satırları dosyalarının blob, ADLS 1. Nesil ve ADLS 2. Nesil'in genel web url'lerinde veya url'lerinde veya arkasında bulunması Datastore gerekir. kullanıcıların AAD belirteci, doğrudan şu işlevlerden birini çağırırsa not defterinde veya yerel Python programında kullanılır: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files işlem hedefinin kimliği, veri erişimi kimlik doğrulaması için Experiment.submit tarafından gönderilen işlerde kullanılır. Daha fazla bilgi edinin: https://aka.ms/data-access

Sütun veri türleri, JSON Satırları dosyalarına kaydedilen veri türlerinden okunur. set_column_types sağlanması, döndürülen TabularDataset içindeki belirtilen sütunlar için veri türünü geçersiz kılar.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))

   # create tabular dataset from all jsonl files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
   tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.jsonl',
       'https://url/weather/2018/12.jsonl'
   ]
   tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)

from_parquet_files

Parquet dosyalarındaki tablo verilerini temsil eden bir TabularDataset oluşturun.

static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)

Parametreler

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Gerekli

Tek değer veya URL dizesi listesi (http[s]|abfs[s]|wasb[s]), DataPath nesnesi veya ve göreli yolu demeti Datastore olabilecek kaynak dosyaların yolu. Yol listesinin hem URL'leri hem de veri depolarını birlikte içereebileceğini unutmayın.

validate
bool
Gerekli

Döndürülen veri kümesinden veri yüklenip yüklenmediğini doğrulamak için Boole değeri. Varsayılan değer True'dır. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.

include_path
bool
Gerekli

Veri kümesinde yol bilgilerini sütun olarak tutmak için Boole değeri. Varsayılan değer False'tur. Bu, birden çok dosyayı okurken ve belirli bir kaydın hangi dosyadan kaynaklandığını bilmek veya yararlı bilgileri dosya yolunda tutmak istediğinizde yararlıdır.

set_column_types
dict[str, DataType]
Gerekli

Sütun veri türünü ayarlamak için bir sözlük; burada anahtar sütun adı, değer ise şeklindedir DataType.

partition_format
str
Gerekli

Yolun bölüm biçimini belirtin. Varsayılan değer Yok'tır. Her yolun bölüm bilgileri belirtilen biçime göre sütunlara ayıklanır. '{column_name}' biçim bölümü dize sütunu oluşturur ve '{column_name:yyyy/AA/GG/HH/aa/ss}' datetime sütunu oluşturur; burada tarih saat türü için yıl, ay, gün, saat, dakika ve saniyeyi ayıklamak için 'yyyy', 'MM', 'dd', 'SS', 'd' ve 'ss' kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.parquet' burada bölüm bölüm adı ve zamanına göre partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet', 'Accounts' değeriyle 'Department' dize sütunu ve '2019-01-01' değerine sahip bir tarih saat sütunu 'PartitionDate' oluşturur.

Döndürülenler

Döndürür bir TabularDataset nesne.

Dönüş türü

Açıklamalar

from_parquet_files , Parquet dosyalarından tablosal gösterime veri yükleme işlemlerini tanımlayan bir sınıf nesnesi TabularDataset oluşturur.

Verilerin Azure Machine Learning tarafından erişilebilir olması için , yol tarafından belirtilen Parquet dosyalarının blob, ADLS 1. Nesil ve ADLS 2. Nesil'in genel web url'lerinde veya url'lerinde veya url'lerinde veya arkasında bulunması Datastore gerekir. kullanıcıların AAD belirteci, doğrudan şu işlevlerden birini çağırırsa not defterinde veya yerel Python programında kullanılır: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files işlem hedefinin kimliği, veri erişimi kimlik doğrulaması için Experiment.submit tarafından gönderilen işlerde kullanılır. Daha fazla bilgi edinin: https://aka.ms/data-access

Sütun veri türleri Parquet dosyalarına kaydedilen veri türlerinden okunur. set_column_types sağlanması, döndürülen TabularDataset içindeki belirtilen sütunlar için veri türünü geçersiz kılar.


   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))

   # create tabular dataset from all parquet files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
   tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.parquet',
       'https://url/weather/2018/12.parquet'
   ]
   tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)

from_sql_query

SQL veritabanlarındaki tablo verilerini temsil eden bir TabularDataset oluşturun.

static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)

Parametreler

query
Union[DataPath, (Datastore, str)]
Gerekli

SQL türünde bir veri deposu ve bir sorgu.

validate
bool
Gerekli

Döndürülen veri kümesinden veri yüklenip yüklenmediğini doğrulamak için Boole değeri. Varsayılan değer True'dır. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.

set_column_types
dict[str, DataType]
Gerekli

Sütun veri türünü ayarlamak için bir sözlük; burada anahtar sütun adı, değer ise şeklindedir DataType.

query_timeout
Gerekli

Komut yürütme girişimini sonlandırmadan ve hata oluşturmadan önce bekleme süresini (saniye cinsinden) ayarlar. Varsayılan değer 30 saniyedir.

Döndürülenler

Döndürür bir TabularDataset nesne.

Dönüş türü

Açıklamalar

from_sql_query , SQL veritabanlarından tablosal gösterime veri yükleme işlemlerini tanımlayan bir sınıf nesnesi TabularDataset oluşturur. Şu anda yalnızca MSSQLDataSource'ı destekliyoruz.

Verilerin Azure Machine Learning tarafından erişilebilir olması için tarafından belirtilen query SQL veritabanının içinde Datastore bulunması ve veri deposu türünün bir SQL türünde olması gerekir.

Sütun veri türleri SQL sorgu sonucundaki veri türlerinden okunur. sağlama, set_column_types döndürülen TabularDataset içindeki belirtilen sütunlar için veri türünü geçersiz kılar.


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # create tabular dataset from a SQL database in datastore
   datastore = Datastore.get(workspace, 'mssql')
   query = DataPath(datastore, 'SELECT * FROM my_table')
   tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
   df = tabular.to_pandas_dataframe()

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)

register_dask_dataframe

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

dask dataframe'den bir veri kümesi oluşturun.

static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parametreler

dataframe
<xref:dask.dataframe.core.DataFrame>
Gerekli

Gerekli, karşıya yüklenecek dask veri çerçevesi.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Gerekli

Gerekli, veri çerçevesi parke verilerinin yüklendiği veri deposu yolu. Çakışmayı önlemek için hedef yol altında bir guid klasörü oluşturulur.

name
str
Gerekli

Gerekli, kayıtlı veri kümesinin adı.

description
str
Gerekli

İsteğe bağlı. Veri kümesinin metin açıklaması. Varsayılan değer Yok'tır.

tags
dict[str, str]
Gerekli

İsteğe bağlı. Veri kümesine vermek için anahtar değer etiketleri sözlüğü. Varsayılan değer Yok'tır.

show_progress
bool
Gerekli

İsteğe bağlı olarak, yüklemenin ilerleme durumunun konsolda gösterilip gösterilmeyeceğini gösterir. Varsayılan değer True olur.

Döndürülenler

Kayıtlı veri kümesi.

Dönüş türü

register_pandas_dataframe

pandas veri çerçevesinden bir veri kümesi oluşturun.

static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)

Parametreler

dataframe
DataFrame
Gerekli

Bellek veri çerçevesinin karşıya yüklenmesi gerekir.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Gerekli

Gerekli, veri çerçevesi parke verilerinin yüklendiği veri deposu yolu. Çakışmayı önlemek için hedef yol altında bir guid klasörü oluşturulur.

name
str
Gerekli

Gerekli, kayıtlı veri kümesinin adı.

description
int
Gerekli

İsteğe bağlı. Veri kümesinin metin açıklaması. Varsayılan değer Yok'tır.

tags
dict[str, str]
Gerekli

İsteğe bağlı. Veri kümesine vermek için anahtar değer etiketleri sözlüğü. Varsayılan değer Yok'tır.

show_progress
bool
Gerekli

İsteğe bağlı olarak, yüklemenin ilerleme durumunun konsolda gösterilip gösterilmeyeceğini gösterir. Varsayılan değer True olur.

row_group_size
Gerekli

İsteğe bağlı. Parquet dosyası yazarken kullanılacak en büyük satır grubu boyutu. Varsayılan değer Yok'tır.

make_target_path_unique
Gerekli

İsteğe bağlı olarak, hedefte benzersiz alt klasörün oluşturulup oluşturulmayacağı gösterilir. Varsayılan değer True olur.

Döndürülenler

Kayıtlı veri kümesi.

Dönüş türü

register_spark_dataframe

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Spark veri çerçevesinden bir veri kümesi oluşturun.

static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parametreler

dataframe
DataFrame
Gerekli

Bellek veri çerçevesinin karşıya yüklenmesi gerekir.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Gerekli

Gerekli, veri çerçevesi parke verilerinin yüklendiği veri deposu yolu. Çakışmayı önlemek için hedef yol altında bir guid klasörü oluşturulur.

name
str
Gerekli

Gerekli, kayıtlı veri kümesinin adı.

description
str
Gerekli

İsteğe bağlı. Veri kümesinin metin açıklaması. Varsayılan değer Yok'tır.

tags
dict[str, str]
Gerekli

İsteğe bağlı. Veri kümesine vermek için anahtar değer etiketleri sözlüğü. Varsayılan değer Yok'tır.

show_progress
bool
Gerekli

İsteğe bağlı olarak, yüklemenin ilerleme durumunun konsolda gösterilip gösterilmeyeceğini gösterir. Varsayılan değer True olur.

Döndürülenler

Kayıtlı veri kümesi.

Dönüş türü