TabularDatasetFactory Classe

Contém métodos para criar um conjunto de dados tabular para Azure Machine Learning.

A TabularDataset é criado usando os from_* métodos desta classe, por exemplo, o método from_delimited_files .

Para obter mais informações sobre o trabalho com conjuntos de dados tabulares, consulte o caderno https://aka.ms/tabulardataset-samplenotebook .

Herança
builtins.object
TabularDatasetFactory

Métodos

from_delimited_files

Crie um SeparadorDataset para representar dados tabulares em ficheiros delimitados (por exemplo.CSV e TSV).

from_json_lines_files

Criar um SeparadorDataset para representar dados tabulares nos ficheiros JSON Lines http://jsonlines.org/ ().

from_parquet_files

Crie um SeparadorDataset para representar dados tabulares em ficheiros Parquet.

from_sql_query

Crie um Conjunto De Dados Tabular para representar dados tabulares em bases de dados SQL.

register_dask_dataframe

Nota

Este é um método experimental, e pode mudar a qualquer momento. Por favor, consulte https://aka.ms/azuremlexperimental mais informações.

Crie um conjunto de dados a partir do dataframe dask.

register_pandas_dataframe

Nota

Este é um método experimental, e pode mudar a qualquer momento. Por favor, consulte https://aka.ms/azuremlexperimental mais informações.

Crie um conjunto de dados a partir do dataframe dos pandas.

register_spark_dataframe

Nota

Este é um método experimental, e pode mudar a qualquer momento. Por favor, consulte https://aka.ms/azuremlexperimental mais informações.

Crie um conjunto de dados a partir do dataframe de faíscas.

from_delimited_files

Crie um SeparadorDataset para representar dados tabulares em ficheiros delimitados (por exemplo.CSV e TSV).

from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')

Parâmetros

path
<xref:typing.Union>[<xref:str>, list[<xref:str>], <xref:azureml.data.datapath.DataPath,builtin.list>[DataPath], (Datastore, <xref:str>)<xref:,builtin.list>[(Datastore, <xref:str>)]]

O caminho para os ficheiros de origem, que pode ser um único valor ou lista de cadeia de url DataPath http, objeto ou tuple de Datastore e caminho relativo.

validate
<xref:bool>

Boolean para validar se os dados podem ser carregados a partir do conjunto de dados devolvidos. Incumprimentos para verdadeiro. A validação requer que a fonte de dados esteja acessível a partir do cálculo atual. Para desativar a validação, o "infer_column_types" também precisa de ser definido como Falso.

include_path
<xref:bool>

Boolean para manter a informação do caminho como coluna no conjunto de dados. Incumprimentos ao Falso. Isto é útil ao ler vários ficheiros, e quer saber de que ficheiro um determinado registo teve origem ou para manter informações úteis no caminho do ficheiro.

infer_column_types
<xref:bool>

Boolean para inferir tipos de dados de colunas. Incumprimentos para verdadeiro. A inferência do tipo requer que a fonte de dados esteja acessível a partir do cálculo atual. Atualmente, a inferência do tipo só puxará as primeiras 200 linhas. Se os dados contiverem vários tipos de valor, é melhor fornecer o tipo desejado como uma sobreposição através de set_column_types argumento. Por favor, verifique se a secção de comentários é para obter amostras de código sobre set_column_types.

set_column_types
<xref:dict>[<xref:str>, DataType]

Um dicionário para definir o tipo de dados da coluna, onde a chave é o nome e o valor da coluna DataType é .

separator
<xref:str>

O separador costumava dividir colunas.

header
<xref:bool> ou PromoteHeadersBehavior

Controla a forma como os cabeçalhos das colunas são promovidos ao ler em ficheiros. Predefinições para True para todos os ficheiros com o mesmo cabeçalho. Os ficheiros serão lidos como não tendo cabeçalho Quando cabeçalho=Falso. Mais opções podem ser especificadas usando o valor enum de PromoteHeadersBehavior .

partition_format
<xref:str>

Especifique o formato de partição do caminho. Incumprimentos a Nenhum. A informação de partição de cada caminho será extraída em colunas com base no formato especificado. A parte do formato '{column_name}' cria coluna de cordas, e '{column_name:yyyy/MM/dd/HH/mm/ss}' cria coluna de data, onde 'yyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundo para o tipo de data. O formato deve partir-se da posição da primeira chave de partição até ao fim do percurso do ficheiro. Por exemplo, dado o caminho. /Contas/2019/01/01/data.csv' onde a partição é pelo nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' cria uma coluna de cordas 'Department' com o valor 'Contas' e uma coluna de data 'PartitionDate' com o valor '2019-01-01'.

support_multi_line
<xref:bool>

Por padrão (support_multi_line=Falso), todas as quebras de linha, incluindo as dos valores de campo citados, serão interpretadas como um recorde. Ler dados desta forma é mais rápido e otimizado para execução paralela em vários núcleos de CPU. No entanto, pode resultar na produção silenciosa de mais registos com valores de campo desalinhados. Isto deve ser definido para True quando os ficheiros delimitados são conhecidos por conter quebras de linha citadas.

Dado este ficheiro CSV como exemplo, os dados serão lidos de forma diferente com base em support_multi_line.

A,B,C A1,B1,C1 A2,"B 2",C2


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # default behavior: support_multi_line=False
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path)
   print(dataset.to_pandas_dataframe())
   #      A   B     C
   #  0  A1  B1    C1
   #  1  A2   B  None
   #  2  2"  C2  None

   # to handle quoted line breaks
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path,
                                                  support_multi_line=True)
   print(dataset.to_pandas_dataframe())
   #      A       B   C
   #  0  A1      B1  C1
   #  1  A2  B\r\n2  C2
empty_as_string
<xref:bool>

Especifique se os valores de campo vazios devem ser carregados como cordas vazias. O padrão (Falso) irá ler os valores do campo vazios como nulos. Passando isto como True vai ler valores de campo vazios como cordas vazias. Se os valores forem convertidos em numérico ou data, então isso não tem efeito, uma vez que os valores vazios serão convertidos em nulos.

encoding
<xref:str>

Especifique a codificação do ficheiro. As codificações apoiadas são 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' e 'windows1252'

Devoluções

Devolve um TabularDataset objeto.

Tipo de retorno

Observações

from_delimited_files cria um objeto de TabularDataset classe, que define as operações para carregar dados de ficheiros delimitados para representação tabular.

Para que os dados sejam acessíveis por Azure Machine Learning, os ficheiros delimitados especificados por caminho devem estar localizados dentro Datastore ou atrás de urls web públicos.

A criação de conjuntos de dados a partir de url de Blob, ADLS Gen1 e ADLS Gen2 são suportados agora (Preview), o token AAD dos utilizadores será usado em blocos de notas ou programas de python locais se ligar diretamente a uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do alvo de computação será usada em trabalhos submetidos pela Experiment. submeter-se à autenticação de acesso a dados. Saiba mais: https://aka.ms/data-access

Os tipos de dados da coluna são por padrão inferidos a partir de dados nos ficheiros delimitados. Desde set_column_types irá sobrepor-se ao tipo de dados para as colunas especificadas no SeparadorSet devolvido.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))

   # create tabular dataset from all csv files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
   tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.csv',
       'https://url/weather/2018/12.csv'
   ]
   tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)

from_json_lines_files

Criar um SeparadorDataset para representar dados tabulares nos ficheiros JSON Lines http://jsonlines.org/ ().

from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')

Parâmetros

path
<xref:typing.Union>[<xref:str>, list[<xref:str>], <xref:azureml.data.datapath.DataPath,builtin.list>[DataPath], (Datastore, <xref:str>)<xref:,builtin.list>[(Datastore, <xref:str>)]]

O caminho para os ficheiros de origem, que pode ser um único valor ou lista de cadeia de url DataPath http, objeto ou tuple de Datastore e caminho relativo.

validate
<xref:bool>

Boolean para validar se os dados podem ser carregados a partir do conjunto de dados devolvidos. Incumprimentos para verdadeiro. A validação requer que a fonte de dados esteja acessível a partir do cálculo atual.

include_path
<xref:bool>

Boolean para manter a informação do caminho como coluna no conjunto de dados. Incumprimentos ao Falso. Isto é útil ao ler vários ficheiros, e quer saber de que ficheiro um determinado registo teve origem ou para manter informações úteis no caminho do ficheiro.

set_column_types
<xref:dict>[<xref:str>, DataType]

Um dicionário para definir o tipo de dados da coluna, onde a chave é o nome e o valor da coluna é DataType

partition_format
<xref:str>

Especifique o formato de partição do caminho. Incumprimentos a Nenhum. A informação de partição de cada caminho será extraída em colunas com base no formato especificado. A parte do formato '{column_name}' cria coluna de cordas, e '{column_name:yyyy/MM/dd/HH/mm/ss}' cria coluna de data, onde 'yyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundo para o tipo de data. O formato deve partir-se da posição da primeira chave de partição até ao fim do percurso do ficheiro. Por exemplo, dado o caminho. /Contas/2019/01/01/data.jsonl' onde a partição é pelo nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' cria uma coluna de cordas 'Department' com o valor 'Contas' e uma coluna de datatime 'PartitionDate' com o valor '2019-01-01'.

invalid_lines
<xref:str>

Como lidar com linhas inválidas JSON. Os valores suportados são 'erro' e 'gota'.

encoding
<xref:str>

Especifique a codificação do ficheiro. As codificações apoiadas são 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' e 'windows1252'

Devoluções

Devolve um TabularDataset objeto.

Tipo de retorno

Observações

from_json_lines_files cria um objeto de TabularDataset classe, que define as operações para carregar dados dos ficheiros da JSON Lines em representação tabular.

Para que os dados sejam acessíveis por Azure Machine Learning, os ficheiros JSON Lines especificados por caminho devem estar localizados dentro Datastore ou atrás de urls web públicos.

A criação de conjuntos de dados a partir de url de Blob, ADLS Gen1 e ADLS Gen2 são suportados agora (Preview), o token AAD dos utilizadores será usado em blocos de notas ou programas de python locais se ligar diretamente a uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do alvo de computação será usada em trabalhos submetidos pela Experiment. submeter-se à autenticação de acesso a dados. Saiba mais: https://aka.ms/data-access

Os tipos de dados da coluna são lidos a partir de tipos de dados guardados nos ficheiros das Linhas JSON. Desde set_column_types irá sobrepor-se ao tipo de dados para as colunas especificadas no SeparadorSet devolvido.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))

   # create tabular dataset from all jsonl files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
   tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.jsonl',
       'https://url/weather/2018/12.jsonl'
   ]
   tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)

from_parquet_files

Crie um SeparadorDataset para representar dados tabulares em ficheiros Parquet.

from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)

Parâmetros

path
<xref:typing.Union>[<xref:str>, list[<xref:str>], <xref:azureml.data.datapath.DataPath,builtin.list>[DataPath], (Datastore, <xref:str>)<xref:,builtin.list>[(Datastore, <xref:str>)]]

O caminho para os ficheiros de origem, que pode ser um único valor ou lista de cadeia de url DataPath http, objeto ou tuple de Datastore e caminho relativo.

validate
<xref:bool>

Boolean para validar se os dados podem ser carregados a partir do conjunto de dados devolvidos. Incumprimentos para verdadeiro. A validação requer que a fonte de dados esteja acessível a partir do cálculo atual.

include_path
<xref:bool>

Boolean para manter a informação do caminho como coluna no conjunto de dados. Incumprimentos ao Falso. Isto é útil ao ler vários ficheiros, e quer saber de que ficheiro um determinado registo teve origem ou para manter informações úteis no caminho do ficheiro.

set_column_types
<xref:dict>[<xref:str>, DataType]

Um dicionário para definir o tipo de dados da coluna, onde a chave é o nome e o valor da coluna DataType é .

partition_format
<xref:str>

Especifique o formato de partição do caminho. Incumprimentos a Nenhum. A informação de partição de cada caminho será extraída em colunas com base no formato especificado. A parte do formato '{column_name}' cria coluna de cordas, e '{column_name:yyyy/MM/dd/HH/mm/ss}' cria coluna de data, onde 'yyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundo para o tipo de data. O formato deve partir-se da posição da primeira chave de partição até ao fim do percurso do ficheiro. Por exemplo, dado o caminho. /Contas/2019/01/data.parquet' onde a partição é por nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cordas 'Department' com o valor 'Contas' e uma coluna de data 'PartitionDate' com o valor '2019-01-01'.

Devoluções

Devolve um TabularDataset objeto.

Tipo de retorno

Observações

from_parquet_files cria um objeto de TabularDataset classe, que define as operações para carregar dados dos ficheiros Parquet em representação tabular.

Para que os dados sejam acessíveis por Azure Machine Learning, os ficheiros Parquet especificados por caminho devem estar localizados dentro Datastore ou atrás de urls web públicos.

A criação de conjuntos de dados a partir de url de Blob, ADLS Gen1 e ADLS Gen2 são suportados agora (Preview), o token AAD dos utilizadores será usado em blocos de notas ou programas de python locais se ligar diretamente a uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do alvo de computação será usada em trabalhos submetidos pela Experiment. submeter-se à autenticação de acesso a dados. Saiba mais: https://aka.ms/data-access

Os tipos de dados da coluna são lidos a partir de tipos de dados guardados nos ficheiros Parquet. Desde set_column_types irá sobrepor-se ao tipo de dados para as colunas especificadas no SeparadorSet devolvido.


   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))

   # create tabular dataset from all parquet files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
   tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.parquet',
       'https://url/weather/2018/12.parquet'
   ]
   tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)

from_sql_query

Crie um Conjunto De Dados Tabular para representar dados tabulares em bases de dados SQL.

from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)

Parâmetros

query
<xref:typing.Union>[DataPath, (Datastore, <xref:str>)]

Uma loja de dados tipo SQL e uma consulta.

validate
<xref:bool>

Boolean para validar se os dados podem ser carregados a partir do conjunto de dados devolvidos. Incumprimentos para verdadeiro. A validação requer que a fonte de dados esteja acessível a partir do cálculo atual.

set_column_types
<xref:dict>[<xref:str>, DataType]

Um dicionário para definir o tipo de dados da coluna, onde a chave é o nome e o valor da coluna DataType é .

query_timeout

Define o tempo de espera (em segundos) antes de terminar a tentativa de executar um comando e gerar um erro. A predefinição é 30 segundos.

Devoluções

Devolve um TabularDataset objeto.

Tipo de retorno

Observações

from_sql_query cria um objeto de TabularDataset classe, que define as operações para carregar dados de SQL bases de dados em representação tabular. Atualmente, apenas apoiamos o MSSQLDataSource.

Para que os dados sejam acessíveis por Azure Machine Learning, a base de dados SQL especificada query deve ser localizada e o tipo de Datastore datastore deve ser de tipo SQL.

Os tipos de dados da coluna são lidos a partir de tipos de dados no resultado da consulta SQL. O fornecimento set_column_types irá sobrepor-se ao tipo de dados para as colunas especificadas no Separadors Separadores devolvidos.


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # create tabular dataset from a SQL database in datastore
   datastore = Datastore.get(workspace, 'mssql')
   query = DataPath(datastore, 'SELECT * FROM my_table')
   tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
   df = tabular.to_pandas_dataframe()

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)

register_dask_dataframe

Nota

Este é um método experimental, e pode mudar a qualquer momento. Por favor, consulte https://aka.ms/azuremlexperimental mais informações.

Crie um conjunto de dados a partir do dataframe dask.

register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parâmetros

dataframe
<xref:dask.dataframe.core.DataFrame>

Necessário, o dataframe dask para ser carregado.

target
<xref:typing.Union>[DataPath, <xref:azureml.core.datastore.Datastore,tuple>(Datastore, <xref:str>)]

Necessário, a trajetória da datastore para onde os dados do dataframe parquet serão carregados para. Uma pasta orientadora será gerada no caminho-alvo para evitar conflitos.

name
<xref:str>

Necessário, o nome do conjunto de dados registado.

description
<xref:str>

Opcional. Uma descrição de texto do conjunto de dados. Incumprimentos a Nenhum.

tags
<xref:dict>[<xref:str>, <xref:str>]

Opcional. Dicionário de etiquetas de valor chave para dar o conjunto de dados. Incumprimentos a Nenhum.

show_progress
<xref:bool>

Opcional, indica se deve mostrar o progresso do upload na consola. Os predefinidos são verdadeiros.

Devoluções

O conjunto de dados registado.

Tipo de retorno

register_pandas_dataframe

Nota

Este é um método experimental, e pode mudar a qualquer momento. Por favor, consulte https://aka.ms/azuremlexperimental mais informações.

Crie um conjunto de dados a partir do dataframe dos pandas.

register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parâmetros

dataframe
DataFrame

Necessário, no quadro de dados de memória a ser carregado.

target
<xref:typing.Union>[DataPath, <xref:azureml.core.datastore.Datastore,tuple>(Datastore, <xref:str>)]

Necessário, a trajetória da datastore para onde os dados do dataframe parquet serão carregados para. Uma pasta orientadora será gerada no caminho-alvo para evitar conflitos.

name
<xref:str>

Necessário, o nome do conjunto de dados registado.

description
<xref:str>

Opcional. Uma descrição de texto do conjunto de dados. Incumprimentos a Nenhum.

tags
<xref:dict>[<xref:str>, <xref:str>]

Opcional. Dicionário de etiquetas de valor chave para dar o conjunto de dados. Incumprimentos a Nenhum.

show_progress
<xref:bool>

Opcional, indica se deve mostrar o progresso do upload na consola. Os predefinidos são verdadeiros.

Devoluções

O conjunto de dados registado.

Tipo de retorno

register_spark_dataframe

Nota

Este é um método experimental, e pode mudar a qualquer momento. Por favor, consulte https://aka.ms/azuremlexperimental mais informações.

Crie um conjunto de dados a partir do dataframe de faíscas.

register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parâmetros

dataframe
DataFrame

Necessário, no quadro de dados de memória a ser carregado.

target
<xref:typing.Union>[DataPath, <xref:azureml.core.datastore.Datastore,tuple>(Datastore, <xref:str>)]

Necessário, a trajetória da datastore para onde os dados do dataframe parquet serão carregados para. Uma pasta orientadora será gerada no caminho-alvo para evitar conflitos.

name
<xref:str>

Necessário, o nome do conjunto de dados registado.

description
<xref:str>

Opcional. Uma descrição de texto do conjunto de dados. Incumprimentos a Nenhum.

tags
<xref:dict>[<xref:str>, <xref:str>]

Opcional. Dicionário de etiquetas de valor chave para dar o conjunto de dados. Incumprimentos a Nenhum.

show_progress
<xref:bool>

Opcional, indica se deve mostrar o progresso do upload na consola. Os predefinidos são verdadeiros.

Devoluções

O conjunto de dados registado.

Tipo de retorno