TabularDataset Classe

Representa um conjunto de tabelas de tabela a ser usado no Azure Machine Learning.

Um TabularDataset define uma série de operações imutáveis avaliadas lentamente para carregar dados da fonte de dados para representação tabular. Os dados não são carregados da origem até que TabularDataset seja solicitado a entregar dados.

TabularDataset é criado usando métodos como from_delimited_files a partir da TabularDatasetFactory classe.

Para obter mais informações, consulte o artigo adicionar & registrar conjuntosde dados. Para começar a trabalhar com um conjunto de uma tabela, consulte https://aka.ms/tabulardataset-samplenotebook .

Herança
TabularDataset

Construtor

TabularDataset()

Comentários

Um TabularDataset pode ser criado por meio de arquivos CSV, TSV, parquet ou consulta SQL usando os from_* métodos da TabularDatasetFactory classe. Você pode executar operações de subconfiguração em um TabularDataset como divisão, ignorar e filtrar registros. O resultado da subconfiguração é sempre um ou mais objetos TabularDataset novos.

Você também pode converter um TabularDataset em outros formatos, como um dataframe do pandas. O carregamento de dados real ocorre quando o TabularDataset é solicitado a entregar os dados em outro mecanismo de armazenamento (por exemplo, um data frame do pandas ou um arquivo CSV).

TabularDataset pode ser usado como entrada de uma execução de experimento. Ele também pode ser registrado no espaço de trabalho com um nome especificado e ser recuperado por esse nome posteriormente.

Métodos

drop_columns

Descartar as colunas especificadas do conjunto de linhas.

Se uma coluna timeseries for descartada, os recursos correspondentes também serão removidos para o conjunto de recursos retornado.

filter

Observação

Esse é um método experimental e pode ser alterado a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.

Filtre os dados, deixando apenas os registros que correspondam à expressão especificada.

get_profile

Observação

Esse é um método experimental e pode mudar a qualquer momento. Consulte para https://aka.ms/azuremlexperimental obter mais informações.

Obter perfil de dados da última análise de perfil enviada para este ou o mesmo conjuntos de dados no workspace.

get_profile_runs

Observação

Esse é um método experimental e pode mudar a qualquer momento. Consulte para https://aka.ms/azuremlexperimental obter mais informações.

Retornar as executações de perfil anteriores associadas a este ou ao mesmo conjuntos de dados no workspace.

keep_columns

Mantenha as colunas especificadas e descarte todas as outras do conjunto de um.

Se uma coluna timeseries for descartada, os recursos correspondentes também serão removidos para o conjunto de recursos retornado.

partition_by

Observação

Esse é um método experimental e pode ser alterado a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.

Os dados particionados serão copiados e saída para o destino especificado pelo destino.

Crie o conjunto de dados a partir do caminho de dado de saída com o formato de partição, registre o conjunto de dados se o nome for fornecido, retorne o DataSet para o novo caminho de dado com partições


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset
random_split

Divida os registros no conjunto de recursos em duas partes aleatoriamente e aproximadamente pela porcentagem especificada.

O primeiro conjuntos de dados contém aproximadamente percentage o total de registros e o segundo conjuntos de dados dos registros restantes.

skip

Ignore os registros da parte superior do conjuntos de dados pela contagem especificada.

submit_profile_run

Observação

Esse é um método experimental e pode mudar a qualquer momento. Consulte para https://aka.ms/azuremlexperimental obter mais informações.

Envie uma corrida de experimentação para calcular o perfil de dados.

Um perfil de dados pode ser muito útil para entender os dados de entrada, identificar anomalias e valores ausentes fornecendo informações úteis sobre os dados como tipo de coluna, valores ausentes etc.

take

Pegue uma amostra de registros da parte superior do conjuntos de dados pela contagem especificada.

take_sample

Use uma amostra aleatória de registros no conjunto de recursos aproximadamente pela probabilidade especificada.

time_after

Filtrar TabularDataset com colunas de carimbo de data/hora após uma hora de início especificada.

time_before

Filtrar TabularDataset com colunas de carimbo de data/hora antes de uma hora de término especificada.

time_between

Filtrar TabularDataset entre uma hora de início e de término especificada.

time_recent

Filtre TabularDataset para conter apenas a duração especificada (quantidade) de dados recentes.

to_csv_files

Converta o conjuntos de dados atual em um FileDataset que contém arquivos CSV.

O conjuntos de dados resultante conterá um ou mais arquivos CSV, cada um correspondendo a uma partição de dados do conjuntos de dados atual. Esses arquivos não são materializados até que sejam baixados ou lidos.

to_dask_dataframe

Observação

Esse é um método experimental e pode mudar a qualquer momento. Consulte para https://aka.ms/azuremlexperimental obter mais informações.

Retornar um DataFrame do Dask que possa ler os dados no conjuntos de dados de forma mais simples.

to_pandas_dataframe

Carregar todos os registros do conjunto de um em um dataframe do pandas.

to_parquet_files

Converta o conjunto de dados atual em um filedataset que contenha arquivos parquet.

O conjunto de dados resultante conterá um ou mais arquivos parquet, cada um deles correspondendo a uma partição de dado do conjunto atual. Esses arquivos não são materializados até que sejam baixados ou lidos.

to_spark_dataframe

Carregar todos os registros do conjunto de um em um dataframe do Spark.

with_timestamp_columns

Defina as colunas timestamp para o conjunto de data.

drop_columns

Descartar as colunas especificadas do conjunto de linhas.

Se uma coluna timeseries for descartada, os recursos correspondentes também serão removidos para o conjunto de recursos retornado.

drop_columns(columns)

Parâmetros

columns
<xref:typing.Union>[<xref:str>, list[<xref:str>]]

O nome ou uma lista de nomes para as colunas a serem descartadas.

Retornos

Retorna um novo objeto TabularDataset com as colunas especificadas descartadas.

Tipo de retorno

filter

Observação

Esse é um método experimental e pode ser alterado a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.

Filtre os dados, deixando apenas os registros que correspondam à expressão especificada.

filter(expression)

Parâmetros

expression
<xref:any>

A expressão a ser avaliada.

Retornos

O conjuntos de dados modificado (não registro).

Tipo de retorno

Comentários

As expressões são iniciadas indexando o dataset com o nome de uma coluna. Eles suportam uma variedade de funções e operadores e podem ser combinados usando operadores lógicos. A expressão resultante será avaliada de formazida para cada registro quando ocorrer um pull de dados e não onde ele estiver definido.


   dataset['myColumn'] > dataset['columnToCompareAgainst']
   dataset['myColumn'].starts_with('prefix')

get_profile

Observação

Esse é um método experimental e pode mudar a qualquer momento. Consulte para https://aka.ms/azuremlexperimental obter mais informações.

Obter perfil de dados da última análise de perfil enviada para este ou o mesmo conjuntos de dados no workspace.

get_profile(workspace=None)

Parâmetros

workspace
Workspace

O workspace em que a análise de perfil foi enviada. O padrão é o workspace deste conjuntos de dados. Necessário se o conjuntos de dados não estiver associado a um workspace. Consulte https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace para obter mais informações sobre workspaces.

Retornos

Resultado do perfil da última sequência de perfil do tipo DatasetProfile.

Tipo de retorno

get_profile_runs

Observação

Esse é um método experimental e pode mudar a qualquer momento. Consulte para https://aka.ms/azuremlexperimental obter mais informações.

Retornar as executações de perfil anteriores associadas a este ou ao mesmo conjuntos de dados no workspace.

get_profile_runs(workspace=None)

Parâmetros

workspace
Workspace

O workspace em que a análise de perfil foi enviada. O padrão é o workspace deste conjuntos de dados. Necessário se o conjuntos de dados não estiver associado a um workspace. Consulte https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace para obter mais informações sobre workspaces.

Retornos

objeto iterador do tipo azureml.core.Run.

Tipo de retorno

<xref:iter>(Run)

keep_columns

Mantenha as colunas especificadas e descarte todas as outras do conjunto de um.

Se uma coluna timeseries for descartada, os recursos correspondentes também serão removidos para o conjunto de recursos retornado.

keep_columns(columns, validate=False)

Parâmetros

columns
<xref:typing.Union>[<xref:str>, list[<xref:str>]]

O nome ou uma lista de nomes para as colunas a serem mantidas.

validate
<xref:bool>

Indica se é necessário validar se os dados podem ser carregados a partir do DataSet retornado. O padrão é False. A validação requer que a fonte de dados esteja acessível a partir da computação atual.

Retornos

Retorna um novo objeto TabularDataset com apenas as colunas especificadas mantidas.

Tipo de retorno

partition_by

Observação

Esse é um método experimental e pode ser alterado a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.

Os dados particionados serão copiados e saída para o destino especificado pelo destino.

Crie o conjunto de dados a partir do caminho de dado de saída com o formato de partição, registre o conjunto de dados se o nome for fornecido, retorne o DataSet para o novo caminho de dado com partições


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset
partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)

Parâmetros

partition_keys
list[<xref:str>]

Obrigatório, chaves de partição

target
DataPath, Datastore ou <xref:tuple>(Datastore, <xref:str>)<xref: object>

Necessário, o caminho do repositório de dados no qual os data frame parquet serão carregados. Uma pasta GUID será gerada no caminho de destino para evitar conflitos.

name
<xref:str>

Opcional, o nome de registro.

show_progress
<xref:bool>

Opcional, indica se o progresso do upload deve ser mostrado no console. O padrão é true.

partition_as_file_dataset

Opcional, indica se o retorna um filedataset ou não. O padrão é false.

Retornos

O DataSet salvo ou registrado.

Tipo de retorno

random_split

Divida os registros no conjunto de recursos em duas partes aleatoriamente e aproximadamente pela porcentagem especificada.

O primeiro conjuntos de dados contém aproximadamente percentage o total de registros e o segundo conjuntos de dados dos registros restantes.

random_split(percentage, seed=None)

Parâmetros

percentage
<xref:float>

O percentual aproximado pelo o que dividir o conjuntos de dados. Esse deve ser um número entre 0,0 e 1,0.

seed
<xref:int>

Semente opcional a ser usada para o gerador aleatório.

Retornos

Retorna uma tupla de novos objetos TabularDataset que representam os dois conjuntos de dados após a divisão.

Tipo de retorno

skip

Ignore os registros da parte superior do conjuntos de dados pela contagem especificada.

skip(count)

Parâmetros

count
<xref:int>

O número de registros a ser ignorados.

Retornos

Retorna um novo objeto TabularDataset que representa um conjuntos de dados com registros ignorados.

Tipo de retorno

submit_profile_run

Observação

Esse é um método experimental e pode mudar a qualquer momento. Consulte para https://aka.ms/azuremlexperimental obter mais informações.

Envie uma corrida de experimentação para calcular o perfil de dados.

Um perfil de dados pode ser muito útil para entender os dados de entrada, identificar anomalias e valores ausentes fornecendo informações úteis sobre os dados como tipo de coluna, valores ausentes etc.

submit_profile_run(compute_target, experiment)

Parâmetros

compute_target
<xref:typing.Union>[<xref:str>, ComputeTarget]

O destino de computação para executar o teste de cálculo de perfil. Especifique 'local' para usar a computação local. Consulte https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget para obter mais informações sobre destinos de computação.

experiment
Experiment

O objeto de experimento. Confira https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment para obter mais informações sobre experimentos.

Retornos

Um objeto do tipo classe DatasetProfileRun.

Tipo de retorno

take

Pegue uma amostra de registros da parte superior do conjuntos de dados pela contagem especificada.

take(count)

Parâmetros

count
<xref:int>

O número de registros a levar.

Retornos

Retorna um novo objeto TabularDataset que representa o conjuntos de dados amostrado.

Tipo de retorno

take_sample

Use uma amostra aleatória de registros no conjunto de recursos aproximadamente pela probabilidade especificada.

take_sample(probability, seed=None)

Parâmetros

probability
<xref:float>

A probabilidade de um registro ser incluído no exemplo.

seed
<xref:int>

Semente opcional a ser usada para o gerador aleatório.

Retornos

Retorna um novo objeto TabularDataset que representa o conjunto de exemplo.

Tipo de retorno

time_after

Filtrar TabularDataset com colunas de carimbo de data/hora após uma hora de início especificada.

time_after(start_time, include_boundary=True, validate=True)

Parâmetros

start_time
<xref:datetime.datetime>

O limite inferior para filtrar dados.

include_boundary
<xref:bool>

Indique se a linha associada à hora de limite ( start_time ) deve ser incluída.

validate
<xref:bool>

Indica se deve-se validar se as colunas especificadas existem no conjunto de linhas. O padrão é True. A validação requer que a fonte de dados esteja acessível a partir da computação atual.

Retornos

Um TabularDataset com o novo DataSet filtrado.

Tipo de retorno

time_before

Filtrar TabularDataset com colunas de carimbo de data/hora antes de uma hora de término especificada.

time_before(end_time, include_boundary=True, validate=True)

Parâmetros

end_time
<xref:datetime.datetime>

Limite superior para filtrar dados.

include_boundary
<xref:bool>

Indique se a linha associada à hora de limite ( end_time ) deve ser incluída.

validate
<xref:bool>

Indica se deve-se validar se as colunas especificadas existem no conjunto de linhas. O padrão é True. A validação requer que a fonte de dados esteja acessível a partir da computação atual.

Retornos

Um TabularDataset com o novo DataSet filtrado.

Tipo de retorno

time_between

Filtrar TabularDataset entre uma hora de início e de término especificada.

time_between(start_time, end_time, include_boundary=True, validate=True)

Parâmetros

start_time
<xref:datetime.datetime>

O limite inferior para filtrar dados.

end_time
<xref:datetime.datetime>

O limite superior para filtrar dados.

include_boundary
<xref:bool>

Indique se a linha associada à hora de limite ( start_end e end_time ) deve ser incluída.

validate
<xref:bool>

Indica se as colunas especificadas serão validadas se existirem no conjuntos de dados. O padrão é True. A validação exige que a fonte de dados seja acessível da computação atual.

Retornos

Um TabularDataset com o novo conjuntos de dados filtrado.

Tipo de retorno

time_recent

Filtre TabularDataset para conter apenas a duração especificada (quantidade) de dados recentes.

time_recent(time_delta, include_boundary=True, validate=True)

Parâmetros

time_delta
<xref:datetime.timedelta>

A duração (quantidade) de dados recentes a recuperar.

include_boundary
<xref:bool>

Indique se a linha associada ao tempo de limite ( time_delta ) deve ser incluída.

validate
<xref:bool>

Indica se as colunas especificadas serão validadas se existirem no conjuntos de dados. O padrão é True. A validação exige que a fonte de dados seja acessível da computação atual.

Retornos

Um TabularDataset com o novo conjuntos de dados filtrado.

Tipo de retorno

to_csv_files

Converta o conjuntos de dados atual em um FileDataset que contém arquivos CSV.

O conjuntos de dados resultante conterá um ou mais arquivos CSV, cada um correspondendo a uma partição de dados do conjuntos de dados atual. Esses arquivos não são materializados até que sejam baixados ou lidos.

to_csv_files(separator=',')

Parâmetros

separator
<xref:str>

O separador a ser usado para separar valores no arquivo resultante.

Retornos

Retorna um novo objeto FileDataset com um conjunto de arquivos CSV que contêm os dados neste conjunto de dados.

Tipo de retorno

to_dask_dataframe

Observação

Esse é um método experimental e pode mudar a qualquer momento. Consulte para https://aka.ms/azuremlexperimental obter mais informações.

Retornar um DataFrame do Dask que possa ler os dados no conjuntos de dados de forma mais simples.

to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')

Parâmetros

sample_size

O número de registros a ler para determinar o esquema e os tipos.

dtypes

Um ditado opcional que especifica as colunas esperadas e seus dtypes. sample_size será ignorado se isso for fornecido.

on_error

Como lidar com quaisquer valores de erro no conjunto de valores, como aqueles produzidos por um erro durante a análise de valor. Os valores válidos são ' NULL ', que os substitui por nulo; e ' fail ', que resultará em uma exceção.

out_of_range_datetime

Como lidar com valores de data e hora que estão fora do intervalo suportado pelo pandas. Os valores válidos são ' NULL ', que os substitui por nulo; e ' fail ', que resultará em uma exceção.

Retornos

Dask. dataframe. Core. dataframe

to_pandas_dataframe

Carregar todos os registros do conjunto de um em um dataframe do pandas.

to_pandas_dataframe(on_error='null', out_of_range_datetime='null')

Parâmetros

on_error

Como lidar com quaisquer valores de erro no conjunto de valores, como aqueles produzidos por um erro durante a análise de valor. Os valores válidos são ' NULL ', que os substitui por nulo; e ' fail ', que resultará em uma exceção.

out_of_range_datetime

Como lidar com valores de data e hora que estão fora do intervalo suportado pelo pandas. Os valores válidos são ' NULL ', que os substitui por nulo; e ' fail ', que resultará em uma exceção.

Retornos

Retorna um dataframe do pandas.

Tipo de retorno

to_parquet_files

Converta o conjunto de dados atual em um filedataset que contenha arquivos parquet.

O conjunto de dados resultante conterá um ou mais arquivos parquet, cada um deles correspondendo a uma partição de dado do conjunto atual. Esses arquivos não são materializados até que sejam baixados ou lidos.

to_parquet_files()

Retornos

Retorna um novo objeto filedataset com um conjunto de arquivos parquet que contém os dados neste conjunto de dados.

Tipo de retorno

to_spark_dataframe

Carregar todos os registros do conjunto de um em um dataframe do Spark.

to_spark_dataframe()

Retornos

Retorna um dataframe do Spark.

Tipo de retorno

with_timestamp_columns

Defina as colunas timestamp para o conjunto de data.

with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)

Parâmetros

timestamp
<xref:str>

O nome da coluna como carimbo de data/hora (usado para ser chamado de fine_grain_timestamp) (opcional). O padrão é None (Clear).

partition_timestamp
<xref:str>

O nome da coluna partition_timestamp (usado para ser chamado de timestamp de granulação alta) (opcional). O padrão é None(clear).

validate
<xref:bool>

Indica se as colunas especificadas serão validadas se existirem no conjuntos de dados. O padrão é False. A validação exige que a fonte de dados seja acessível da computação atual.

Retornos

Retorna um novo TabularDataset com colunas de timestamp definidas.

Tipo de retorno

Comentários

O método define colunas a serem usadas como timestamps. As colunas de timestamp em um conjuntos de dados possibilitam tratar os dados como dados de série temporização e habilitar recursos adicionais. Quando um conjuntos de dados tiver timestamp (used to be referred as fine_grain_timestamp) partition_timestamp (used to be referred as coarse grain timestamp) e especificado, as duas colunas deverão representar a mesma linha do tempo.

Atributos

timestamp_columns

Retornar as colunas de timestamp.

Retornos

Os nomes de coluna para timestamp (usados para serem chamados de fine_grain_timestamp) e partition_timestamp (usados para serem chamados de timestamp de granulação alta) definidos para o conjuntos de dados.

Tipo de retorno

(<xref:str>, <xref:str>)