PipelineOutputTabularDataset Classe

Representar os dados intermediários do pipeline promovidos a um conjunto de dados tabular do Azure Machine Learning.

Depois que um dado intermediário for promovido para um conjunto de dados do Azure Machine Learning, eles também serão consumidos como um conjunto de dados em vez de uma DataReference nas etapas subsequentes.

Crie dados intermediários que serão promovidos a um Conjunto de Dados do Azure Machine Learning.

Herança
PipelineOutputTabularDataset

Construtor

PipelineOutputTabularDataset(pipeline_output_dataset, additional_transformations)

Parâmetros

pipeline_output_dataset
PipelineOutputFileDataset
Obrigatório

O conjunto de dados de arquivo que representa a saída intermediária que será transformada em um conjunto de dados tabular.

additional_transformations
<xref:azureml.dataprep.Dataflow>
Obrigatório

Transformações adicionais que serão aplicadas sobre o conjuntos de dados do arquivo.

pipeline_output_dataset
PipelineOutputFileDataset
Obrigatório

O conjunto de dados de arquivo que representa a saída intermediária que será transformada em um conjunto de dados tabular.

additional_transformations
<xref:azureml.dataprep.Dataflow>
Obrigatório

Transformações adicionais que serão aplicadas sobre o conjuntos de dados do arquivo.

Métodos

create_input_binding

Criar uma associação de entrada.

drop_columns

Remove as colunas especificadas do conjunto de dados.

keep_columns

Mantém as colunas especificadas e remove todas as outras do conjunto de dados.

random_split

Divide os registros no conjunto de dados em duas partes aleatoriamente e aproximadamente pelo percentual especificado.

create_input_binding

Criar uma associação de entrada.

create_input_binding()

Retornos

O InputPortBinding com esse PipelineData como origem.

Tipo de retorno

drop_columns

Remove as colunas especificadas do conjunto de dados.

drop_columns(columns)

Parâmetros

columns
str ou list[str]
Obrigatório

O nome ou uma lista de nomes para as colunas a serem removidas.

Retornos

Retorna novos dados intermediários com apenas as colunas especificadas removidas.

Tipo de retorno

keep_columns

Mantém as colunas especificadas e remove todas as outras do conjunto de dados.

keep_columns(columns)

Parâmetros

columns
str ou list[str]
Obrigatório

O nome ou uma lista de nomes para as colunas a serem mantidas.

Retornos

Retorna novos dados intermediários com apenas as colunas especificadas mantidas.

Tipo de retorno

random_split

Divide os registros no conjunto de dados em duas partes aleatoriamente e aproximadamente pelo percentual especificado.

random_split(percentage, seed=None)

Parâmetros

percentage
float
Obrigatório

A porcentagem aproximada para dividir o conjunto de dados. Precisa ser um número entre 0.0 e 1.0.

seed
int
valor padrão: None

Semente opcional a ser usada para o gerador aleatório.

Retornos

Retorna uma tupla de novos objetos TabularDataset que representam os dois conjuntos de dados após a divisão.

Tipo de retorno