PipelineOutputFileDataset Classe

Representa dados intermediários de pipeline promovidos para um conjunto de dados de arquivos do Azure Machine Learning.

Depois que um dado intermediário for promovido para um conjunto de dados do Azure Machine Learning, eles também serão consumidos como um conjunto de dados em vez de uma DataReference nas etapas subsequentes.

Crie dados intermediários que serão promovidos para um Conjunto de Dados do Azure Machine Learning.

Herança
PipelineOutputFileDataset

Construtor

PipelineOutputFileDataset(pipeline_data)

Parâmetros

pipeline_data
PipelineData
Obrigatório

O PipelineData que representa a saída intermediária que será promovida a um conjunto de dados.

pipeline_data
PipelineData
Obrigatório

O PipelineData que representa a saída intermediária que será promovida a um conjunto de dados.

Métodos

as_direct

Defina a entrada do modo de consumo do conjunto de dados para direto.

Nesse modo, você obterá s ID do conjunto de dados e em seu script poderá chamar Dataset.get_by_id para recuperar o conjunto de dados. run.input_datasets['{dataset_name}'] retornará o conjunto de dados.

as_download

Defina o modo de consumo do conjunto de dados para download.

as_mount

Define o modo de consumo do conjunto de dados a ser montado.

parse_delimited_files

Transforma o conjunto de dados de arquivo intermediário em um conjunto de dados tabular.

O conjunto de dados tabular é criado analisando os arquivos delimitados apontados pela saída intermediária.

parse_parquet_files

Transforma o conjunto de dados de arquivo intermediário em um conjunto de dados tabular.

O conjunto de dados tabular é criado analisando os arquivos parquet apontados pela saída intermediária.

as_direct

Defina a entrada do modo de consumo do conjunto de dados para direto.

Nesse modo, você obterá s ID do conjunto de dados e em seu script poderá chamar Dataset.get_by_id para recuperar o conjunto de dados. run.input_datasets['{dataset_name}'] retornará o conjunto de dados.

as_direct()

Retornos

O PipelineOutputDataset modificado.

Tipo de retorno

as_download

Defina o modo de consumo do conjunto de dados para download.

as_download(path_on_compute=None)

Parâmetros

path_on_compute
str
valor padrão: None

O caminho na computação para o download do conjunto de dados. O padrão é None, o que significa que o Azure Machine Learning escolhe um caminho para você.

Retornos

O PipelineOutputDataset modificado.

Tipo de retorno

as_mount

Define o modo de consumo do conjunto de dados a ser montado.

as_mount(path_on_compute=None)

Parâmetros

path_on_compute
str
valor padrão: None

O caminho na computação para montar o conjunto de dados. O padrão é None, o que significa que o Azure Machine Learning escolhe um caminho para você.

Retornos

O PipelineOutputDataset modificado.

Tipo de retorno

parse_delimited_files

Transforma o conjunto de dados de arquivo intermediário em um conjunto de dados tabular.

O conjunto de dados tabular é criado analisando os arquivos delimitados apontados pela saída intermediária.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Parâmetros

include_path
bool
valor padrão: False

Booliano para manter as informações do caminho como coluna no conjunto de dados. Usa False como padrão. É útil ao ler vários arquivos e quer saber de qual arquivo um registro específico foi originado, ou para manter informações úteis no caminho do arquivo.

separator
str
valor padrão: ,

O separador usado para dividir colunas.

header
PromoteHeadersBehavior
valor padrão: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Controla como cabeçalhos de coluna são promovidos durante a leitura de arquivos. Padrões para assumir que todos os arquivos têm o mesmo cabeçalho.

partition_format
str
valor padrão: None

Especifique o formato de partição do caminho. Assume o valor padrão de Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. A parte do formato '{column_name}' cria uma coluna de cadeia de caracteres e '{column_name:yyyy/MM/dd/HH/mm/ss}' cria a coluna datetime, na qual 'yyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundos para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dando o caminho '../Accounts/2019/01/01/data.csv' em que a partição é por hora e nome do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 'Department' com o valor 'Accounts' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'.

file_extension
str
Obrigatório

A extensão de arquivo dos arquivos a serem lidos. Somente arquivos com esta extensão serão lidos do diretório. O valor padrão será '.csv' quando o separador for ',' e '.tsv' quando o separador for Tab e, caso contrário, será None. Se None for passado, todos os arquivos serão lidos independentemente da extensão (ou falta de extensão).

set_column_types
dict[str, DataType]
valor padrão: None

Um dicionário para definir o tipo de dados da coluna, em que a chave é o nome da coluna e o valor DataType. As colunas que não estão no dicionário permanecerão do tipo de cadeia de caracteres. Passar None não resultará em conversões. As entradas para colunas não localizadas nos dados de origem não causarão erro e serão ignoradas.

quoted_line_breaks
bool
valor padrão: False

Se deverá manipular novos caracteres de linha entre aspas. Essa opção pode afetar o desempenho.

Retornos

Retorna um dado intermediário que será um conjunto de dados tabular.

Tipo de retorno

Comentários

Essa transformação somente será aplicada quando os dados intermediários forem consumidos como entrada da etapa subsequente. Isso não terá efeitos na saída, mesmo se for passada para a saída.

parse_parquet_files

Transforma o conjunto de dados de arquivo intermediário em um conjunto de dados tabular.

O conjunto de dados tabular é criado analisando os arquivos parquet apontados pela saída intermediária.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Parâmetros

include_path
bool
valor padrão: False

Booliano para manter as informações do caminho como coluna no conjunto de dados. Usa False como padrão. É útil ao ler vários arquivos e quer saber de qual arquivo um registro específico foi originado, ou para manter informações úteis no caminho do arquivo.

partition_format
str
valor padrão: None

Especifique o formato de partição do caminho. Assume o valor padrão de Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. A parte do formato '{column_name}' cria uma coluna de cadeia de caracteres e '{column_name:yyyy/MM/dd/HH/mm/ss}' cria a coluna datetime, na qual 'yyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundos para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, considerando o caminho '../Accounts/2019/01/01/data.parquet' em que a partição é por hora e nome do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia de caracteres 'Department' com o valor 'Accounts' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'.

file_extension
str
valor padrão: .parquet

A extensão de arquivo dos arquivos a serem lidos. Somente arquivos com esta extensão serão lidos do diretório. O valor padrão é '.parquet'. Se estiver definido como None, todos os arquivos serão lidos, independentemente da extensão (ou falta de extensão).

set_column_types
dict[str, DataType]
valor padrão: None

Um dicionário para definir o tipo de dados da coluna, em que a chave é o nome da coluna e o valor DataType. As colunas que não estiverem no dicionário permanecerão do tipo carregado do arquivo parquet. Passar None não resultará em conversões. As entradas para colunas não localizadas nos dados de origem não causarão erro e serão ignoradas.

Retornos

Retorna um dado intermediário que será um conjunto de dados tabular.

Tipo de retorno

Comentários

Essa transformação somente será aplicada quando os dados intermediários forem consumidos como entrada da etapa subsequente. Isso não terá efeitos na saída, mesmo se for passada para a saída.