PipelineOutputFileDataset Classe

Referência

Representa dados intermediários de pipeline promovidos para um conjunto de dados de arquivos do Azure Machine Learning.

Depois que um dado intermediário for promovido para um conjunto de dados do Azure Machine Learning, eles também serão consumidos como um conjunto de dados em vez de uma DataReference nas etapas subsequentes.

Crie dados intermediários que serão promovidos para um Conjunto de Dados do Azure Machine Learning.

Herança: PipelineOutputAbstractDataset

PipelineOutputFileDataset

Construtor

PipelineOutputFileDataset(pipeline_data)

Parâmetros

pipeline_data: PipelineData

Obrigatório

O PipelineData que representa a saída intermediária que será promovida a um conjunto de dados.

pipeline_data: PipelineData

Obrigatório

O PipelineData que representa a saída intermediária que será promovida a um conjunto de dados.

Métodos

as_direct	Defina a entrada do modo de consumo do conjunto de dados para direto. Nesse modo, você obterá s ID do conjunto de dados e em seu script poderá chamar Dataset.get_by_id para recuperar o conjunto de dados. run.input_datasets['{dataset_name}'] retornará o conjunto de dados.
as_download	Defina o modo de consumo do conjunto de dados para download.
as_mount	Define o modo de consumo do conjunto de dados a ser montado.
parse_delimited_files	Transforma o conjunto de dados de arquivo intermediário em um conjunto de dados tabular. O conjunto de dados tabular é criado analisando os arquivos delimitados apontados pela saída intermediária.
parse_parquet_files	Transforma o conjunto de dados de arquivo intermediário em um conjunto de dados tabular. O conjunto de dados tabular é criado analisando os arquivos parquet apontados pela saída intermediária.

as_direct

Defina a entrada do modo de consumo do conjunto de dados para direto.

Nesse modo, você obterá s ID do conjunto de dados e em seu script poderá chamar Dataset.get_by_id para recuperar o conjunto de dados. run.input_datasets['{dataset_name}'] retornará o conjunto de dados.

as_direct()

Retornos

O PipelineOutputDataset modificado.

Tipo de retorno

PipelineOutputFileDataset

as_download

Defina o modo de consumo do conjunto de dados para download.

as_download(path_on_compute=None)

Parâmetros

path_on_compute: str

valor padrão: None

O caminho na computação para o download do conjunto de dados. O padrão é None, o que significa que o Azure Machine Learning escolhe um caminho para você.

Retornos

O PipelineOutputDataset modificado.

Tipo de retorno

PipelineOutputFileDataset

as_mount

Define o modo de consumo do conjunto de dados a ser montado.

as_mount(path_on_compute=None)

Parâmetros

path_on_compute: str

valor padrão: None

O caminho na computação para montar o conjunto de dados. O padrão é None, o que significa que o Azure Machine Learning escolhe um caminho para você.

Retornos

O PipelineOutputDataset modificado.

Tipo de retorno

PipelineOutputFileDataset

parse_delimited_files

Transforma o conjunto de dados de arquivo intermediário em um conjunto de dados tabular.

O conjunto de dados tabular é criado analisando os arquivos delimitados apontados pela saída intermediária.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Parâmetros

include_path: bool

valor padrão: False

Booliano para manter as informações do caminho como coluna no conjunto de dados. Usa False como padrão. É útil ao ler vários arquivos e quer saber de qual arquivo um registro específico foi originado, ou para manter informações úteis no caminho do arquivo.

separator: str

valor padrão: ,

O separador usado para dividir colunas.

header: PromoteHeadersBehavior

valor padrão: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Controla como cabeçalhos de coluna são promovidos durante a leitura de arquivos. Padrões para assumir que todos os arquivos têm o mesmo cabeçalho.

partition_format: str

valor padrão: None

Especifique o formato de partição do caminho. Assume o valor padrão de Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. A parte do formato '{column_name}' cria uma coluna de cadeia de caracteres e '{column_name:yyyy/MM/dd/HH/mm/ss}' cria a coluna datetime, na qual 'yyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundos para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dando o caminho '../Accounts/2019/01/01/data.csv' em que a partição é por hora e nome do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 'Department' com o valor 'Accounts' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'.

file_extension: str

Obrigatório

A extensão de arquivo dos arquivos a serem lidos. Somente arquivos com esta extensão serão lidos do diretório. O valor padrão será '.csv' quando o separador for ',' e '.tsv' quando o separador for Tab e, caso contrário, será None. Se None for passado, todos os arquivos serão lidos independentemente da extensão (ou falta de extensão).

set_column_types: dict[str, DataType]

valor padrão: None

Um dicionário para definir o tipo de dados da coluna, em que a chave é o nome da coluna e o valor DataType. As colunas que não estão no dicionário permanecerão do tipo de cadeia de caracteres. Passar None não resultará em conversões. As entradas para colunas não localizadas nos dados de origem não causarão erro e serão ignoradas.

quoted_line_breaks: bool

valor padrão: False

Se deverá manipular novos caracteres de linha entre aspas. Essa opção pode afetar o desempenho.

Retornos

Retorna um dado intermediário que será um conjunto de dados tabular.

Tipo de retorno

PipelineOutputTabularDataset

Comentários

Essa transformação somente será aplicada quando os dados intermediários forem consumidos como entrada da etapa subsequente. Isso não terá efeitos na saída, mesmo se for passada para a saída.

parse_parquet_files

Transforma o conjunto de dados de arquivo intermediário em um conjunto de dados tabular.

O conjunto de dados tabular é criado analisando os arquivos parquet apontados pela saída intermediária.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Parâmetros

include_path: bool

valor padrão: False

partition_format: str

valor padrão: None

Especifique o formato de partição do caminho. Assume o valor padrão de Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. A parte do formato '{column_name}' cria uma coluna de cadeia de caracteres e '{column_name:yyyy/MM/dd/HH/mm/ss}' cria a coluna datetime, na qual 'yyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundos para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, considerando o caminho '../Accounts/2019/01/01/data.parquet' em que a partição é por hora e nome do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia de caracteres 'Department' com o valor 'Accounts' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'.

file_extension: str

valor padrão: .parquet

A extensão de arquivo dos arquivos a serem lidos. Somente arquivos com esta extensão serão lidos do diretório. O valor padrão é '.parquet'. Se estiver definido como None, todos os arquivos serão lidos, independentemente da extensão (ou falta de extensão).

set_column_types: dict[str, DataType]

valor padrão: None

Um dicionário para definir o tipo de dados da coluna, em que a chave é o nome da coluna e o valor DataType. As colunas que não estiverem no dicionário permanecerão do tipo carregado do arquivo parquet. Passar None não resultará em conversões. As entradas para colunas não localizadas nos dados de origem não causarão erro e serão ignoradas.

Retornos

Retorna um dado intermediário que será um conjunto de dados tabular.

Tipo de retorno

PipelineOutputTabularDataset

Comentários

Essa transformação somente será aplicada quando os dados intermediários forem consumidos como entrada da etapa subsequente. Isso não terá efeitos na saída, mesmo se for passada para a saída.

PipelineOutputFileDataset Classe

Construtor

Parâmetros

Métodos

as_direct

Retornos

Tipo de retorno

as_download

Parâmetros

Retornos

Tipo de retorno

as_mount

Parâmetros

Retornos

Tipo de retorno

parse_delimited_files

Parâmetros

Retornos

Tipo de retorno

Comentários

parse_parquet_files

Parâmetros

Retornos

Tipo de retorno

Comentários

Comentários

Comentários

Recursos adicionais