TransformationMixin Classe

Esta classe fornece capacidades de transformação para conjuntos de dados de produção.

Herança
builtins.object
TransformationMixin

Métodos

read_delimited_files

Transforme o conjunto de dados de saída para um conjunto de dados tabular, lendo toda a saída como ficheiros delimitados.

read_parquet_files

Transforme o conjunto de dados de saída para um conjunto de dados tabular, lendo toda a saída como ficheiros Parquet.

O conjunto de dados tabular é criado através da análise dos ficheiros parquet(s) apontados pela saída intermédia.

read_delimited_files

Transforme o conjunto de dados de saída para um conjunto de dados tabular, lendo toda a saída como ficheiros delimitados.

read_delimited_files(include_path=False, separator=',', header=<PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS: 3>, partition_format=None, path_glob=None, set_column_types=None)

Parâmetros

include_path
<xref:bool>

Boolean para manter a informação do caminho como coluna no conjunto de dados. Incumprimentos ao Falso. Isto é útil ao ler vários ficheiros, e quer saber de que ficheiro um determinado registo teve origem ou para manter informações úteis no caminho do ficheiro.

separator
<xref:str>

O separador costumava dividir colunas.

header
PromoteHeadersBehavior

Controla a forma como os cabeçalhos das colunas são promovidos ao ler em ficheiros. Os predefinidos assumem que todos os ficheiros têm o mesmo cabeçalho.

partition_format
<xref:str>

Especifique o formato de partição do caminho. Incumprimentos a Nenhum. A informação de partição de cada caminho será extraída em colunas com base no formato especificado. A parte do formato '{column_name}' cria coluna de cordas, e '{column_name:yyyy/MM/dd/HH/mm/ss}' cria coluna de data, onde 'yyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundo para o tipo de data. O formato deve partir-se da posição da primeira chave de partição até ao fim do percurso do ficheiro. Por exemplo, dado o caminho. /Contas/2019/01/data.parquet' onde a partição é por nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cordas 'Department' com o valor 'Contas' e uma coluna de data 'PartitionDate' com o valor '2019-01-01'.

path_glob
<xref:str>

Um padrão glob para filtrar ficheiros que serão lidos como ficheiros delimitados. Se for definido para Nenhum, todos os ficheiros serão lidos como ficheiros delimitados.

set_column_types
<xref:dict>[<xref:str>, DataType]

Um dicionário para definir o tipo de dados da coluna, onde a chave é o nome e o valor da coluna DataType é . As colunas que não estão no dicionário permanecerão de tipo de corda. A passagem de nenhum resultará em conversões. As entradas para colunas não encontradas nos dados de origem não causarão um erro e serão ignoradas.

Devoluções

Um OutputTabularDatasetConfig caso com instruções de como converter a saída num SeparadorsDataset.

Tipo de retorno

read_parquet_files

Transforme o conjunto de dados de saída para um conjunto de dados tabular, lendo toda a saída como ficheiros Parquet.

O conjunto de dados tabular é criado através da análise dos ficheiros parquet(s) apontados pela saída intermédia.

read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)

Parâmetros

include_path
<xref:bool>

Boolean para manter a informação do caminho como coluna no conjunto de dados. Incumprimentos ao Falso. Isto é útil ao ler vários ficheiros, e quer saber de que ficheiro um determinado registo teve origem ou para manter informações úteis no caminho do ficheiro.

partition_format
<xref:str>

Especifique o formato de partição do caminho. Incumprimentos a Nenhum. A informação de partição de cada caminho será extraída em colunas com base no formato especificado. A parte do formato '{column_name}' cria coluna de cordas, e '{column_name:yyyy/MM/dd/HH/mm/ss}' cria coluna de data, onde 'yyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundo para o tipo de data. O formato deve partir-se da posição da primeira chave de partição até ao fim do percurso do ficheiro. Por exemplo, dado o caminho. /Contas/2019/01/data.parquet' onde a partição é por nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cordas 'Department' com o valor 'Contas' e uma coluna de data 'PartitionDate' com o valor '2019-01-01'.

path_glob
<xref:str>

Um padrão glob para filtrar ficheiros que serão lidos como ficheiros de parquet. Se for definido para Nenhum, todos os ficheiros serão lidos como ficheiros parquet.

set_column_types
<xref:dict>[<xref:str>, DataType]

Um dicionário para definir o tipo de dados da coluna, onde a chave é o nome e o valor da coluna DataType é . As colunas que não estão no dicionário permanecerão do tipo carregado a partir do ficheiro parquet. A passagem de nenhum resultará em conversões. As entradas para colunas não encontradas nos dados de origem não causarão um erro e serão ignoradas.

Devoluções

Um OutputTabularDatasetConfig caso com instruções de como converter a saída num SeparadorsDataset.

Tipo de retorno