Compartilhar via


OpenDatasetBase Classe

Abra a classe base do conjunto de dados para herança.

Construa conjuntos de dados abertos.

Herança
OpenDatasetBase

Construtor

OpenDatasetBase(cols: List[str] | None = None, enable_telemetry: bool = True, **kwargs)

Parâmetros

cols
list[str]
valor padrão: None

Uma lista de nomes de colunas a serem carregadas do conjunto de dados, o padrão é None

enable_telemetry
bool
valor padrão: True

Se deseja habilitar a telemetria nesse conjunto de dados, o padrão é True

kwargs
dict
Obrigatório

args para filtro

Métodos

get_file_dataset

Obtenha o conjunto de dados de arquivo do conjunto de dados em aberto.

get_tabular_dataset

Inicialize AbstractTabularOpenDataset com a URL do blob.

to_pandas_dataframe

Para o dataframe do Pandas.

to_spark_dataframe

Para o dataframe do Spark.

get_file_dataset

Obtenha o conjunto de dados de arquivo do conjunto de dados em aberto.

get_file_dataset(start_date: datetime = None, end_date: datetime = None, enable_telemetry: bool = True, **kwargs) -> FileDataset

Parâmetros

cls
type
Obrigatório

classe atual

start_date
datetime
Obrigatório

data de início, o padrão é Nenhum

end_date
datetime
Obrigatório

data de término, o padrão é Nenhum

enable_telemetry
bool
Obrigatório

Habilitar telemetria ou não; o padrão é True

Retornos

conjunto de dados de arquivo

Tipo de retorno

get_tabular_dataset

Inicialize AbstractTabularOpenDataset com a URL do blob.

get_tabular_dataset(start_date: datetime = None, end_date: datetime = None, cols: List[str] = None, enable_telemetry: bool = True, **kwargs) -> TabularDataset

Parâmetros

cls
type
Obrigatório

nome de tipo do Conjunto de Dados em Aberto.

start_date
datetime
Obrigatório

A data de início da consulta, inclusive.

end_date
datetime
Obrigatório

A data de término da consulta, inclusive.

cols
list[str]
Obrigatório

Uma lista de nomes de coluna a serem recuperados. Nenhum obterá todas as colunas.

enable_telemetry
bool
Obrigatório

Se a telemetria deve ser habilitada ou desabilitada somente para UT.

Retornos

TabularDataset

Tipo de retorno

to_pandas_dataframe

Para o dataframe do Pandas.

to_pandas_dataframe() -> DataFrame

to_spark_dataframe

Para o dataframe do Spark.

to_spark_dataframe()

Atributos

cols

Obter a lista de nomes de coluna a ser recuperada.

data

Obtenha os dados do objeto OpenDataset.

id

Obter a ID da localização dos dados abertos.

log_properties

Obtenha as propriedades do log.

registry_id

Obter a ID do registro desse conjunto de dados público registrado no back-end.

Essa ID do registro é usada para obter os metadados mais recentes, como o local de armazenamento. Espere que todas as sub classes de dados públicos atribuam _registry_id.

Retornos

Cadeia de caracteres da ID do registro.

Tipo de retorno

str

time_column_name

Nome da coluna de hora.