DatasetDefinition Classe

Referência

Define uma série de etapas que especificam como ler e transformar dados em um Conjunto de Dados.

Observação

Essa classe foi preterida. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Um Conjunto de Dados registrado em um workspace do Azure Machine Learning pode ter várias definições, cada uma criada chamando update_definition. Cada definição tem um identificador exclusivo. A definição atual é a que foi criada mais recentemente.

Para Conjuntos de dados não registrados, há apenas uma definição.

As definições de Conjunto de Dados dão suporte a todas as transformações listadas para a classe <xref:azureml.dataprep.Dataflow>: consulte http://aka.ms/azureml/howto/transformdata. Para saber mais sobre Definições de Conjunto de Dados, vá para https://aka.ms/azureml/howto/versiondata.

Inicialize o objeto de definição de conjunto de dados.

Herança: azureml.dataprep.api.engineless_dataflow.EnginelessDataflow

DatasetDefinition

Construtor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parâmetros

workspace: str

Obrigatório

O workspace em que o conjunto de dados está registrado.

dataset_id: str

Obrigatório

O identificador do conjunto de dados.

version_id: str

Obrigatório

A versão da definição.

dataflow: str

Obrigatório

O objeto Dataflow.

dataflow_json

Obrigatório

O json de fluxo de dados.

notes: str

Obrigatório

Informações opcionais sobre a definição.

etag: str

Obrigatório

Etag.

created_time: datetime

Obrigatório

A hora de criação da definição.

modified_time: datetime

Obrigatório

A hora da última modificação da definição.

deprecated_by_dataset_id: str

Obrigatório

A ID do conjunto de dados que substitui essa definição.

deprecated_by_definition_version: str

Obrigatório

A versão da definição que substitui essa definição.

data_path: DataPath

Obrigatório

O caminho dos dados.

dataset: Dataset

Obrigatório

O objeto de conjunto de dados pai.

Métodos

archive	Arquive a definição do conjunto de dados.
create_snapshot	Criar um instantâneo do Conjunto de dados registrado.
deprecate	Substitua o conjunto de dados por um ponteiro para o novo conjunto de dados.
reactivate	Reative a definição do conjunto de dados. Funciona em definições de dados que foram substituídas ou arquivadas.
to_pandas_dataframe	Crie um dataframe do Pandas executando o pipeline de transformação definido por esta definição de conjunto de dados.
to_spark_dataframe	Crie um Dataframe do Spark que possa executar o pipeline de transformação definido por este fluxo de dados.

create_snapshot

Criar um instantâneo do Conjunto de dados registrado.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parâmetros

snapshot_name: str

Obrigatório

O nome do instantâneo. Os nomes de instantâneos devem ser exclusivos em um Conjunto de dados.

compute_target: ComputeTarget ou str

valor padrão: None

O destino de computação para criar o perfil de instantâneo. Se omitido, a computação local será usada.

create_data_snapshot: bool

valor padrão: False

Se for True, uma cópia materializada dos dados será criada.

target_datastore: Union[AbstractAzureStorageDatastore, str]

valor padrão: None

O armazenamento de dados de destino onde salvar o instantâneo. Se omitido, o instantâneo será criado no armazenamento padrão do workspace.

Retornos

Um objeto DatasetSnapshot.

Tipo de retorno

DatasetSnapshot

Comentários

Os instantâneos capturam estatísticas resumidas pontuais dos dados subjacentes e uma cópia opcional dos próprios dados. Para saber mais sobre como criar instantâneos, acesse https://aka.ms/azureml/howto/createsnapshots.

deprecate

Substitua o conjunto de dados por um ponteiro para o novo conjunto de dados.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parâmetros

deprecate_by_dataset_id: uuid

Obrigatório

O ID do conjunto de dados responsável pela substituição do conjunto de dados atual.

deprecated_by_definition_version: str

valor padrão: None

A versão de definição do conjunto de dados que é responsável pela substituição da definição do conjunto de dados atual.

Retornos

Nenhum.

Tipo de retorno

None

Comentários

As definições do conjunto de dados substituídas registrarão avisos quando forem consumidas. Para bloquear completamente o consumo de uma definição de conjunto de dados, arquive-a.

Se uma definição de conjuntos de dados for substituída por acidente, use reactivate para ativá-la.

reactivate

Reative a definição do conjunto de dados.

Funciona em definições de dados que foram substituídas ou arquivadas.

reactivate()

Retornos

Nenhum.

Tipo de retorno

None

to_pandas_dataframe

Crie um dataframe do Pandas executando o pipeline de transformação definido por esta definição de conjunto de dados.

to_pandas_dataframe()

Retornos

Um DataFrame do Pandas.

Tipo de retorno

DataFrame

Comentários

Retorne um DataFrame do Pandas totalmente materializado na memória.

to_spark_dataframe

Crie um Dataframe do Spark que possa executar o pipeline de transformação definido por este fluxo de dados.

to_spark_dataframe()

Retornos

Um DataFrame do Spark.

Tipo de retorno

DataFrame

Comentários

O Dataframe do Spark retornado é apenas um plano de execução e não contém nenhum dado, já que os Dataframes do Spark são avaliados lentamente.

DatasetDefinition Classe

Construtor

Parâmetros

Métodos

archive

Retornos

Tipo de retorno

Comentários

create_snapshot

Parâmetros

Retornos

Tipo de retorno

Comentários

deprecate

Parâmetros

Retornos

Tipo de retorno

Comentários

reactivate

Retornos

Tipo de retorno

to_pandas_dataframe

Retornos

Tipo de retorno

Comentários

to_spark_dataframe

Retornos

Tipo de retorno

Comentários

Comentários

Comentários

Recursos adicionais