DatasetDefinition Classe

Define uma série de etapas que especificam como ler e transformar dados em um Conjunto de Dados.

Observação

Essa classe foi preterida. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Um Conjunto de Dados registrado em um workspace do Azure Machine Learning pode ter várias definições, cada uma criada chamando update_definition. Cada definição tem um identificador exclusivo. A definição atual é a que foi criada mais recentemente.

Para Conjuntos de dados não registrados, há apenas uma definição.

As definições de Conjunto de Dados dão suporte a todas as transformações listadas para a classe <xref:azureml.dataprep.Dataflow>: consulte http://aka.ms/azureml/howto/transformdata. Para saber mais sobre Definições de Conjunto de Dados, vá para https://aka.ms/azureml/howto/versiondata.

Inicialize o objeto de definição de conjunto de dados.

Herança
azureml.dataprep.api.engineless_dataflow.EnginelessDataflow
DatasetDefinition

Construtor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parâmetros

workspace
str
Obrigatório

O workspace em que o conjunto de dados está registrado.

dataset_id
str
Obrigatório

O identificador do conjunto de dados.

version_id
str
Obrigatório

A versão da definição.

dataflow
str
Obrigatório

O objeto Dataflow.

dataflow_json
Obrigatório

O json de fluxo de dados.

notes
str
Obrigatório

Informações opcionais sobre a definição.

etag
str
Obrigatório

Etag.

created_time
datetime
Obrigatório

A hora de criação da definição.

modified_time
datetime
Obrigatório

A hora da última modificação da definição.

deprecated_by_dataset_id
str
Obrigatório

A ID do conjunto de dados que substitui essa definição.

deprecated_by_definition_version
str
Obrigatório

A versão da definição que substitui essa definição.

data_path
DataPath
Obrigatório

O caminho dos dados.

dataset
Dataset
Obrigatório

O objeto de conjunto de dados pai.

Métodos

archive

Arquive a definição do conjunto de dados.

create_snapshot

Criar um instantâneo do Conjunto de dados registrado.

deprecate

Substitua o conjunto de dados por um ponteiro para o novo conjunto de dados.

reactivate

Reative a definição do conjunto de dados.

Funciona em definições de dados que foram substituídas ou arquivadas.

to_pandas_dataframe

Crie um dataframe do Pandas executando o pipeline de transformação definido por esta definição de conjunto de dados.

to_spark_dataframe

Crie um Dataframe do Spark que possa executar o pipeline de transformação definido por este fluxo de dados.

archive

Arquive a definição do conjunto de dados.

archive()

Retornos

Nenhum.

Tipo de retorno

Comentários

Após o arquivamento, qualquer tentativa de recuperar o conjunto de dados resultará em um erro. Se arquivado por acidente, use reactivate para ativá-lo.

create_snapshot

Criar um instantâneo do Conjunto de dados registrado.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parâmetros

snapshot_name
str
Obrigatório

O nome do instantâneo. Os nomes de instantâneos devem ser exclusivos em um Conjunto de dados.

compute_target
ComputeTarget ou str
valor padrão: None

O destino de computação para criar o perfil de instantâneo. Se omitido, a computação local será usada.

create_data_snapshot
bool
valor padrão: False

Se for True, uma cópia materializada dos dados será criada.

target_datastore
Union[AbstractAzureStorageDatastore, str]
valor padrão: None

O armazenamento de dados de destino onde salvar o instantâneo. Se omitido, o instantâneo será criado no armazenamento padrão do workspace.

Retornos

Um objeto DatasetSnapshot.

Tipo de retorno

Comentários

Os instantâneos capturam estatísticas resumidas pontuais dos dados subjacentes e uma cópia opcional dos próprios dados. Para saber mais sobre como criar instantâneos, acesse https://aka.ms/azureml/howto/createsnapshots.

deprecate

Substitua o conjunto de dados por um ponteiro para o novo conjunto de dados.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parâmetros

deprecate_by_dataset_id
uuid
Obrigatório

O ID do conjunto de dados responsável pela substituição do conjunto de dados atual.

deprecated_by_definition_version
str
valor padrão: None

A versão de definição do conjunto de dados que é responsável pela substituição da definição do conjunto de dados atual.

Retornos

Nenhum.

Tipo de retorno

Comentários

As definições do conjunto de dados substituídas registrarão avisos quando forem consumidas. Para bloquear completamente o consumo de uma definição de conjunto de dados, arquive-a.

Se uma definição de conjuntos de dados for substituída por acidente, use reactivate para ativá-la.

reactivate

Reative a definição do conjunto de dados.

Funciona em definições de dados que foram substituídas ou arquivadas.

reactivate()

Retornos

Nenhum.

Tipo de retorno

to_pandas_dataframe

Crie um dataframe do Pandas executando o pipeline de transformação definido por esta definição de conjunto de dados.

to_pandas_dataframe()

Retornos

Um DataFrame do Pandas.

Tipo de retorno

Comentários

Retorne um DataFrame do Pandas totalmente materializado na memória.

to_spark_dataframe

Crie um Dataframe do Spark que possa executar o pipeline de transformação definido por este fluxo de dados.

to_spark_dataframe()

Retornos

Um DataFrame do Spark.

Tipo de retorno

Comentários

O Dataframe do Spark retornado é apenas um plano de execução e não contém nenhum dado, já que os Dataframes do Spark são avaliados lentamente.