DatasetDefinition Classe
Define uma série de etapas que especificam como ler e transformar dados em um Conjunto de Dados.
Observação
Essa classe foi preterida. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
Um Conjunto de Dados registrado em um workspace do Azure Machine Learning pode ter várias definições, cada uma criada chamando update_definition. Cada definição tem um identificador exclusivo. A definição atual é a que foi criada mais recentemente.
Para Conjuntos de dados não registrados, há apenas uma definição.
As definições de Conjunto de Dados dão suporte a todas as transformações listadas para a classe <xref:azureml.dataprep.Dataflow>: consulte http://aka.ms/azureml/howto/transformdata. Para saber mais sobre Definições de Conjunto de Dados, vá para https://aka.ms/azureml/howto/versiondata.
Inicialize o objeto de definição de conjunto de dados.
- Herança
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
Construtor
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Parâmetros
- dataflow_json
O json de fluxo de dados.
- deprecated_by_definition_version
- str
A versão da definição que substitui essa definição.
Métodos
archive |
Arquive a definição do conjunto de dados. |
create_snapshot |
Criar um instantâneo do Conjunto de dados registrado. |
deprecate |
Substitua o conjunto de dados por um ponteiro para o novo conjunto de dados. |
reactivate |
Reative a definição do conjunto de dados. Funciona em definições de dados que foram substituídas ou arquivadas. |
to_pandas_dataframe |
Crie um dataframe do Pandas executando o pipeline de transformação definido por esta definição de conjunto de dados. |
to_spark_dataframe |
Crie um Dataframe do Spark que possa executar o pipeline de transformação definido por este fluxo de dados. |
archive
Arquive a definição do conjunto de dados.
archive()
Retornos
Nenhum.
Tipo de retorno
Comentários
Após o arquivamento, qualquer tentativa de recuperar o conjunto de dados resultará em um erro. Se arquivado por acidente, use reactivate para ativá-lo.
create_snapshot
Criar um instantâneo do Conjunto de dados registrado.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parâmetros
- snapshot_name
- str
O nome do instantâneo. Os nomes de instantâneos devem ser exclusivos em um Conjunto de dados.
- compute_target
- ComputeTarget ou str
O destino de computação para criar o perfil de instantâneo. Se omitido, a computação local será usada.
- create_data_snapshot
- bool
Se for True, uma cópia materializada dos dados será criada.
- target_datastore
- Union[AbstractAzureStorageDatastore, str]
O armazenamento de dados de destino onde salvar o instantâneo. Se omitido, o instantâneo será criado no armazenamento padrão do workspace.
Retornos
Um objeto DatasetSnapshot.
Tipo de retorno
Comentários
Os instantâneos capturam estatísticas resumidas pontuais dos dados subjacentes e uma cópia opcional dos próprios dados. Para saber mais sobre como criar instantâneos, acesse https://aka.ms/azureml/howto/createsnapshots.
deprecate
Substitua o conjunto de dados por um ponteiro para o novo conjunto de dados.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Parâmetros
- deprecate_by_dataset_id
- uuid
O ID do conjunto de dados responsável pela substituição do conjunto de dados atual.
- deprecated_by_definition_version
- str
A versão de definição do conjunto de dados que é responsável pela substituição da definição do conjunto de dados atual.
Retornos
Nenhum.
Tipo de retorno
Comentários
As definições do conjunto de dados substituídas registrarão avisos quando forem consumidas. Para bloquear completamente o consumo de uma definição de conjunto de dados, arquive-a.
Se uma definição de conjuntos de dados for substituída por acidente, use reactivate para ativá-la.
reactivate
Reative a definição do conjunto de dados.
Funciona em definições de dados que foram substituídas ou arquivadas.
reactivate()
Retornos
Nenhum.
Tipo de retorno
to_pandas_dataframe
Crie um dataframe do Pandas executando o pipeline de transformação definido por esta definição de conjunto de dados.
to_pandas_dataframe()
Retornos
Um DataFrame do Pandas.
Tipo de retorno
Comentários
Retorne um DataFrame do Pandas totalmente materializado na memória.
to_spark_dataframe
Crie um Dataframe do Spark que possa executar o pipeline de transformação definido por este fluxo de dados.
to_spark_dataframe()
Retornos
Um DataFrame do Spark.
Tipo de retorno
Comentários
O Dataframe do Spark retornado é apenas um plano de execução e não contém nenhum dado, já que os Dataframes do Spark são avaliados lentamente.
Comentários
https://aka.ms/ContentUserFeedback.
Em breve: Ao longo de 2024, eliminaremos os problemas do GitHub como o mecanismo de comentários para conteúdo e o substituiremos por um novo sistema de comentários. Para obter mais informações, consulteEnviar e exibir comentários de