DatasetDefinition Clase

Referencia

Define una serie de pasos que especifican cómo leer y transformar datos en un objeto Dataset.

Nota

Esta clase está en desuso. Para obtener más información, vea https://aka.ms/dataset-deprecation.

Un objeto Dataset registrado en un área de trabajo de Azure Machine Learning puede tener varias definiciones, cada una de las cuales se crea con la llamada a update_definition. Cada definición tiene un identificador único. La definición actual es la más reciente creada.

En el caso de los conjuntos de datos no registrados, solo existe una definición.

Las definiciones de conjunto de datos admiten todas las transformaciones enumeradas para la clase <xref:azureml.dataprep.Dataflow>: vea http://aka.ms/azureml/howto/transformdata. Para obtener más información sobre las definiciones de conjunto de datos, vaya a https://aka.ms/azureml/howto/versiondata.

Inicialice el objeto de definición del conjunto de datos.

Herencia: azureml.dataprep.api.engineless_dataflow.EnginelessDataflow

DatasetDefinition

Constructor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parámetros

workspace: str

Requerido

Área de trabajo en la que está registrado el conjunto de datos.

dataset_id: str

Requerido

Identificador del conjunto de datos.

version_id: str

Requerido

La versión de definición.

dataflow: str

Requerido

Objeto Dataflow.

dataflow_json

Requerido

Json de flujo de datos.

notes: str

Requerido

Información opcional sobre la definición.

etag: str

Requerido

Etag.

created_time: datetime

Requerido

Hora de creación de la definición.

modified_time: datetime

Requerido

Hora de la última modificación de la definición.

deprecated_by_dataset_id: str

Requerido

Identificador del conjunto de datos que desusa esta definición.

deprecated_by_definition_version: str

Requerido

Versión de la definición que desusa esta definición.

data_path: DataPath

Requerido

Ruta de acceso de datos.

dataset: Dataset

Requerido

Objeto dataset primario.

Métodos

archive	Archiva la definición del conjunto de datos.
create_snapshot	Crea una instantánea del conjunto de datos registrado.
deprecate	Deja en desuso el conjunto de datos, con un puntero al nuevo conjunto de datos.
reactivate	Reactiva la definición del conjunto de datos. Funciona en definiciones del conjunto de datos que han quedado en desuso o archivadas.
to_pandas_dataframe	Crea una trama de datos de Pandas ejecutando la canalización de transformación definida por esta definición de conjunto de datos.
to_spark_dataframe	Crea un objeto DataFrame de Spark que puede ejecutar la canalización de transformación definida por este flujo de datos.

create_snapshot

Crea una instantánea del conjunto de datos registrado.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parámetros

snapshot_name: str

Requerido

Nombre de la instantánea. Los nombres de instantánea deben ser únicos dentro de un conjunto de datos.

compute_target: ComputeTarget o str

valor predeterminado: None

Destino de proceso para crear el perfil de instantánea. Si se omite, se usa el proceso local.

create_data_snapshot: bool

valor predeterminado: False

Si es true, se creará una copia materializada de los datos.

target_datastore: Union[AbstractAzureStorageDatastore, str]

valor predeterminado: None

Almacén de datos de destino donde se guarda la instantánea. Si se omite, la instantánea se creará en el almacenamiento predeterminado del área de trabajo.

Devoluciones

Objeto DatasetSnapshot.

Tipo de valor devuelto

DatasetSnapshot

Comentarios

Las instantáneas capturan estadísticas de resumen de un momento dado de los datos subyacentes y una copia opcional de los propios datos. Para más información sobre cómo crear instantáneas, vaya a https://aka.ms/azureml/howto/createsnapshots.

deprecate

Deja en desuso el conjunto de datos, con un puntero al nuevo conjunto de datos.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parámetros

deprecate_by_dataset_id: uuid

Requerido

Identificador del conjunto de datos responsable del desuso del conjunto de datos actual.

deprecated_by_definition_version: str

valor predeterminado: None

Versión de la definición del conjunto de datos responsable del desuso de la definición del conjunto de datos actual.

Devoluciones

Ninguno.

Tipo de valor devuelto

None

Comentarios

Las definiciones de los conjuntos de datos en desuso registrarán advertencias cuando se consuman. Para impedir el consumo de una definición del conjunto de datos, archívelo.

Si una definición del conjunto de datos está en desuso por accidente, use reactivate para activarla.

reactivate

Reactiva la definición del conjunto de datos.

Funciona en definiciones del conjunto de datos que han quedado en desuso o archivadas.

reactivate()

Devoluciones

Ninguno.

Tipo de valor devuelto

None

to_pandas_dataframe

Crea una trama de datos de Pandas ejecutando la canalización de transformación definida por esta definición de conjunto de datos.

to_pandas_dataframe()

Devoluciones

Objeto DataFrame de Pandas.

Tipo de valor devuelto

DataFrame

Comentarios

Devuelve un objeto DataFrame de Pandas totalmente materializado en memoria.

to_spark_dataframe

Crea un objeto DataFrame de Spark que puede ejecutar la canalización de transformación definida por este flujo de datos.

to_spark_dataframe()

Devoluciones

Objeto DataFrame de Spark.

Tipo de valor devuelto

DataFrame

Comentarios

La trama de datos de Spark devuelta es solo un plan de ejecución y no contiene realmente ningún dato, ya que las tramas de datos de Spark se evalúan de forma rápida.

Share via

DatasetDefinition Clase

Constructor

Parámetros

Métodos

archive

Devoluciones

Tipo de valor devuelto

Comentarios

create_snapshot

Parámetros

Devoluciones

Tipo de valor devuelto

Comentarios

deprecate

Parámetros

Devoluciones

Tipo de valor devuelto

Comentarios

reactivate

Devoluciones

Tipo de valor devuelto

to_pandas_dataframe

Devoluciones

Tipo de valor devuelto

Comentarios

to_spark_dataframe

Devoluciones

Tipo de valor devuelto

Comentarios

Comentarios

Comentarios

Recursos adicionales