DatasetDefinition Clase
Define una serie de pasos que especifican cómo leer y transformar datos en un objeto Dataset.
Nota
Esta clase está en desuso. Para obtener más información, vea https://aka.ms/dataset-deprecation.
Un objeto Dataset registrado en un área de trabajo de Azure Machine Learning puede tener varias definiciones, cada una de las cuales se crea con la llamada a update_definition. Cada definición tiene un identificador único. La definición actual es la más reciente creada.
En el caso de los conjuntos de datos no registrados, solo existe una definición.
Las definiciones de conjunto de datos admiten todas las transformaciones enumeradas para la clase <xref:azureml.dataprep.Dataflow>: vea http://aka.ms/azureml/howto/transformdata. Para obtener más información sobre las definiciones de conjunto de datos, vaya a https://aka.ms/azureml/howto/versiondata.
Inicialice el objeto de definición del conjunto de datos.
- Herencia
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
Constructor
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Parámetros
- dataflow_json
Json de flujo de datos.
- deprecated_by_dataset_id
- str
Identificador del conjunto de datos que desusa esta definición.
Métodos
archive |
Archiva la definición del conjunto de datos. |
create_snapshot |
Crea una instantánea del conjunto de datos registrado. |
deprecate |
Deja en desuso el conjunto de datos, con un puntero al nuevo conjunto de datos. |
reactivate |
Reactiva la definición del conjunto de datos. Funciona en definiciones del conjunto de datos que han quedado en desuso o archivadas. |
to_pandas_dataframe |
Crea una trama de datos de Pandas ejecutando la canalización de transformación definida por esta definición de conjunto de datos. |
to_spark_dataframe |
Crea un objeto DataFrame de Spark que puede ejecutar la canalización de transformación definida por este flujo de datos. |
archive
Archiva la definición del conjunto de datos.
archive()
Devoluciones
Ninguno.
Tipo de valor devuelto
Comentarios
Después del archivado, cualquier intento de recuperar el conjunto de datos producirá un error. Si se archiva por accidente, use reactivate para activarlo.
create_snapshot
Crea una instantánea del conjunto de datos registrado.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parámetros
- snapshot_name
- str
Nombre de la instantánea. Los nombres de instantánea deben ser únicos dentro de un conjunto de datos.
- compute_target
- ComputeTarget o str
Destino de proceso para crear el perfil de instantánea. Si se omite, se usa el proceso local.
- create_data_snapshot
- bool
Si es true, se creará una copia materializada de los datos.
- target_datastore
- Union[AbstractAzureStorageDatastore, str]
Almacén de datos de destino donde se guarda la instantánea. Si se omite, la instantánea se creará en el almacenamiento predeterminado del área de trabajo.
Devoluciones
Objeto DatasetSnapshot.
Tipo de valor devuelto
Comentarios
Las instantáneas capturan estadísticas de resumen de un momento dado de los datos subyacentes y una copia opcional de los propios datos. Para más información sobre cómo crear instantáneas, vaya a https://aka.ms/azureml/howto/createsnapshots.
deprecate
Deja en desuso el conjunto de datos, con un puntero al nuevo conjunto de datos.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Parámetros
- deprecate_by_dataset_id
- uuid
Identificador del conjunto de datos responsable del desuso del conjunto de datos actual.
- deprecated_by_definition_version
- str
Versión de la definición del conjunto de datos responsable del desuso de la definición del conjunto de datos actual.
Devoluciones
Ninguno.
Tipo de valor devuelto
Comentarios
Las definiciones de los conjuntos de datos en desuso registrarán advertencias cuando se consuman. Para impedir el consumo de una definición del conjunto de datos, archívelo.
Si una definición del conjunto de datos está en desuso por accidente, use reactivate para activarla.
reactivate
Reactiva la definición del conjunto de datos.
Funciona en definiciones del conjunto de datos que han quedado en desuso o archivadas.
reactivate()
Devoluciones
Ninguno.
Tipo de valor devuelto
to_pandas_dataframe
Crea una trama de datos de Pandas ejecutando la canalización de transformación definida por esta definición de conjunto de datos.
to_pandas_dataframe()
Devoluciones
Objeto DataFrame de Pandas.
Tipo de valor devuelto
Comentarios
Devuelve un objeto DataFrame de Pandas totalmente materializado en memoria.
to_spark_dataframe
Crea un objeto DataFrame de Spark que puede ejecutar la canalización de transformación definida por este flujo de datos.
to_spark_dataframe()
Devoluciones
Objeto DataFrame de Spark.
Tipo de valor devuelto
Comentarios
La trama de datos de Spark devuelta es solo un plan de ejecución y no contiene realmente ningún dato, ya que las tramas de datos de Spark se evalúan de forma rápida.
Comentarios
https://aka.ms/ContentUserFeedback.
Próximamente: A lo largo de 2024 iremos eliminando gradualmente GitHub Issues como mecanismo de comentarios sobre el contenido y lo sustituiremos por un nuevo sistema de comentarios. Para más información, vea:Enviar y ver comentarios de