FileDatasetFactory Klas

Bevat methoden voor het maken van een bestandsgegevensset voor Azure Machine Learning.

Een FileDataset wordt gemaakt op basis van de from_files methode die in deze klasse is gedefinieerd.

Zie het notebook https://aka.ms/filedataset-samplenotebookvoor meer informatie over het werken met bestandsgegevenssets.

Overname
builtins.object
FileDatasetFactory

Constructor

FileDatasetFactory()

Methoden

from_files

Maak een FileDataset die bestandsstromen vertegenwoordigt.

upload_directory

Maak een gegevensset uit de bronmap.

from_files

Maak een FileDataset die bestandsstromen vertegenwoordigt.

static from_files(path, validate=True, partition_format=None, is_file=False)

Parameters

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Vereist

Het pad naar de bronbestanden, dat één waarde of lijst met URL-tekenreeksen (http[s]|abfs[s]|wasb[s]), DataPath object of tuple van Datastore en relatief pad kan zijn. Houd er rekening mee dat de lijst met paden niet zowel URL's als gegevensarchieven samen kan bevatten.

validate
bool
Vereist

Hiermee wordt aangegeven of moet worden gevalideerd of gegevens uit de geretourneerde gegevensset kunnen worden geladen. De standaardwaarde is Waar. Voor validatie is vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening.

partition_format
str
Vereist

Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het notatieonderdeel {column_name} wordt een tekenreekskolom gemaakt en in {column_name:jjjj/MM/dd/uu/mm/ss} wordt de datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/01/data.jsonl' waarbij de partitie is op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' maakt een tekenreekskolom 'Department' met de waarde 'Accounts' en een datum/tijd-kolom 'PartitionDate' met de waarde '2019-01-01'.

is_file
bool
Vereist

Geeft aan of alle invoerpaden naar bestanden verwijzen. De gegevensset-engine probeert standaard te controleren of invoerpaden naar bestanden verwijzen. Stel deze vlag in op Waar wanneer alle invoerpaden Bestand zijn om het maken van gegevenssets te versnellen.

Retouren

Een FileDataset object.

Retourtype

Opmerkingen

from_files maakt een klasseobject FileDataset , dat de bewerkingen definieert voor het laden van bestandsstromen vanuit het opgegeven pad.

De gegevens zijn alleen toegankelijk voor Azure Machine Learning als de bestanden die zijn opgegeven door path zich bevinden in een Datastore of toegankelijk zijn met openbare web-URL's of URL's van Blob, ADLS Gen1 en ADLS Gen2.

Het AAD-token van gebruikers wordt gebruikt in een notebook of een lokaal Python-programma als een van deze functies rechtstreeks wordt aangeroepen: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden ingediend voor verificatie van gegevenstoegang. Meer informatie: https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

Maak een gegevensset uit de bronmap.

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

Parameters

src_dir
str
Vereist

De lokale map die u wilt uploaden.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Vereist

Vereist: het gegevensarchiefpad waarnaar de bestanden worden geüpload.

pattern
str
Vereist

Optioneel, indien opgegeven, filtert alle padnamen die overeenkomen met het opgegeven patroon, vergelijkbaar met python glob-pakket, met ondersteuning voor '*', '?' en tekenbereiken uitgedrukt met [].

show_progress
bool
Vereist

Optioneel, geeft aan of de voortgang van het uploaden in de console moet worden weergegeven. De standaardinstelling is True.

Retouren

De geregistreerde gegevensset.

Retourtype