FileDatasetFactory Classe

Contém métodos para criar um conjunto de dados de ficheiros para o Azure Machine Learning.

A FileDataset é criado a partir do from_files método definido nesta classe.

Para obter mais informações sobre como trabalhar com conjuntos de dados de ficheiros, consulte o bloco de notas https://aka.ms/filedataset-samplenotebook.

Herança
builtins.object
FileDatasetFactory

Construtor

FileDatasetFactory()

Métodos

from_files

Crie um FileDataset para representar fluxos de ficheiros.

upload_directory

Criar um conjunto de dados a partir do diretório de origem.

from_files

Crie um FileDataset para representar fluxos de ficheiros.

static from_files(path, validate=True, partition_format=None, is_file=False)

Parâmetros

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Necessário

O caminho para os ficheiros de origem, que podem ser um valor único ou uma lista da cadeia de url (http[s]|abfs[s]|wasb[s]), DataPath objeto ou cadeia de identificação do Datastore caminho relativo. Tenha em atenção que a lista de caminhos não pode incluir urls e arquivos de dados em conjunto.

validate
bool
Necessário

Indica se deve validar se os dados podem ser carregados a partir do conjunto de dados devolvido. Predefinições para Verdadeiro. A validação requer que a origem de dados esteja acessível a partir da computação atual.

partition_format
str
Necessário

Especifique o formato de partição do caminho. Predefinições para Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. Formatar a parte "{column_name}" cria a coluna de cadeia e "{column_name:aaaa/MM/dd/HH/mm/ss}" cria a coluna datetime, em que "aaaa", "MM", "dd", "HH", "mm" e "ss" são utilizados para extrair ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até ao fim do caminho do ficheiro. Por exemplo, dado o caminho ".. /Accounts/2019/01/01/data.jsonl' em que a partição é por nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' cria uma coluna de cadeia "Departamento" com o valor "Contas" e uma coluna datetime "PartitionDate" com o valor "2019-01-01".

is_file
bool
Necessário

Indica se todos os caminhos de entrada apontam para ficheiros. Por predefinição, o motor do conjunto de dados tenta verificar se os caminhos de entrada apontam para ficheiros. Defina este sinalizador como Verdadeiro quando todos os caminhos de entrada forem Ficheiro para acelerar a criação do Conjunto de dados.

Devoluções

Um FileDataset objeto.

Tipo de retorno

Observações

from_files cria um objeto de FileDataset classe, que define as operações para carregar fluxos de ficheiros a partir do caminho fornecido.

Para que os dados sejam acessíveis pelo Azure Machine Learning, os ficheiros especificados por path têm de estar localizados num Datastore ou estar acessíveis com URLs da Web públicos ou url de Blob, ADLS Gen1 e ADLS Gen2.

O token do AAD dos utilizadores será utilizado no bloco de notas ou no programa python local se chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será utilizada em tarefas submetidas pelo Experiment.submit para autenticação de acesso a dados. Saiba mais: https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

Criar um conjunto de dados a partir do diretório de origem.

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

Parâmetros

src_dir
str
Necessário

O diretório local a carregar.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Necessário

Obrigatório, o caminho do arquivo de dados para o qual os ficheiros serão carregados.

pattern
str
Necessário

Opcional, se for fornecido, irá filtrar todos os nomes de caminho que correspondem ao padrão especificado, semelhante ao pacote glob do Python, suportando '*', '?' e intervalos de carateres expressos com [].

show_progress
bool
Necessário

Opcional, indica se pretende mostrar o progresso do carregamento na consola. As predefinições são Verdadeiras.

Devoluções

O conjunto de dados registado.

Tipo de retorno