FileDatasetFactory Classe
Contém métodos para criar um conjunto de dados de ficheiros para o Azure Machine Learning.
A FileDataset é criado a partir do from_files método definido nesta classe.
Para obter mais informações sobre como trabalhar com conjuntos de dados de ficheiros, consulte o bloco de notas https://aka.ms/filedataset-samplenotebook.
- Herança
-
builtins.objectFileDatasetFactory
Construtor
FileDatasetFactory()
Métodos
from_files |
Crie um FileDataset para representar fluxos de ficheiros. |
upload_directory |
Criar um conjunto de dados a partir do diretório de origem. |
from_files
Crie um FileDataset para representar fluxos de ficheiros.
static from_files(path, validate=True, partition_format=None, is_file=False)
Parâmetros
O caminho para os ficheiros de origem, que podem ser um valor único ou uma lista da cadeia de url (http[s]|abfs[s]|wasb[s]), DataPath objeto ou cadeia de identificação do Datastore caminho relativo. Tenha em atenção que a lista de caminhos não pode incluir urls e arquivos de dados em conjunto.
- validate
- bool
Indica se deve validar se os dados podem ser carregados a partir do conjunto de dados devolvido. Predefinições para Verdadeiro. A validação requer que a origem de dados esteja acessível a partir da computação atual.
- partition_format
- str
Especifique o formato de partição do caminho. Predefinições para Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. Formatar a parte "{column_name}" cria a coluna de cadeia e "{column_name:aaaa/MM/dd/HH/mm/ss}" cria a coluna datetime, em que "aaaa", "MM", "dd", "HH", "mm" e "ss" são utilizados para extrair ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até ao fim do caminho do ficheiro. Por exemplo, dado o caminho ".. /Accounts/2019/01/01/data.jsonl' em que a partição é por nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' cria uma coluna de cadeia "Departamento" com o valor "Contas" e uma coluna datetime "PartitionDate" com o valor "2019-01-01".
- is_file
- bool
Indica se todos os caminhos de entrada apontam para ficheiros. Por predefinição, o motor do conjunto de dados tenta verificar se os caminhos de entrada apontam para ficheiros. Defina este sinalizador como Verdadeiro quando todos os caminhos de entrada forem Ficheiro para acelerar a criação do Conjunto de dados.
Devoluções
Um FileDataset objeto.
Tipo de retorno
Observações
from_files cria um objeto de FileDataset classe, que define as operações para carregar fluxos de ficheiros a partir do caminho fornecido.
Para que os dados sejam acessíveis pelo Azure Machine Learning, os ficheiros especificados por path
têm de estar localizados num Datastore ou estar acessíveis com URLs da Web públicos ou url de Blob, ADLS Gen1 e ADLS Gen2.
O token do AAD dos utilizadores será utilizado no bloco de notas ou no programa python local se chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será utilizada em tarefas submetidas pelo Experiment.submit para autenticação de acesso a dados. Saiba mais: https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
Criar um conjunto de dados a partir do diretório de origem.
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
Parâmetros
Obrigatório, o caminho do arquivo de dados para o qual os ficheiros serão carregados.
- pattern
- str
Opcional, se for fornecido, irá filtrar todos os nomes de caminho que correspondem ao padrão especificado, semelhante ao pacote glob do Python, suportando '*', '?' e intervalos de carateres expressos com [].
- show_progress
- bool
Opcional, indica se pretende mostrar o progresso do carregamento na consola. As predefinições são Verdadeiras.
Devoluções
O conjunto de dados registado.
Tipo de retorno
Comentários
https://aka.ms/ContentUserFeedback.
Brevemente: Ao longo de 2024, vamos descontinuar progressivamente o GitHub Issues como mecanismo de feedback para conteúdos e substituí-lo por um novo sistema de feedback. Para obter mais informações, veja:Submeter e ver comentários