Dataset Classe

Representa um recurso para explorar, transformar e gerenciar dados no Azure Machine Learning.

Um DataSet é uma referência a dados em uma Datastore ou atrás de URLs da Web públicas.

Para métodos preteridos nessa classe, verifique AbstractDataset a classe para as APIs aprimoradas.

Há suporte para os seguintes tipos de conjuntos de valores:

  • TabularDataset representa dados em um formato tabular criado pela análise do arquivo fornecido ou da lista de arquivos.

  • FileDataset faz referência a um ou vários arquivos em repositórios de armazenamento ou de URLs públicas.

Para começar a usar os conjuntos de valores, consulte o artigo adicionar & registrar conjuntos de registrosou Ver os blocos de anotações https://aka.ms/tabulardataset-samplenotebook e https://aka.ms/filedataset-samplenotebook .

Herança
builtins.object
Dataset

Construtor

Dataset(definition, workspace=None, name=None, id=None)

Comentários

A classe DataSet expõe dois atributos de classe de conveniência ( File e Tabular ) que você pode usar para criar um conjunto de um sem trabalhar com os métodos de fábrica correspondentes. Por exemplo, para criar um conjunto de um DataSet usando estes atributos:

  • Dataset.Tabular.from_delimited_files()

  • Dataset.File.from_files()

Você também pode criar um novo TabularDataset ou filedataset chamando diretamente os métodos de fábrica correspondentes da classe definida em TabularDatasetFactory e FileDatasetFactory .

O exemplo a seguir mostra como criar um TabularDataset apontando para um único caminho em um armazenamento de dados.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

O exemplo completo está disponível em https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

Variáveis

azureml.core.Dataset.File

Um atributo de classe que fornece acesso aos métodos FileDatasetFactory para criar novos objetos filedataset. Uso: Dataset.File.from_files ().

azureml.core.Dataset.Tabular

Um atributo de classe que fornece acesso aos métodos TabularDatasetFactory para criar novos objetos TabularDataset. Uso: Dataset.Tabular.from_delimited_files ().

Métodos

archive

Arquive um conjunto de um DataSet ativo ou preterido.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

auto_read_files

Analisa os arquivos no caminho especificado e retorna um novo conjunto de um.

Observação

Esse método é preterido. Use os métodos Dataset.Tabular.from_ * para ler arquivos. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

compare_profiles

Comparar o perfil do conjunto de perfis atual com outro perfil de conjunto de um.

Isso mostra as diferenças nas estatísticas de resumo entre dois conjuntos de valores. O parâmetro ' rhs_dataset ' significa "lado direito" e é simplesmente o segundo conjunto de um. O primeiro conjunto de objetos (o objeto DataSet atual) é considerado o "lado esquerdo".

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

create_snapshot

Crie um instantâneo do DataSet registrado.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

delete_snapshot

Exclua o instantâneo do conjunto de um nome.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

deprecate

Substitua um conjunto de ativos em um espaço de trabalho por outro conjunto de um.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

diff

Diff o conjunto de um atual com rhs_dataset.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

from_binary_files

Crie um conjunto de entrada não registrado em memória a partir de arquivos binários.

Observação

Esse método é preterido. Em vez disso, use Dataset.File.from_files. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

from_delimited_files

Crie um conjunto de bits na memória não registrado de arquivos delimitados.

Observação

Esse método é preterido. Em vez disso, use Dataset.Tabular.from_delimited_files. Para obter mais informações, confira https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
from_excel_files

Crie um conjunto de entrada não registrado em memória de arquivos do Excel.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

from_json_files

Crie um conjunto de entrada não registrado em memória a partir de arquivos JSON.

Observação

Esse método é preterido. Use Dataset.Tabular.from_json_lines_files em vez de ler o arquivo de linhas JSON. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

from_pandas_dataframe

Crie um conjunto de entrada não registrado em memória a partir de um dataframe do pandas.

Observação

Esse método é preterido. Em vez disso, use Dataset.Tabular.register_pandas_dataframe. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

from_parquet_files

Crie um conjunto de entrada não registrado em memória de arquivos parquet.

Observação

Esse método é preterido. Em vez disso, use Dataset.Tabular.from_parquet_files. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

from_sql_query

Crie um conjunto de entrada não registrado na memória a partir de uma consulta SQL.

Observação

Esse método é preterido. Em vez disso, use Dataset.Tabular.from_sql_query. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

generate_profile

Gerar novo perfil para o conjunto de os.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

get

Obtenha um conjunto de um DataSet que já existe no espaço de trabalho, especificando seu nome ou ID.

Observação

Esse método é preterido. Em vez disso, use get_by_name e get_by_id. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

get_all

Obtenha todos os conjuntos de valores registrados no espaço de trabalho.

get_all_snapshots

Obter todos os instantâneos do conjunto de um.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

get_by_id

Obtenha um conjunto de um DataSet que é salvo no espaço de trabalho.

get_by_name

Obtenha um conjunto de registros registrado do espaço de trabalho por seu nome de registro.

get_definition

Obtenha uma definição específica do conjunto de informações.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

get_definitions

Obtenha todas as definições do conjunto de os.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

get_profile

Obtenha estatísticas de resumo sobre o conjunto de cálculo calculado anteriormente.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

get_snapshot

Obtenha o instantâneo do conjunto de um nome.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

head

Efetua pull do número especificado de registros especificados deste conjunto de e retorna-os como um dataframe.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

list

Liste todos os conjuntos de valores no espaço de trabalho, incluindo aqueles com is_visible propriedade igual a false.

Observação

Essa propriedade é preterida. Use get_all em vez disso. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

reactivate

Reative um conjunto de e arquivado ou preterido.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

register

Registre o conjunto de registros no espaço de trabalho, disponibilizando-o para outros usuários do espaço de trabalho.

Observação

Esse método é preterido. Use register em vez disso. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

sample

Gere um novo exemplo a partir do conjunto de fonte de origem, usando a estratégia de amostragem e os parâmetros fornecidos.

Observação

Esse método é preterido. Crie um TabularDataset chamando os métodos estáticos em DataSet. tabular e use o take_sample método lá. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

to_pandas_dataframe

Crie um dataframe do pandas executando o pipeline de transformação definido por esta definição de conjunto de conjuntos.

Observação

Esse método é preterido. Crie um TabularDataset chamando os métodos estáticos em DataSet. tabular e use o to_pandas_dataframe método lá. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

to_spark_dataframe

Crie um dataframe do Spark que possa executar o pipeline de transformação definido por esta definição de conjunto de conjuntos.

Observação

Esse método é preterido. Crie um TabularDataset chamando os métodos estáticos em DataSet. tabular e use o to_spark_dataframe método lá. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

update

Atualize os atributos mutáveis do conjunto de espaços no espaço de trabalho e retorne o conjunto de espaço de trabalho atualizado.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

update_definition

Atualize a definição do conjunto de conjuntos.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

archive

Arquive um conjunto de um DataSet ativo ou preterido.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

archive()

Retornos

nenhuma.

Tipo de retorno

<xref:None>

Comentários

Após o arquivamento, qualquer tentativa de consumir o conjunto de resultados resultará em um erro. Se arquivado por acidente, reativar irá ativá-lo.

auto_read_files

Analisa os arquivos no caminho especificado e retorna um novo conjunto de um.

Observação

Esse método é preterido. Use os métodos Dataset.Tabular.from_ * para ler arquivos. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

auto_read_files(path, include_path=False, partition_format=None)

Parâmetros

path
DataReference ou <xref:str>

Um caminho de dados em um datastore registrado, um caminho local ou uma URL HTTP (CSV/TSV).

include_path
<xref:bool>

Se deve ser incluída uma coluna que contém o caminho do arquivo do qual os dados foram lidos. Útil ao ler vários arquivos e deseja saber para qual arquivo um registro específico foi originado. Também é útil se houver informações no caminho ou nome do arquivo que você deseja em uma coluna.

partition_format
<xref:str>

Especifique o formato de partição no caminho e crie colunas de cadeia de caracteres a partir do formato ' {x} ' e da coluna datetime do formato ' {x: AAAA/MM/DD/HH/mm/ss} ', onde ' yyyy ', ' MM ', ' dd ', ' HH ', ' mm ' e ' ss ' são usados para extração de ano, mês, dia, hora, minuto e segundo para o tipo DateTime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado um caminho de arquivo '.. /Accounts/2019/01/01/data.csv ', em que os dados são particionados por nome e hora do departamento, podemos definir '/{Department}/{PartitionDate: YYYY/MM/DD}/data.csv ' para criar colunas ' Department ' do tipo de cadeia de caracteres e ' PartitionDate ' do tipo DateTime.

Retornos

Objeto DataSet.

Tipo de retorno

Comentários

Use esse método para ter formatos de arquivo e delimitadores detectados automaticamente.

Depois de criar um conjunto de um, você deve usar get_profile para listar os tipos de coluna detectados e as estatísticas de resumo para cada coluna.

O DataSet retornado não está registrado com o espaço de trabalho.

compare_profiles

Comparar o perfil do conjunto de perfis atual com outro perfil de conjunto de um.

Isso mostra as diferenças nas estatísticas de resumo entre dois conjuntos de valores. O parâmetro ' rhs_dataset ' significa "lado direito" e é simplesmente o segundo conjunto de um. O primeiro conjunto de objetos (o objeto DataSet atual) é considerado o "lado esquerdo".

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=<HistogramCompareMethod.WASSERSTEIN: 0>)

Parâmetros

rhs_dataset
Dataset

Um segundo conjunto de um, também chamado de conjunto de um "lado direito" para comparação.

profile_arguments
<xref:dict>

Argumentos para o perfil específico de recuperar.

include_columns
list[<xref:str>]

Lista de nomes de coluna a serem incluídos na comparação.

exclude_columns
list[<xref:str>]

Lista de nomes de coluna a serem excluídos em comparação.

histogram_compare_method
HistogramCompareMethod

Enum que descreve o método de comparação, por exemplo: Wasserstein ou Energy

Retornos

Diferença entre os dois perfis de conjunto de mesmos.

Tipo de retorno

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Comentários

Isso se destina somente a conjuntos de itens registrados. Gera uma exceção se o perfil atual do conjunto de perfis não existe. Para conjuntos de valores não registrados, use o método Profile. Compare.

create_snapshot

Crie um instantâneo do DataSet registrado.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parâmetros

snapshot_name
<xref:str>

O nome do instantâneo. Os nomes de instantâneos devem ser exclusivos em um conjunto de um DataSet.

compute_target
<xref:typing.Union>[ComputeTarget, <xref:str>]

Destino de computação opcional para executar a criação do perfil de instantâneo. Se omitido, a computação local será usada.

create_data_snapshot
<xref:bool>

Se for true, uma cópia materializada dos dados será criada.

target_datastore
<xref:typing.Union>[AbstractAzureStorageDatastore, <xref:str>]

Repositório de armazenamento de destino para salvar o instantâneo. Se omitido, o instantâneo será criado no armazenamento padrão do espaço de trabalho.

Retornos

Objeto de instantâneo de DataSet.

Tipo de retorno

Comentários

Instantâneos capturam estatísticas de Resumo de ponto no tempo dos dados subjacentes e uma cópia opcional dos dados em si. Para saber mais sobre a criação de instantâneos, vá para https://aka.ms/azureml/howto/createsnapshots .

delete_snapshot

Exclua o instantâneo do conjunto de um nome.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Parâmetros

snapshot_name
<xref:str>

O nome do instantâneo.

Retornos

nenhuma.

Tipo de retorno

<xref:None>

Comentários

Use isso para liberar o armazenamento consumido pelos dados salvos em instantâneos que você não precisa mais.

deprecate

Substitua um conjunto de ativos em um espaço de trabalho por outro conjunto de um.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Parâmetros

deprecate_by_dataset_id
<xref:str>

A ID do conjunto de código que é a substituição pretendida para este conjunto de DataSet.

Retornos

nenhuma.

Tipo de retorno

<xref:None>

Comentários

Os conjuntos de linhas preteridos registrarão avisos quando forem consumidos. A substituição de um DataSet substitui todas as suas definições.

Os conjuntos de linhas preteridos ainda podem ser consumidos. Para bloquear completamente a consumido um conjunto de um DataSet, arquive-o.

Se for preterido por acidente, reativar irá ativá-lo.

diff

Diff o conjunto de um atual com rhs_dataset.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Parâmetros

rhs_dataset
Dataset

Outro conjunto de conjuntos também é chamado de conjunto de e do lado direito para comparação

compute_target
<xref:typing.Union>[ComputeTarget, <xref:str>]

destino de computação para executar a comparação. Se omitido, a computação local será usada.

columns
list[<xref:str>]

Lista de nomes de coluna a serem incluídos na comparação.

Retornos

Objeto de execução de ação do conjunto de uma.

Tipo de retorno

from_binary_files

Crie um conjunto de entrada não registrado em memória a partir de arquivos binários.

Observação

Esse método é preterido. Em vez disso, use Dataset.File.from_files. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

from_binary_files(path)

Parâmetros

path
DataReference ou <xref:str>

Um caminho de dados em um repositório de armazenamento registrado ou um caminho local.

Retornos

O objeto DataSet.

Tipo de retorno

Comentários

Use este método para ler arquivos como fluxos de dados binários. Retorna um objeto de fluxo de arquivo por arquivo lido. Use esse método quando estiver lendo imagens, vídeos, áudio ou outros dados binários.

get_profile e create_snapshot não funcionará conforme o esperado para um conjunto de um DataSet criado por esse método.

O DataSet retornado não está registrado com o espaço de trabalho.

from_delimited_files

Crie um conjunto de bits na memória não registrado de arquivos delimitados.

Observação

Esse método é preterido. Em vez disso, use Dataset.Tabular.from_delimited_files. Para obter mais informações, confira https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
from_delimited_files(path, separator=',', header=<PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS: 3>, encoding=<FileEncoding.UTF8: 0>, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=<SkipLinesBehavior.NO_ROWS: 0>, comment=None, include_path=False, archive_options=None, partition_format=None)

Parâmetros

path
DataReference ou <xref:str>

Um caminho de dados em um repositório de armazenamento registrado, um caminho local ou uma URL HTTP.

separator
<xref:str>

O separador usado para dividir colunas.

header
PromoteHeadersBehavior

Controla como os cabeçalhos de coluna são promovidos durante a leitura de arquivos.

encoding
FileEncoding

A codificação dos arquivos que estão sendo lidos.

quoting
<xref:bool>

Especifique como lidar com novos caracteres de linha entre aspas. O padrão (false) é interpretar novos caracteres de linha como novas linhas iniciais, independentemente de os caracteres de nova linha estarem entre aspas ou não. Se definido como true, os caracteres de nova linha dentro das aspas não resultarão em novas linhas, e a velocidade de leitura do arquivo ficará mais lenta.

infer_column_types
<xref:bool>

Indica se os tipos de dados de coluna são inferidos.

skip_rows
<xref:int>

Quantas linhas serão ignoradas nos arquivos que estão sendo lidos.

skip_mode
SkipLinesBehavior

Controla como as linhas são ignoradas durante a leitura de arquivos.

comment
<xref:str>

Caractere usado para indicar linhas de comentário nos arquivos que estão sendo lidos. As linhas que começam com essa cadeia de caracteres serão ignoradas.

include_path
<xref:bool>

Se deve ser incluída uma coluna que contém o caminho do arquivo do qual os dados foram lidos. Isso é útil quando você está lendo vários arquivos e deseja saber para qual arquivo um registro específico foi originado ou para manter informações úteis no caminho do arquivo.

archive_options
<xref:azureml.dataprep.ArchiveOptions>

Opções para arquivo morto, incluindo tipo de arquivo morto e padrão glob de entrada. Há suporte apenas para ZIP como tipo de arquivo morto no momento. Por exemplo, especificar


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

lê todos os arquivos com o nome que termina com "10-20.csv" em ZIP.

partition_format
<xref:str>

Especifique o formato de partição no caminho e crie colunas de cadeia de caracteres a partir do formato ' {x} ' e da coluna datetime do formato ' {x: AAAA/MM/DD/HH/mm/ss} ', onde ' yyyy ', ' MM ', ' dd ', ' HH ', ' mm ' e ' ss ' são usados para extração de ano, mês, dia, hora, minuto e segundo para o tipo DateTime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado um caminho de arquivo '.. /Accounts/2019/01/01/data.csv ', em que os dados são particionados por nome e hora do departamento, podemos definir '/{Department}/{PartitionDate: YYYY/MM/DD}/data.csv ' para criar colunas ' Department ' do tipo de cadeia de caracteres e ' PartitionDate ' do tipo DateTime.

Retornos

Objeto DataSet.

Tipo de retorno

Comentários

Use esse método para ler arquivos de texto delimitados quando desejar controlar as opções usadas.

Depois de criar um conjunto de um, você deve usar get_profile para listar os tipos de coluna detectados e as estatísticas de resumo para cada coluna.

O DataSet retornado não está registrado com o espaço de trabalho.

from_excel_files

Crie um conjunto de entrada não registrado em memória de arquivos do Excel.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Parâmetros

path
DataReference ou <xref:str>

Um caminho de dados em um repositório de armazenamento registrado ou um caminho local.

sheet_name
<xref:str>

O nome da planilha do Excel a ser carregada. Por padrão, podemos ler a primeira planilha de cada arquivo do Excel.

use_column_headers
<xref:bool>

Controla se a primeira linha deve ser usada como cabeçalhos de coluna.

skip_rows
<xref:int>

Quantas linhas serão ignoradas nos arquivos que estão sendo lidos.

include_path
<xref:bool>

Se deve ser incluída uma coluna que contém o caminho do arquivo do qual os dados foram lidos. Isso é útil quando você está lendo vários arquivos e deseja saber para qual arquivo um registro específico foi originado ou para manter informações úteis no caminho do arquivo.

infer_column_types
<xref:bool>

Se for true, os tipos de dados da coluna serão inferidos.

partition_format
<xref:str>

Especifique o formato de partição no caminho e crie colunas de cadeia de caracteres a partir do formato ' {x} ' e da coluna datetime do formato ' {x: AAAA/MM/DD/HH/mm/ss} ', onde ' yyyy ', ' MM ', ' dd ', ' HH ', ' mm ' e ' ss ' são usados para extração de ano, mês, dia, hora, minuto e segundo para o tipo DateTime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado um caminho de arquivo '.. /Accounts/2019/01/01/data.xlsx ', em que os dados são particionados por nome e hora do departamento, podemos definir '/{Department}/{PartitionDate: YYYY/MM/DD}/data.xlsx ' para criar colunas ' Department ' do tipo de cadeia de caracteres e ' PartitionDate ' do tipo DateTime.

Retornos

Objeto DataSet.

Tipo de retorno

Comentários

Use este método para ler arquivos do Excel no formato. xlsx. Os dados podem ser lidos de uma planilha em cada arquivo do Excel. Depois de criar um conjunto de um, você deve usar get_profile para listar os tipos de coluna detectados e as estatísticas de resumo para cada coluna. O DataSet retornado não está registrado com o espaço de trabalho.

from_json_files

Crie um conjunto de entrada não registrado em memória a partir de arquivos JSON.

Observação

Esse método é preterido. Use Dataset.Tabular.from_json_lines_files em vez de ler o arquivo de linhas JSON. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

from_json_files(path, encoding=<FileEncoding.UTF8: 0>, flatten_nested_arrays=False, include_path=False, partition_format=None)

Parâmetros

path
DataReference ou <xref:str>

O caminho para os arquivos ou pasta (s) que você deseja carregar e analisar. Pode ser um caminho local ou uma URL de blob do Azure. Há suporte para o mascaramento. Por exemplo, você pode usar Path = "./Data *" para ler todos os arquivos com o nome que começa com "data".

encoding
FileEncoding

A codificação dos arquivos que estão sendo lidos.

flatten_nested_arrays
<xref:bool>

Manipulação de matrizes aninhadas do programa de controle de propriedade. Se você optar por mesclar matrizes JSON aninhadas, isso poderá resultar em um número muito maior de linhas.

include_path
<xref:bool>

Se deseja incluir uma coluna que contém o caminho do qual os dados foram lidos. Isso é útil quando você está lendo vários arquivos e pode querer saber para qual arquivo um registro específico foi originado ou para manter informações úteis no caminho do arquivo.

partition_format
<xref:str>

Especifique o formato de partição no caminho e crie colunas de cadeia de caracteres a partir do formato ' {x} ' e da coluna datetime do formato ' {x: AAAA/MM/DD/HH/mm/ss} ', onde ' yyyy ', ' MM ', ' dd ', ' HH ', ' mm ' e ' ss ' são usados para extração de ano, mês, dia, hora, minuto e segundo para o tipo DateTime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado um caminho de arquivo '.. /Accounts/2019/01/01/data.json ' e os dados são particionados por nome do departamento e hora, podemos definir '/{Department}/{PartitionDate: YYYY/MM/DD}/data.json ' para criar colunas ' Department ' do tipo de cadeia de caracteres e ' PartitionDate ' do tipo DateTime.

Retornos

O objeto DataSet local.

Tipo de retorno

from_pandas_dataframe

Crie um conjunto de entrada não registrado em memória a partir de um dataframe do pandas.

Observação

Esse método é preterido. Em vez disso, use Dataset.Tabular.register_pandas_dataframe. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

from_pandas_dataframe(dataframe, path=None, in_memory=False)

Parâmetros

dataframe
DataFrame

O dataframe do pandas.

path
<xref:typing.Union>[DataReference, <xref:str>]

Um caminho de dados no repositório de armazenamento registrado ou no caminho da pasta local.

in_memory
<xref:bool>

Se o dataframe será lido da memória em vez de persistir no disco.

Retornos

Um objeto DataSet.

Tipo de retorno

Comentários

Use este método para converter um dataframe do pandas em um objeto DataSet. Um conjunto de dados criado por esse método não pode ser registrado, já que eles são da memória.

Se in_memory for false, o dataframe do pandas será convertido em um arquivo CSV localmente. Se pat for do tipo DataReference, o quadro pandas será carregado no armazenamento de dados e o conjunto será baseado no DataReference. Se ' ' path ' for uma pasta local, o DataSet será criado fora do arquivo local que não pode ser excluído.

Gera uma exceção se a referência de dataatual não é um caminho de pasta.

from_parquet_files

Crie um conjunto de entrada não registrado em memória de arquivos parquet.

Observação

Esse método é preterido. Em vez disso, use Dataset.Tabular.from_parquet_files. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

from_parquet_files(path, include_path=False, partition_format=None)

Parâmetros

path
DataReference ou <xref:str>

Um caminho de dados em um repositório de armazenamento registrado ou um caminho local.

include_path
<xref:bool>

Se deve ser incluída uma coluna que contém o caminho do arquivo do qual os dados foram lidos. Isso é útil quando você está lendo vários arquivos e deseja saber para qual arquivo um registro específico foi originado ou para manter informações úteis no caminho do arquivo.

partition_format
<xref:str>

Especifique o formato de partição no caminho e crie colunas de cadeia de caracteres a partir do formato ' {x} ' e da coluna datetime do formato ' {x: AAAA/MM/DD/HH/mm/ss} ', onde ' yyyy ', ' MM ', ' dd ', ' HH ', ' mm ' e ' ss ' são usados para extração de ano, mês, dia, hora, minuto e segundo para o tipo DateTime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado um caminho de arquivo '.. /Accounts/2019/01/01/Data.parquet ', em que os dados são particionados por nome e hora do departamento, podemos definir '/{Department}/{PartitionDate: YYYY/MM/DD}/Data. parquet ' para criar colunas ' Department ' do tipo de cadeia de caracteres e ' PartitionDate ' do tipo DateTime.

Retornos

Objeto DataSet.

Tipo de retorno

Comentários

Use este método para ler arquivos parquet.

Depois de criar um conjunto de um, você deve usar get_profile para listar os tipos de coluna detectados e as estatísticas de resumo para cada coluna.

O DataSet retornado não está registrado com o espaço de trabalho.

from_sql_query

Crie um conjunto de entrada não registrado na memória a partir de uma consulta SQL.

Observação

Esse método é preterido. Em vez disso, use Dataset.Tabular.from_sql_query. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

from_sql_query(data_source, query)

Parâmetros

data_source
AzureSqlDatabaseDatastore

Os detalhes do repositório de armazenamento do Azure SQL.

query
<xref:str>

A consulta a ser executada para ler os dados.

Retornos

O objeto DataSet local.

Tipo de retorno

generate_profile

Gerar novo perfil para o conjunto de os.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Parâmetros

compute_target
<xref:typing.Union>[ComputeTarget, <xref:str>]

Um destino de computação opcional para executar a criação do perfil de instantâneo. Se omitido, a computação local será usada.

workspace
Workspace

Espaço de trabalho, necessário para conjuntos de valores transitórios (não registrados).

arguments
<xref:dict>[<xref:str>, <xref:object>]

Argumentos de perfil. Os argumentos válidos são:

  • ' include_stype_counts ' do tipo bool. Verifique se os valores se parecem com alguns tipos semânticos conhecidos, como endereço de email, endereço IP (V4/V6), número de telefone dos EUA, CEP dos EUA, latitude/longitude. Habilitar isso afeta o desempenho.

  • ' number_of_histogram_bins ' do tipo int. Representa o número de compartimentos de histograma a serem usados para dados numéricos. O valor padrão é 10.

Retornos

Objeto de execução de ação do conjunto de uma.

Tipo de retorno

Comentários

Chamada síncrona, será bloqueada até que seja concluída. Chame get_result para obter o resultado da ação.

get

Obtenha um conjunto de um DataSet que já existe no espaço de trabalho, especificando seu nome ou ID.

Observação

Esse método é preterido. Em vez disso, use get_by_name e get_by_id. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

get(workspace, name=None, id=None)

Parâmetros

workspace
Workspace

O espaço de trabalho do AzureML existente no qual o conjunto de entrada foi criado.

name
<xref:str>

O nome do conjunto de coleta a ser recuperado.

id
<xref:str>

Um identificador exclusivo do conjunto de espaços no espaço de trabalho.

Retornos

O DataSet com o nome ou ID especificado.

Tipo de retorno

Comentários

Você pode fornecer um name ou id . Uma exceção será gerada se:

  • namee id são especificados, mas não correspondem.

  • o conjunto de um com o especificado name ou id não pode ser encontrado no espaço de trabalho.

get_all

Obtenha todos os conjuntos de valores registrados no espaço de trabalho.

get_all(workspace)

Parâmetros

workspace
Workspace

O espaço de trabalho do AzureML existente no qual os conjuntos de valores foram registrados.

Retornos

Um dicionário de objetos TabularDataset e filedataset inseridos pelo seu nome de registro.

Tipo de retorno

<xref:dict>[<xref:str>, <xref:typing.Union>[TabularDataset, FileDataset]]

get_all_snapshots

Obter todos os instantâneos do conjunto de um.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

get_all_snapshots()

Retornos

Lista de instantâneos de DataSet.

Tipo de retorno

get_by_id

Obtenha um conjunto de um DataSet que é salvo no espaço de trabalho.

get_by_id(workspace, id)

Parâmetros

workspace
Workspace

O espaço de trabalho do AzureML existente no qual o conjunto de um é salvo.

id
<xref:str>

A ID do conjunto de um.

Retornos

O objeto DataSet. Se o conjunto de registros estiver registrado, seu nome de registro e a versão também serão retornados.

Tipo de retorno

<xref:typing.Union>[TabularDataset, FileDataset]

get_by_name

Obtenha um conjunto de registros registrado do espaço de trabalho por seu nome de registro.

get_by_name(workspace, name, version='latest')

Parâmetros

workspace
Workspace

O espaço de trabalho do AzureML existente no qual o conjunto de um foi registrado.

name
<xref:str>

O nome do registro.

version
<xref:int>

A versão do registro. O padrão é ' Latest '.

Retornos

O objeto DataSet registrado.

Tipo de retorno

<xref:typing.Union>[TabularDataset, FileDataset]

get_definition

Obtenha uma definição específica do conjunto de informações.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Parâmetros

version_id
<xref:str>

A ID da versão da definição do conjunto de conjuntos

Retornos

A definição do conjunto de conjuntos.

Tipo de retorno

Comentários

Se version_id for fornecido, Azure Machine Learning tentará obter a definição correspondente a essa versão. Se essa versão não existir, uma exceção será lançada. Se version_id for omitido, a versão mais recente será recuperada.

get_definitions

Obtenha todas as definições do conjunto de os.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

get_definitions()

Retornos

Um dicionário de definições de DataSet.

Tipo de retorno

<xref:dict>[<xref:str>, DatasetDefinition]

Comentários

Um conjunto de um DataSet registrado em um espaço de trabalho do AzureML pode ter várias definições, cada uma criada chamando update_definition . Cada definição tem um identificador exclusivo. A definição atual é a mais recente criada.

Para conjuntos de valores não registrados, há apenas uma definição.

get_profile

Obtenha estatísticas de resumo sobre o conjunto de cálculo calculado anteriormente.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Parâmetros

arguments
<xref:dict>[<xref:str>, <xref:object>]

Argumentos de perfil.

generate_if_not_exist
<xref:bool>

Indica se um perfil deve ser gerado, caso ele não exista.

workspace
Workspace

Espaço de trabalho, necessário para conjuntos de valores transitórios (não registrados).

compute_target
<xref:typing.Union>[ComputeTarget, <xref:str>]

Um destino de computação para executar a ação de perfil.

Retornos

DataProfile do conjunto de um.

Tipo de retorno

Comentários

Para um conjunto de um DataSet registrado com um espaço de trabalho Azure Machine Learning, esse método recupera um perfil existente que foi criado anteriormente chamando get_profile se ele ainda é válido. Os perfis são invalidados quando os dados alterados são detectados no DataSet ou os argumentos para get_profile são diferentes dos usados quando o perfil foi gerado. Se o perfil não estiver presente ou invalidado, o generate_if_not_exist determinará se um novo perfil é gerado.

Para um conjunto de resultados que não está registrado com um espaço de trabalho Azure Machine Learning, esse método sempre é executado generate_profile e retorna o resultado.

get_snapshot

Obtenha o instantâneo do conjunto de um nome.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Parâmetros

snapshot_name
<xref:str>

O nome do instantâneo.

Retornos

Objeto de instantâneo de DataSet.

Tipo de retorno

head

Efetua pull do número especificado de registros especificados deste conjunto de e retorna-os como um dataframe.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

head(count)

Parâmetros

count
<xref:int>

O número de registros a serem efetuados pull.

Retornos

Um dataframe do pandas.

Tipo de retorno

list

Liste todos os conjuntos de valores no espaço de trabalho, incluindo aqueles com is_visible propriedade igual a false.

Observação

Essa propriedade é preterida. Use get_all em vez disso. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

list(workspace)

Parâmetros

workspace
Workspace

O espaço de trabalho para o qual você deseja recuperar a lista de conjuntos de os.

Retornos

Uma lista de objetos DataSet.

Tipo de retorno

reactivate

Reative um conjunto de e arquivado ou preterido.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

reactivate()

Retornos

nenhuma.

Tipo de retorno

<xref:None>

register

Registre o conjunto de registros no espaço de trabalho, disponibilizando-o para outros usuários do espaço de trabalho.

Observação

Esse método é preterido. Use register em vez disso. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Parâmetros

workspace
Workspace

O espaço de trabalho do AzureML no qual o conjunto de um deve ser registrado.

name
<xref:str>

O nome do conjunto de entrada no espaço de trabalho.

description
<xref:str>

Uma descrição do conjunto de um.

tags
<xref:dict>[<xref:str>, <xref:str>]

Marcas a serem associadas ao DataSet.

visible
<xref:bool>

Indica se o DataSet está visível na interface do usuário. Se for false, o conjunto de um será ocultado na interface do usuário e estará disponível via SDK.

exist_ok
<xref:bool>

Se for true, o método retornará o conjunto de dados se ele já existir no espaço de trabalho especificado, caso contrário, erro.

update_if_exist
<xref:bool>

Se exist_ok for true e update_if_exist for true, esse método atualizará a definição e retornará o DataSet atualizado.

Retornos

Um objeto DataSet registrado no espaço de trabalho.

Tipo de retorno

sample

Gere um novo exemplo a partir do conjunto de fonte de origem, usando a estratégia de amostragem e os parâmetros fornecidos.

Observação

Esse método é preterido. Crie um TabularDataset chamando os métodos estáticos em DataSet. tabular e use o take_sample método lá. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Parâmetros

sample_strategy
<xref:str>

Estratégia de exemplo a ser usada. Os valores aceitos são "top_n", "simple_random" ou "desratificar".

arguments
<xref:dict>[<xref:str>, <xref:object>]

Um dicionário com chaves do "argumento opcional" na lista mostrado acima e os valores da coluna "tipo" de Tye. Somente argumentos do método de amostragem correspondente podem ser usados. Por exemplo, para um tipo de exemplo "simple_random", você só pode especificar um dicionário com as chaves "probabilidade" e "semente".

Retornos

Objeto DataSet como um exemplo do DataSet original.

Tipo de retorno

Comentários

As amostras são geradas pela execução do pipeline de transformação definido por esse conjunto de dados e, em seguida, pela aplicação da estratégia e dos parâmetros de amostragem aos de saída. Cada método de amostragem dá suporte aos seguintes argumentos opcionais:

  • top_n

    • Argumentos opcionais

      • n, digite o número inteiro. Selecione as N primeiras linhas como seu exemplo.
  • simple_random

    • Argumentos opcionais

      • probabilidade, digite float. Amostragem aleatória simples, em que cada linha tem a mesma probabilidade de ser selecionada. A probabilidade deve ser um número entre 0 e 1.

      • semente, digite float. Usado pelo gerador de números aleatórios. Use para capacidade de repetição.

  • estratificada

    • Argumentos opcionais

      • colunas, tipo List [Str]. Lista de colunas Strata nos dados.

      • semente, digite float. Usado pelo gerador de números aleatórios. Use para capacidade de repetição.

      • frações, digite dictname [tupla, float]. Tupla: valores de coluna que definem um estrato, devem estar na mesma ordem que os nomes de coluna. Float: Weight anexado a um estrato durante a amostragem.

Os trechos de código a seguir são padrões de design de exemplo para métodos de exemplo diferentes.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Crie um dataframe do pandas executando o pipeline de transformação definido por esta definição de conjunto de conjuntos.

Observação

Esse método é preterido. Crie um TabularDataset chamando os métodos estáticos em DataSet. tabular e use o to_pandas_dataframe método lá. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Retornos

Um dataframe do pandas.

Tipo de retorno

Comentários

Retornar um dataframe do pandas totalmente materializado na memória.

to_spark_dataframe

Crie um dataframe do Spark que possa executar o pipeline de transformação definido por esta definição de conjunto de conjuntos.

Observação

Esse método é preterido. Crie um TabularDataset chamando os métodos estáticos em DataSet. tabular e use o to_spark_dataframe método lá. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Retornos

Um dataframe do Spark.

Tipo de retorno

Comentários

O data frame do Spark retornado é apenas um plano de execução e, na verdade, não contém nenhum dado, já que os quadros de dados do Spark são avaliados lentamente.

update

Atualize os atributos mutáveis do conjunto de espaços no espaço de trabalho e retorne o conjunto de espaço de trabalho atualizado.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Parâmetros

name
<xref:str>

O nome do conjunto de entrada no espaço de trabalho.

description
<xref:str>

Uma descrição dos dados.

tags
<xref:dict>[<xref:str>, <xref:str>]

Marcas para associar o conjunto de um.

visible
<xref:bool>

Indica se o DataSet está visível na interface do usuário.

Retornos

Um objeto DataSet atualizado do espaço de trabalho.

Tipo de retorno

update_definition

Atualize a definição do conjunto de conjuntos.

Observação

Esse método é preterido. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Parâmetros

definition
DatasetDefinition

A nova definição deste conjunto de um.

definition_update_message
<xref:str>

A mensagem de atualização de definição.

Retornos

Um objeto DataSet atualizado do espaço de trabalho.

Tipo de retorno

Comentários

Para consumir o conjunto de um atualizado, use o objeto retornado por esse método.

Atributos

definition

Retornar a definição atual do conjunto de conjuntos.

Observação

Essa propriedade é preterida. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

Retornos

A definição do conjunto de conjuntos.

Tipo de retorno

Comentários

Uma definição de conjunto de dados é uma série de etapas que especificam como ler e transformar dados.

Um conjunto de um DataSet registrado em um espaço de trabalho do AzureML pode ter várias definições, cada uma criada chamando update_definition . Cada definição tem um identificador exclusivo. Ter várias definições permite que você faça alterações nos conjuntos de valores existentes sem quebrar os modelos e pipelines que dependem da definição mais antiga.

Para conjuntos de valores não registrados, há apenas uma definição.

definition_version

Retornar a versão da definição atual do conjunto de conjuntos.

Observação

Essa propriedade é preterida. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

Retornos

A versão de definição do conjunto de conjuntos.

Tipo de retorno

<xref:str>

Comentários

Uma definição de conjunto de dados é uma série de etapas que especificam como ler e transformar dados.

Um conjunto de um DataSet registrado em um espaço de trabalho do AzureML pode ter várias definições, cada uma criada chamando update_definition . Cada definição tem um identificador exclusivo. A definição atual é a mais recente criada, cuja ID é retornada por isso.

Para conjuntos de valores não registrados, há apenas uma definição.

description

Retornar a descrição do conjunto de os.

Retornos

A descrição do conjunto de um.

Tipo de retorno

<xref:str>

Comentários

A especificação de uma descrição dos dados no DataSet permite que os usuários do espaço de trabalho compreendam o que os dados representam e como eles podem usá-lo.

id

Se o conjunto de um tiver sido registrado em um espaço de trabalho, retorne a ID do conjunto de um. Caso contrário, retorne nenhum.

Retornos

A ID do conjunto de um.

Tipo de retorno

<xref:str>

is_visible

Controle a visibilidade de um conjunto de um DataSet na interface do usuário do espaço de trabalho do Azure ML.

Observação

Essa propriedade é preterida. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

Retornos

A visibilidade do conjunto de os.

Tipo de retorno

<xref:bool>

Comentários

Valores retornados:

  • True: DataSet é visível na interface do usuário do espaço de trabalho. Padrão.

  • False: DataSet está oculto na interface do usuário do espaço de trabalho.

Não tem nenhum efeito em conjuntos de valores não registrados.

name

Retornar o nome do conjunto de um.

Retornos

O nome do conjunto de um.

Tipo de retorno

<xref:str>

state

Retornar o estado do conjunto de um.

Observação

Essa propriedade é preterida. Para obter mais informações, confira https://aka.ms/dataset-deprecation.

Retornos

O estado do conjunto de os.

Tipo de retorno

<xref:str>

Comentários

O significado e o efeito dos Estados são os seguintes:

  • Ativo. As definições ativas são exatamente o que elas parecem, todas as ações podem ser executadas em definições ativas.

  • Preterido. a definição preterida pode ser usada, mas resultará em um aviso sendo registrado nos logs sempre que os dados subjacentes forem acessados.

  • Arquivado. Uma definição arquivada não pode ser usada para executar nenhuma ação. Para executar ações em uma definição arquivada, ela deve ser reativada.

tags

Retornar as marcas associadas ao DataSet.

Retornos

Marcas DataSet.

Tipo de retorno

<xref:dict>[<xref:str>, <xref:str>]

workspace

Se o conjunto de um estiver registrado em um espaço de trabalho, retorne-o. Caso contrário, retorne nenhum.

Retornos

O workspace.

Tipo de retorno