Share via


Glossário de machine learning de termos importantes

A lista seguinte é uma compilação de termos importantes de machine learning que são úteis à medida que cria os seus modelos personalizados no ML.NET.

Precisão

Na classificação, a precisão é o número de itens classificados corretamente divididos pelo número total de itens no conjunto de testes. Varia entre 0 (menos preciso) e 1 (mais preciso). A precisão é uma das métricas de avaliação do desempenho do modelo. Considere-o em conjunto com precisão, recuperação e classificação F.

Área sob a curva (AUC)

Na classificação binária, uma métrica de avaliação que é o valor da área sob a curva que desenha a taxa de verdadeiros positivos (no eixo y) em relação à taxa de falsos positivos (no eixo x). Varia entre 0,5 (pior) e 1 (melhor). Também conhecida como área sob a curva ROC, ou seja, curva característica operacional do recetor. Para obter mais informações, veja o artigo Característica operacional do recetor na Wikipédia.

Classificação binária

Um caso de classificação em que a etiqueta é apenas uma de duas classes. Para obter mais informações, veja a secção Classificação binária do tópico Tarefas de machine learning .

Calibragem

A calibragem é o processo de mapeamento de uma classificação não processada para uma associação de classe, para classificação binária e multiclasse. Alguns treinadores ML.NET têm um NonCalibrated sufixo. Estes algoritmos produzem uma classificação não processada que, em seguida, tem de ser mapeada para uma probabilidade de classe.

Catálogo

No ML.NET, um catálogo é uma coleção de funções de extensão, agrupadas por um objetivo comum.

Por exemplo, cada tarefa de machine learning (classificação binária, regressão, classificação, etc.) tem um catálogo de algoritmos de machine learning disponíveis (formadores). O catálogo dos formadores de classificação binária é: BinaryClassificationCatalog.BinaryClassificationTrainers.

Classificação

Quando os dados são utilizados para prever uma categoria, a tarefa de machine learning supervisionada é denominada classificação. A classificação binária refere-se à previsão de apenas duas categorias (por exemplo, classificar uma imagem como uma imagem de um 'gato' ou de um 'cão'). A classificação de várias classes refere-se à previsão de várias categorias (por exemplo, ao classificar uma imagem como uma imagem de uma raça específica de cão).

Coeficiente de determinação

Na regressão, uma métrica de avaliação que indica como os dados se adequam bem a um modelo. Varia entre 0 e 1. Um valor de 0 significa que os dados são aleatórios ou não podem ser ajustados ao modelo. Um valor de 1 significa que o modelo corresponde exatamente aos dados. Isto é frequentemente referido como r2, R2 ou r-quadrado.

Dados

Os dados são centrais para qualquer aplicação de machine learning. No ML.NET os dados são representados por IDataView objetos. Objetos de vista de dados:

  • são compostos por colunas e linhas
  • são avaliados preguiçosamente, ou seja, só carregam dados quando uma operação os chama
  • contêm um esquema que define o tipo, o formato e o comprimento de cada coluna

Avaliador

Uma classe no ML.NET que implementa a IEstimator<TTransformer> interface.

Um avaliador é uma especificação de uma transformação (transformação de preparação de dados e transformação de preparação de modelos de machine learning). Os estimadores podem ser acorrentados num pipeline de transformações. Os parâmetros de um avaliador ou pipeline de estimadores são aprendidos quando Fit são chamados. O resultado é Fit um Transformador.

Método de extensão

Um método .NET que faz parte de uma classe, mas que é definido fora da classe. O primeiro parâmetro de um método de extensão é uma referência estática this à classe à qual o método de extensão pertence.

Os métodos de extensão são utilizados extensivamente em ML.NET para construir instâncias de estimadores.

Funcionalidade

Uma propriedade mensurável do fenómeno que está a ser medido, normalmente um valor numérico (duplo). Várias funcionalidades são referidas como vetor de funcionalidades e normalmente armazenadas como double[]. As funcionalidades definem as características importantes do fenómeno que está a ser medido. Para obter mais informações, consulte o artigo Funcionalidade na Wikipédia.

Desenvolvimento de funcionalidades

A engenharia de funcionalidades é o processo que envolve a definição de um conjunto de funcionalidades e o desenvolvimento de software que produz vetores de funcionalidades a partir de dados de fenómenos disponíveis, ou seja, extração de funcionalidades. Para obter mais informações, consulte o artigo Engenharia de funcionalidades na Wikipédia.

Classificação F

Na classificação, uma métrica de avaliação que equilibra a precisão e a recuperação.

Hiperparâmetros

Um parâmetro de um algoritmo de machine learning. Os exemplos incluem o número de árvores a aprender numa floresta de decisão ou o tamanho do passo num algoritmo de gradação descendente. Os valores dos Hiperparâmetros são definidos antes de preparar o modelo e regem o processo de localização dos parâmetros da função de predição, por exemplo, os pontos de comparação numa árvore de decisões ou os pesos num modelo de regressão linear. Para obter mais informações, veja o artigo Hyperparameter na Wikipédia.

Etiqueta

O elemento a prever com o modelo de machine learning. Por exemplo, a raça de cão ou um futuro preço de ações.

Perda de registo

Na classificação, uma métrica de avaliação que caracteriza a precisão de um classificador. Quanto menor for a perda de registo, mais precisa será um classificador.

Função Perda

Uma função de perda é a diferença entre os valores da etiqueta de preparação e a predição feita pelo modelo. Os parâmetros do modelo são estimados minimizando a função de perda.

Diferentes formadores podem ser configurados com diferentes funções de perda.

Erro absoluto médio (MAE)

Na regressão, uma métrica de avaliação que é a média de todos os erros do modelo, em que o erro do modelo é a distância entre o valor da etiqueta prevista e o valor de etiqueta correto.

Modelação

Tradicionalmente, os parâmetros da função de predição. Por exemplo, os pesos num modelo de regressão linear ou os pontos divididos numa árvore de decisões. No ML.NET, um modelo contém todas as informações necessárias para prever a etiqueta de um objeto de domínio (por exemplo, imagem ou texto). Isto significa que ML.NET modelos incluem os passos de caracterização necessários, bem como os parâmetros para a função de predição.

Classificação de várias classes

Um caso de classificação em que a etiqueta é uma em cada três ou mais classes. Para obter mais informações, veja a secção Classificação multiclasse do tópico Tarefas de machine learning .

N-grama

Um esquema de extração de funcionalidades para dados de texto: qualquer sequência de palavras N transforma-se num valor de funcionalidade .

Normalização

A normalização é o processo de dimensionamento de dados de vírgula flutuante para valores entre 0 e 1. Muitos dos algoritmos de preparação utilizados no ML.NET exigem que os dados das funcionalidades de entrada sejam normalizados. ML.NET fornece uma série de transformações para normalização

Vetor de funcionalidade numérica

Um vetor de funcionalidade que consiste apenas em valores numéricos. Isto é semelhante a double[].

Pipeline

Todas as operações necessárias para ajustar um modelo a um conjunto de dados. Um pipeline consiste em passos de importação, transformação, caracterização e aprendizagem de dados. Quando um pipeline é preparado, transforma-se num modelo.

Precisão

Na classificação, a precisão de uma classe é o número de itens corretamente previstos como pertencentes a essa classe dividido pelo número total de itens previstos como pertencentes à classe .

Chamar de volta

Na classificação, o resgate de uma classe é o número de itens corretamente previstos como pertencentes a essa classe dividido pelo número total de itens que pertencem efetivamente à classe.

Regularização

A regularização penaliza um modelo linear por ser demasiado complicado. Existem dois tipos de regularização:

  • $L_1$ a regularização zeros pesos para funcionalidades insignificantes. O tamanho do modelo guardado pode ficar mais pequeno após este tipo de regularização.
  • $L_2$ a regularização minimiza o intervalo de peso para funcionalidades insignificantes. Este é um processo mais geral e é menos sensível aos valores atípicos.

Regressão

Uma tarefa de machine learning supervisionada em que a saída é um valor real, por exemplo, duplo. Os exemplos incluem a previsão dos preços das ações. Para obter mais informações, veja a secção Regressão do tópico Tarefas de machine learning .

Erro absoluto relativo

Na regressão, uma métrica de avaliação que é a soma de todos os erros absolutos divididos pela soma das distâncias entre os valores de etiqueta corretos e a média de todos os valores de etiqueta corretos.

Erro ao quadrado relativo

Na regressão, uma métrica de avaliação que é a soma de todos os erros absolutos ao quadrado divididos pela soma de distâncias quadradas entre os valores de etiqueta corretos e a média de todos os valores de etiqueta corretos.

Raiz do erro quadrática médio (RMSE)

Na regressão, uma métrica de avaliação que é a raiz quadrada da média dos quadrados dos erros.

Classificação

A classificação é o processo de aplicar novos dados a um modelo de machine learning preparado e gerar predições. A classificação também é conhecida como inferência. Dependendo do tipo de modelo, a classificação pode ser um valor não processado, uma probabilidade ou uma categoria.

Machine learning supervisionado

Uma subclasse de machine learning na qual um modelo pretendido prevê a etiqueta para dados ainda não vistos. Os exemplos incluem classificação, regressão e predição estruturada. Para obter mais informações, veja o artigo Aprendizagem supervisionada na Wikipédia.

Formação

O processo de identificação de um modelo para um determinado conjunto de dados de preparação. Para um modelo linear, isto significa encontrar os pesos. Para uma árvore, envolve identificar os pontos divididos.

Transformador

Uma classe ML.NET que implementa a ITransformer interface.

Um transformador transforma-se IDataView um noutro. Um transformador é criado através da preparação de um avaliador ou de um pipeline de avaliador.

Machine learning não supervisionado

Uma subclasse de machine learning na qual um modelo pretendido encontra uma estrutura oculta (ou latente) nos dados. Os exemplos incluem clustering, modelação de tópicos e redução de dimensionalidade. Para obter mais informações, veja o artigo Aprendizagem não supervisionada na Wikipédia.