Regressão de Árvore de Decisão Aumentada

Artigo
05/06/2019

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
Saiba mais sobre o Azure Machine Learning.

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Cria um modelo de regressão usando o algoritmo de árvore de decisão aumentado

categoria: Machine Learning/inicializar modelo/regressão

Observação

aplica-se a: somente Machine Learning Studio (clássico)

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

este artigo descreve como usar o módulo regressão de árvore de decisão aumentada no Machine Learning Studio (clássico) para criar um ensemble de árvores de regressão usando o aumento. Aumento significa que cada árvore depende de árvores anteriores. O algoritmo aprende ajustando o resíduo das árvores anteriores. Assim, impulsionada em um ensemble de árvore de decisão tende a aumentar a precisão com um pequeno risco de menos cobertura.

Esse método de regressão é um método de aprendizado supervisionado e, portanto, requer um conjunto de dados rotulado. A coluna de rótulo deve conter valores numéricos.

Observação

Use esse módulo somente com conjuntos de dados que usam variáveis numéricas.

Depois de definir o modelo, treine-o usando os módulos treinar modelo ou ajustar hiperparâmetros de modelo .

Dica

Deseja saber mais sobre as árvores que foram criadas? Depois que o modelo tiver sido treinado, clique com o botão direito do mouse na saída do módulo modelo de treinamento (ou ajuste os hiperparâmetros de modelo ) e selecione Visualizar para ver a árvore que foi criada em cada iteração. Você pode fazer uma busca detalhada nas divisões de cada árvore e ver as regras para cada nó.

Mais sobre as árvores de regressão aumentadas

O impulsionamento é um dos vários métodos clássicos para criar modelos ensemble, juntamente com bagging, florestas aleatórias e assim por diante. no Machine Learning Studio (clássico), as árvores de decisão aumentadas usam uma implementação eficiente do algoritmo de aumento de gradiente do MART. O aumento de gradiente é uma técnica de aprendizado de máquina para problemas de regressão. Ele cria cada árvore de regressão por etapas, usando uma função de perda predefinida para medir o erro em cada etapa e corrigi-lo na próxima. Portanto, o modelo de previsão é realmente um ensemble de modelos de previsão mais fracos.

Em problemas de regressão, o aumento cria uma série de árvores etapa por etapa e seleciona a árvore ideal usando uma função de perda diferenciável arbitrária.

Para obter mais informações, consulte estes artigos:

https://wikipedia.org/wiki/Gradient_boosting#Gradient_tree_boosting

Este artigo da Wikipédia sobre gradient boosting fornece um histórico das árvores aumentadas.

https://research.microsoft.com/apps/pubs/default.aspx?id=132652

Microsoft Research: From RankNet to LambdaRank to LambdaMART: An Overview. Por J.C. Burges.

O método de impulsionamento de gradiente também pode ser usado para problemas de classificação, reduzindo-os à regressão com uma função de perda adequada. Para saber mais sobre a implementação de árvores aumentadas para tarefas de classificação, confira Árvore de decisão aumentada de duas classes.

Como configurar a Regressão de Árvore de Decisão Aumentada

Adicione o módulo árvore de decisão aumentada ao seu experimento. Você pode encontrar esse módulo em Machine Learning, Inicializar, na categoria Regressão.
Especifique como você deseja que o modelo seja treinado definindo a opção Criar modo de aprendizagem.
- Parâmetro único: selecione essa opção se você sabe como deseja configurar o modelo e informe um conjunto específico de valores como argumentos.
- Intervalo de parâmetros: selecione essa opção se não tiver certeza dos melhores parâmetros e quiser executar uma varredura de parâmetros. Selecione um intervalo de valores para iteração, e Ajustar os Hiperparâmetros do Modelo itera sobre todas as combinações possíveis das configurações fornecidas para determinar os hiperparâmetros que produzem os resultados ideais.
Número máximo de folhas por árvore: indique o número máximo de nós de terminal (folhas) que podem ser criados em qualquer árvore.

Aumentando este valor, você aumenta potencialmente o tamanho da árvore e obtém maior precisão, com o risco de sobreajuste e tempo de treinamento maior.
Número mínimo de amostras por nó folha: indique o número mínimo de casos necessários para criar qualquer nó de terminal (folha) em uma árvore.

Aumentando esse valor, você aumenta o limite para a criação de novas regras. Por exemplo, com o valor padrão de 1, um único caso pode causar uma nova regra a ser criada. Se você aumentar o valor para 5, os dados de treinamento precisam conter pelo menos 5 casos que atendem as mesmas condições.
Taxa de aprendizagem: insira um número entre 0 e 1 que define o tamanho da etapa durante a aprendizagem. A taxa de aprendizagem determina a velocidade com que o aprendiz converge para a solução ideal. Se o tamanho da etapa for muito grande, você poderá exceder a solução ideal. Se ele for muito pequeno, o treinamento levará mais tempo para convergir para a melhor solução.
Número de árvores construídas: indique o número total de árvores de decisão a serem criadas no conjunto. Criando mais árvores de decisão, você tem o potencial de obter uma melhor cobertura, mas o tempo de treinamento aumenta.

Esse valor também controla o número de árvores exibidas ao visualizar o modelo treinado. Se você quiser ver ou imprimir uma árvore ingle, poderá definir o valor como 1; no entanto, isso significa que apenas uma árvore é produzida (a árvore com o conjunto inicial de parâmetros) e nenhuma iteração adicional é executada.
Semente de número aleatório: digite um inteiro não negativo opcional para ser usado como o valor de semente aleatória. A especificação de uma semente assegura a capacidade de reprodução entre execuções que usam os mesmos dados e parâmetros.

Por padrão, a semente aleatória é definida como 0, o que significa que o valor inicial da semente é obtido do relógio do sistema.
Permitir níveis categóricos desconhecidos: Selecione esta opção para criar um grupo de valores desconhecidos nos conjuntos de treinamento e validação. Se você desmarcar essa opção, o modelo pode aceitar apenas os valores que estão contidos nos dados de treinamento. O modelo pode ser menos preciso para valores conhecidos, mas ele pode fornecer melhores previsões para novos valores (desconhecidos).
Adicione um conjunto de uma de treinamento e um dos módulos de treinamento:
- Se você definir a opção criar modo de instrutor como parâmetro único, use o módulo treinar modelo .
- Se você configurar Criar modo treinador como Intervalo de parâmetros, use o módulo Ajustar hiperparâmetros do modelo.
Observação

Se você transmitir um intervalo de parâmetros para o módulo Treinar modelo, ele usará apenas o primeiro valor da lista de intervalo de parâmetros.

Se você transmitir um só conjunto de valores de parâmetro para o módulo Ajustar hiperparâmetros do modelo, quando ele espera um intervalo de configurações para cada parâmetro, ele vai ignorar os valores e usará os valores padrão para o aprendiz.

Se você selecionar a opção intervalo de parâmetros e inserir um único valor para qualquer parâmetro, esse valor único será usado em toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.
Execute o experimento.

Resultados

Após a conclusão do treinamento:

Para ver a árvore que foi criada em cada iteração, clique com o botão direito do mouse em treinar modelo módulo e selecione modelo treinado para visualizar. Se você usar os hiperparâmetros de modelo de ajuste, clique com o botão direito do mouse no módulo e selecione melhor modelo treinado para visualizar o melhor modelo.

Clique em cada árvore para fazer uma busca detalhada nas divisões e ver as regras para cada nó.
Para usar o modelo de pontuação, conecte-o ao modelo de Pontuaçãopara prever valores para novos exemplos de entrada.
Para salvar um instantâneo do modelo treinado, clique com o botão direito do mouse na saída do modelo treinado do módulo de treinamento e selecione salvar como. A cópia do modelo treinado que você salva não é atualizada em execuções sucessivas do experimento.

Exemplos

Para obter exemplos de como as árvores aumentadas são usadas no aprendizado de máquina, consulte o Galeria de ia do Azure:

Estimativa de demanda: usa a regressão da árvore de decisão aumentada para prever o número de locações para um determinado tempo.
Análise de opiniões do Twitter: usa a regressão para gerar uma classificação prevista.

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Dica

Em geral, as árvores de decisão produzem resultados melhores quando os recursos estiverem ligeiramente relacionados. Se os recursos tiverem um alto grau de entropia (ou seja, não estiverem relacionados), eles compartilharão pouca ou nenhuma informação mútua e ordená-los em uma árvore não terá uma importância muito previsível.

Detalhes de implementação

O ensemble de árvores é produzido por computação, em cada etapa, uma árvore de regressão que aproxima o gradiente da função de perda e o adiciona à árvore anterior com coeficientes que minimizam a perda da nova árvore. A saída do ensemble produzido por MART em uma determinada instância é a soma das saídas da árvore.

Para o problema de classificação binária, a saída é convertida em probabilidade usando alguma forma de calibragem.
Para problemas de regressão, a saída é o valor previsto da função.
Para problemas de classificação, as instâncias são ordenadas pelo valor de saída do ensemble.

Parâmetros do módulo

Nome	Intervalo	Type	Padrão	Descrição
Número máximo de folhas por árvore	>=1	Integer	20	Especifique o número máximo de folhas por árvore
Número mínimo de amostras por nó folha	>=1	Integer	10	Especifique o número mínimo de casos necessários para formar um nó folha
Taxa de aprendizado	[double.Epsilon;1.0]	Float	0,2	Especificar a taxa de aprendizagem inicial
Número total de árvores construídas	>=1	Integer	100	Especifique o número máximo de árvores que podem ser criadas durante o treinamento
Propagação de número aleatório	any	Inteiro		Fornece uma propagação para o gerador de número aleatório usado pelo modelo. Deixe em branco por padrão.
Permitir níveis categóricos desconhecidos	any	Boolean	true	Se true, crie um nível adicional para cada coluna categórica. Os níveis no conjunto de dados de teste não disponíveis no conjunto de dados de treinamento são mapeados para esse nível adicional.

Saídas

Nome	Tipo	Descrição
Modelo não treinado	Interface ILearner	Um modelo de regressão não treinado

Confira também

Lista de Módulo A-Z
Regressão