Melhore o seu modelo de ML.NET

Artigo
03/05/2024

Saiba como melhorar o seu modelo de ML.NET.

Reformular o problema

Às vezes, melhorar um modelo pode não ter nada a ver com os dados ou técnicas usadas para treinar o modelo. Em vez disso, pode ser apenas que a pergunta errada esteja sendo feita. Considere olhar para o problema de diferentes ângulos e aproveite os dados para extrair indicadores latentes e relações ocultas, a fim de refinar a pergunta.

Fornecer mais amostras de dados

Como os humanos, quanto mais algoritmos de treinamento recebem, a probabilidade de melhor desempenho aumenta. Uma maneira de melhorar o desempenho do modelo é fornecer mais amostras de dados de treinamento para os algoritmos. Quanto mais dados obtiver, mais casos será capaz de identificar corretamente.

Adicionar contexto aos dados

O significado de um único ponto de dados pode ser difícil de interpretar. Construir contexto em torno dos pontos de dados ajuda os algoritmos, bem como os especialistas no assunto, a tomar melhores decisões. Por exemplo, o facto de uma casa ter três quartos não dá, por si só, uma boa indicação do seu preço. No entanto, se você adicionar contexto e agora souber que está em um bairro suburbano fora de uma grande área metropolitana, onde a idade média é de 38 anos, a renda familiar média é de US $ 80.000 e as escolas estão no percentil 20 superior, então o algoritmo tem mais informações para basear suas decisões. Todo esse contexto pode ser adicionado como entrada para o modelo de aprendizado de máquina como recursos.

Use dados e recursos significativos

Embora mais amostras de dados e recursos possam ajudar a melhorar a precisão do modelo, eles também podem introduzir ruído, uma vez que nem todos os dados e recursos são significativos. Por isso, é importante entender quais características são as que mais impactam as decisões tomadas pelo algoritmo. O uso de técnicas como a Permutation Feature Importance (PFI) pode ajudar a identificar essas características salientes e não apenas ajudar a explicar o modelo, mas também usar a saída como um método de seleção de recursos para reduzir a quantidade de recursos barulhentos que entram no processo de treinamento.

Para obter mais informações sobre como usar PFI, consulte Explicar previsões de modelo usando a importância do recurso de permutação.

Validação cruzada

A validação cruzada é uma técnica de treinamento e avaliação de modelos que divide os dados em várias partições e treina vários algoritmos nessas partições. Esta técnica melhora a robustez do modelo ao armazenar dados do processo de treinamento. Além de melhorar o desempenho em observações invisíveis, em ambientes com restrição de dados pode ser uma ferramenta eficaz para modelos de treinamento com um conjunto de dados menor.

Visite o link a seguir para saber como usar a validação cruzada em ML.NET

Otimização de hiperparâmetros

O treinamento de modelos de aprendizado de máquina é um processo iterativo e exploratório. Por exemplo, qual é o número ideal de clusters ao treinar um modelo usando o algoritmo K-Means? A resposta depende de muitos fatores, como a estrutura dos dados. Encontrar esse número exigiria experimentar valores diferentes para k e, em seguida, avaliar o desempenho para determinar qual valor é melhor. A prática de ajustar os parâmetros que guiam o processo de treinamento para encontrar um modelo ideal é conhecida como ajuste de hiperparâmetros.

Escolha um algoritmo diferente

Tarefas de aprendizado de máquina como regressão e classificação contêm várias implementações de algoritmo. Pode ser o caso de o problema que você está tentando resolver e a forma como seus dados são estruturados não se encaixar bem no algoritmo atual. Nesse caso, considere usar um algoritmo diferente para sua tarefa para ver se ela aprende melhor com seus dados.

O link a seguir fornece mais orientações sobre qual algoritmo escolher.