Test e convalida (Data mining)

Si applica a: SQL Server 2019 e versioni precedenti di Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

Il data mining è stato deprecato in SQL Server 2017 Analysis Services e ora è stato interrotto in SQL Server 2022 Analysis Services. La documentazione non viene aggiornata per le funzionalità deprecate e non più disponibili. Per altre informazioni, vedere Compatibilità con le versioni precedenti di Analysis Services.

La convalida è il processo che consente di valutare le prestazioni dei modelli di data mining rispetto ai dati reali. Per convalidare in modo corretto i modelli di data mining, è importante comprenderne la qualità e le caratteristiche prima di distribuirli in un ambiente di produzione.

In questa sezione vengono presentati alcuni concetti di base relativi alla qualità del modello e vengono descritte le strategie per la convalida del modello fornita in Microsoft SQL Server Analysis Services. Per una panoramica sullo scopo della convalida dei modelli nel contesto più ampio del processo di data mining, vedere Soluzioni di data mining.

Metodi di test e convalida dei modelli di data mining

La valutazione della qualità e delle caratteristiche di un modello di data mining può essere eseguita in base ad approcci diversi.

  • Utilizzare varie misure della validità statistica per determinare se sono presenti problemi nei dati o nel modello.

  • Separare i dati in set di training e di testing per valutare l'accuratezza delle stime.

  • Chiedere agli esperti aziendali di esaminare i risultati del modello di data mining per determinare se i modelli individuati sono significativi nello scenario aziendale di destinazione.

Tutti questi metodi risultano utili nella metodologia di data mining e vengono utilizzati in maniera iterativa durante la creazione, l'esecuzione di test e l'ottimizzazione di modelli per rispondere a un problema specifico. Non esiste alcuna regola completa in grado di stabilire quando un modello è affidabile o quando si dispone di dati sufficienti.

Definizione dei criteri per la convalida dei modelli di data mining

Le misure relative al data mining rientrano generalmente nelle categorie di accuratezza, affidabilità e utilità.

L'accuratezza consente di misurare il livello di correlazione tra il risultato e gli attributi nei dati specificati fornito dal modello. Sebbene siano disponibili diverse misure di accuratezza, tutte dipendono dai dati utilizzati. Nelle situazioni reali i valori potrebbero non essere disponibili o essere approssimati oppure è possibile che i dati siano stati modificati da più processi. In particolare, nella fase di esplorazione e sviluppo è possibile decidere di accettare una certa quantità di errore nei dati, soprattutto se questi ultimi sono equamente uniformi nelle caratteristiche. Ad esempio, un modello che stima le vendite per un negozio specifico in base alle vendite precedenti può essere strettamente correlato ed estremamente accurato, anche se tale negozio ha utilizzato in modo costante un metodo contabile non corretto. Di conseguenza, le misure dell'accuratezza devono essere bilanciate da valutazioni dell'affidabilità.

L'affidabilità consente di valutare le prestazioni di un modello di data mining rispetto a set di dati diversi. Un modello di data mining è affidabile se genera lo stesso tipo di stime o individua gli stessi tipi generali di modelli indipendentemente dai dati di prova forniti. Il modello generato ad esempio per il negozio che ha utilizzato il metodo contabile non corretto non consentirebbe una generalizzazione accurata rispetto agli altri negozi e pertanto non sarebbe affidabile.

L'utilità include diverse metriche che indicano se il modello fornisce informazioni vantaggiose. Un modello di data mining che correla ad esempio l'ubicazione di un negozio con le vendite potrebbe essere accurato e affidabile, ma potrebbe non essere utile, poiché non è possibile generalizzare tale risultato aggiungendo altri negozi nella stessa ubicazione. Tale modello inoltre non risponde alla domanda aziendale fondamentale, ovvero non indica perché a ubicazioni specifiche è associato un numero maggiore di vendite. È possibile anche rilevare che un modello apparentemente positivo non è in effetti significativo, poiché si basa su correlazioni incrociate dei dati.

Strumenti per il test e la convalida dei modelli di data mining

SQL Server Analysis Services supporta più approcci per la convalida delle soluzioni di data mining, supportando tutte le fasi della metodologia di test di data mining.

  • Partizionamento dei dati in set di training e di testing.

  • Applicazione di filtri ai modelli per eseguire il training e il testing di diverse combinazioni degli stessi dati di origine.

  • Misurazione di accuratezza e miglioramento. Un grafico di accuratezza consente di visualizzare il miglioramento che si ottiene mediante l'uso di un modello di data mining confrontato con un'ipotesi casuale.

  • Esecuzione della convalida incrociata dei set di dati

  • Generazione di matrici di classificazione. Questi grafici consentono di ordinare ipotesi accurate e non corrette in una tabella, in modo che sia possibile valutare rapidamente e semplicemente il livello di accuratezza della stima del valore di destinazione effettuata dal modello.

  • Creazione di grafici a dispersione per valutare l'adeguatezza di una formula di regressione.

  • Creazione di grafici dei profitti che consentono di associare il guadagno o il costo finanziario all'uso di un modello di data mining in modo da poter valutare le indicazioni.

L'obiettivo di questa metrica non è rilevare se il modello di data mining risponde alle esigenze aziendali, bensì ottenere misure obiettive utilizzabili per valutare l'affidabilità dei dati per l'analisi predittiva e supportare l'utente nella decisione di utilizzare o meno una particolare iterazione nel processo di sviluppo.

Negli argomenti di questa sezione viene fornita una panoramica di ogni metodo e viene descritto il processo di misurazione dell'accuratezza di modelli compilati utilizzando Data mining di SQL Server.

Argomenti Collegamenti
Informazioni sulla configurazione di un set di dati di test tramite una procedura guidata o comandi DMX Set di dati di training e di testing
Informazioni sul test della distribuzione e della rappresentatività dei dati in una struttura di data mining Convalida incrociata (Analysis Services - Data mining)
Informazioni sui tipi di grafico di accuratezza forniti. Grafico di accuratezza (Analysis Services - Data mining)

Grafico profitti (Analysis Services - Data mining)

Grafico a dispersione (Analysis Services - Data mining)
Informazioni sulla creazione di una matrice di classificazione, talvolta denominata matrice di confusione, per valutare il numero di veri e falsi positivi e di veri e falsi negativi. Matrice di classificazione (Analysis Services - Data mining)

Vedere anche

Strumenti di data mining
Soluzioni di data mining
Attività e procedure di test e convalida (data mining)