Tests und Überprüfung (Data Mining)Testing and Validation (Data Mining)

Die Überprüfung ist der Prozess des Bewertens, welche Leistung die Miningmodelle mit echten Daten erzielen.Validation is the process of assessing how well your mining models perform against real data. Es ist wichtig, dass Sie Ihre Miningmodelle überprüfen, indem Sie ihre Qualität und Merkmale studieren, bevor Sie sie in einer Produktionsumgebung bereitstellen.It is important that you validate your mining models by understanding their quality and characteristics before you deploy them into a production environment.

In diesem Abschnitt werden einige grundlegende Konzepte im Zusammenhang mit der Modellqualität und die Strategien zur Modellvalidierung vorgestellt, die in MicrosoftMicrosoft Analysis ServicesAnalysis Serviceszur Verfügung stehen.This section introduces some basic concepts related to model quality, and describes the strategies for model validation that are provided in MicrosoftMicrosoft Analysis ServicesAnalysis Services. Eine Übersicht dazu, wie Modellüberprüfungen in den größeren Data Mining-Prozess eingebunden werden können, finden Sie unter Data Mining-Projektmappen.For an overview of how model validation fits into the larger data mining process, see Data Mining Solutions.

Methoden zum Testen und Überprüfen von Data Mining-ModellenMethods for Testing and Validation of Data Mining Models

Es gibt viele Ansätze zum Bewerten der Qualität und der Eigenschaften eines Data Mining-Modells.There are many approaches for assessing the quality and characteristics of a data mining model.

  • Verwenden Sie verschiedene Measures für die statistische Gültigkeit, um zu bestimmen, ob Probleme mit den Daten oder dem Modell vorliegen.Use various measures of statistical validity to determine whether there are problems in the data or in the model.

  • Teilen Sie die Daten in Trainings- und Testsätze auf, um die Genauigkeit von Vorhersagen zu testen.Separate the data into training and testing sets to test the accuracy of predictions.

  • Bitten Sie betriebswirtschaftliche Experten, die Ergebnisse des Data Mining-Modells zu überprüfen und zu bestimmen, ob die erkannten Muster für das gewollte Geschäftsszenario bedeutungsvoll sind.Ask business experts to review the results of the data mining model to determine whether the discovered patterns have meaning in the targeted business scenario

    Alle diese Methoden sind in der Data Mining-Methodologie nützlich und werden beim Erstellen, Testen und Optimieren von Modellen zur Lösung eines bestimmten Problems iterativ eingesetzt.All of these methods are useful in data mining methodology and are used iteratively as you create, test, and refine models to answer a specific problem. Es gibt keine einzelne umfassende Regel, aus der Sie ableiten können, wann ein Modell ausreichend ist bzw. wann ausreichend Daten vorliegen.No single comprehensive rule can tell you when a model is good enough, or when you have enough data.

Definition von Kriterien zum Überprüfen von Data Mining-ModellenDefinition of Criteria for Validating Data Mining Models

Data Mining-Measures lassen sich im Allgemeinen den Kategorien Genauigkeit, Zuverlässigkeit und Nützlichkeit zuteilen.Measures of data mining generally fall into the categories of accuracy, reliability, and usefulness.

DieGenauigkeit ist ein Maß, das besagt, wie gut ein Ergebnis vom Modell mit den Attributen der bereitgestellten Daten korreliert wird.Accuracy is a measure of how well the model correlates an outcome with the attributes in the data that has been provided. Es gibt verschiedenen Measures für die Genauigkeit, die jedoch alle von den verwendeten Daten abhängig sind.There are various measures of accuracy, but all measures of accuracy are dependent on the data that is used. In der Praxis können Werte fehlen oder ungenau sein, oder die Daten können durch mehrere Prozesse verändert worden sein.In reality, values might be missing or approximate, or the data might have been changed by multiple processes. Insbesondere in der Untersuchungs- und Entwicklungsphase kann es sein, dass eine bestimmte Menge an Fehlern in den Daten akzeptiert wird, insbesondere wenn Daten mit relativ einheitlichen Merkmalen vorliegen.Particularly in the phase of exploration and development, you might decide to accept a certain amount of error in the data, especially if the data is fairly uniform in its characteristics. Beispielsweise kann ein Modell, mit dem der Umsatz einer bestimmten Niederlassung anhand der vergangenen Umsätze vorhergesagt wird, auch dann stark korreliert und sehr genau sein, wenn die betreffende Niederlassung durchgängig eine falsche Buchhaltungsmethode verwendet hat.For example, a model that predicts sales for a particular store based on past sales can be strongly correlated and very accurate, even if that store consistently used the wrong accounting method. Deshalb müssen Genauigkeitsmaße durch Bewertungen der Zuverlässigkeit ausgeglichen werden.Therefore, measurements of accuracy must be balanced by assessments of reliability.

Durch dieZuverlässigkeit wird bewertet, wie sich ein Data Mining-Modell bei Anwendung auf unterschiedliche Datasets verhält.Reliability assesses the way that a data mining model performs on different data sets. Ein Data Mining-Modell ist zuverlässig, wenn es unabhängig von den bereitgestellten Testdaten die gleichen Typen von Vorhersagen erzeugt oder die gleichen Arten von Mustern sucht.A data mining model is reliable if it generates the same type of predictions or finds the same general kinds of patterns regardless of the test data that is supplied. Beispielsweise würde sich das Modell, das für die Niederlassung erzeugt wurde, in der die falsche Buchhaltungsmethode verwendet wurde, nicht gut auf andere Niederlassungen verallgemeinern lassen, und daher wäre es nicht zuverlässig.For example, the model that you generate for the store that used the wrong accounting method would not generalize well to other stores, and therefore would not be reliable.

DieNützlichkeit schließt verschiedene Metriken ein, aus denen hervorgeht, ob das Modell nützliche Informationen liefert.Usefulness includes various metrics that tell you whether the model provides useful information. Beispielsweise kann ein Data Mining-Modell, das den Standort einer Niederlassung mit dem Umsatz korreliert, sowohl genau als auch zuverlässig, aber nicht nützlich sein, weil sich dieses Ergebnis nicht dadurch verallgemeinern lässt, dass dem gleichen Standort weitere Niederlassungen hinzugefügt werden.For example, a data mining model that correlates store location with sales might be both accurate and reliable, but might not be useful, because you cannot generalize that result by adding more stores at the same location. Darüber hinaus beantwortet es die grundlegende Geschäftsfrage nicht, warum an bestimmten Standorten höhere Umsätze erzielt werden.Moreover, it does not answer the fundamental business question of why certain locations have more sales. Es kann sich auch herausstellen, dass ein anscheinend erfolgreiches Modell in Wirklichkeit bedeutungslos ist, weil es auf Kreuzkorrelationen der Daten basiert.You might also find that a model that appears successful in fact is meaningless, because it is based on cross-correlations in the data.

Tools zum Testen und Überprüfen von MiningmodellenTools for Testing and Validation of Mining Models

Analysis ServicesAnalysis Services unterstützt mehrere Ansätze zur Überprüfung von Data Mining-Lösungen, die alle Phasen der Data Mining-Testmethoden unterstützen. supports multiple approaches to validation of data mining solutions, supporting all phases of the data mining test methodology.

  • Partitionieren der Daten in Test- und TrainingssätzePartitioning data into testing and training sets.

  • Filtern von Modellen, um verschiedene Kombinationen der gleichen Quelldaten zu schulen und zu testen.Filtering models to train and test different combinations of the same source data.

  • Das Messen von Prognosegüte und Gewinn.Measuring lift and gain. Ein Prognosegütediagramm ist eine Methode zur visuellen Darstellung der Verbesserung, die verglichen mit dem Anstellen Zufallsvorhersage aus dem Einsatz eines Data Mining-Modells resultiert.A lift chart is a method of visualizing the improvement that you get from using a data mining model, when you compare it to random guessing.

  • Ausführen der Kreuzvalidierung für DatasetsPerforming cross-validation of data sets

  • Generieren von Klassifikationsmatrizen.Generating classification matrices. Diese Diagramme tragen dazu bei, zutreffende und falsche Vermutungen in eine Tabelle einzufügen und zu sortieren, sodass Sie mühelos messen können, wie genau das Modell den Zielwert vorhersagt.These charts sort good and bad guesses into a table so that you can quickly and easily gauge how accurately the model predicts the target value.

  • Erstellen von Punktdiagrammen , um die Eignung einer Regressionsformel zu beurteilen.Creating scatter plots to assess the fit of a regression formula.

  • Erstellen von Gewinndiagrammen , in denen finanzielle Gewinne oder Kosten mit dem Miningmodell verknüpft werden, damit Sie den Wert der Empfehlungen beurteilen können.Creating profit charts that associate financial gain or costs with the use of a mining model, so that you can assess the value of the recommendations.

    Der Sinn dieser Metrik liegt nicht darin herauszufinden, ob das Data Mining-Modell die Antwort auf Ihre Geschäftsfrage liefert; vielmehr stellt diese Metrik objektive Messwerte bereit, mit denen Sie die Zuverlässigkeit Ihrer Daten für Vorhersageanalysen beurteilen und entscheiden können, ob bei der Entwicklung eine bestimmte Iteration implementiert werden soll.These metrics do not aim to answer the question of whether the data mining model answers your business question; rather, these metrics provide objective measurements that you can use to assess the reliability of your data for predictive analytics, and to guide your decision of whether to use a particular iterate on the development process.

    Dieser Abschnitt enthält eine Übersicht der einzelnen Methoden und führt Sie durch die Schritte zur Messung der Genauigkeit von Modellen, die Sie mithilfe von SQL Server Data Mining erstellen.The topics in this section provide an overview of each method and walk you through the process of measuring the accuracy of models that you build using SQL Server Data Mining.

ThemaTopics LinksLinks
Erfahren Sie mehr darüber, wie Sie ein Testdataset mithilfe eines Assistenten oder mit DMX-Befehlen einrichten können.Learn how to set up a testing data set using a wizard or DMX commands Trainings- und TestdatasetsTraining and Testing Data Sets
Erfahren Sie mehr darüber, wie Sie die Verteilung und die Repräsentativität der Daten in einer Miningstruktur testen können.Learn how to test the distribution and representativeness of the data in a mining structure Kreuzvalidierung (Analysis Services – Data Mining)Cross-Validation (Analysis Services - Data Mining)
Informationen Sie zu den Typen von Genauigkeitsdiagrammen.Learn about the accuracy chart types provided. Prognosegütediagramm (Analysis Services – Data Mining)Lift Chart (Analysis Services - Data Mining)

Gewinndiagramm (Analysis Services – Data Mining)Profit Chart (Analysis Services - Data Mining)

Punktdiagramm (Analysis Services – Data Mining)Scatter Plot (Analysis Services - Data Mining)
Erfahren Sie mehr darüber, wie Sie eine Klassifikationsmatrix, auch bekannt unter dem Namen Verwirrungsmatrix, erstellen, um die Anzahl von als wahr positiv, falsch positiv, wahr negativ und falsch negativ klassifizierten Ergebnissen zu ermitteln.Learn how to create a classification matrix, sometimes called a confusion matrix, for assessing the number of true and false positives and negatives. Klassifikationsmatrix (Analysis Services – Data Mining)Classification Matrix (Analysis Services - Data Mining)

Siehe auchSee Also

Data Mining-Tools Data Mining Tools
Data Mining-Projektmappen Data Mining Solutions
Tasks und Anweisungen für Test und Überprüfung (Data Mining)Testing and Validation Tasks and How-tos (Data Mining)