Data Mining-KonzepteData Mining Concepts

GILT FÜR:JaSQL Server Analysis ServicesNeinAzure Analysis ServicesAPPLIES TO:yesSQL Server Analysis ServicesnoAzure Analysis ServicesDatamining ist der Prozess der Ermittlung aussagefähiger Informationen aus großen Mengen von Daten. Data mining is the process of discovering actionable information from large sets of data. Data Mining nutzt die mathematische Analyse zur Aufdeckung von Mustern und Trends in Daten.Data mining uses mathematical analysis to derive patterns and trends that exist in data. Üblicherweise können diese Muster nicht durch das traditionelle Durchsuchen von Daten ermittelt werden, da die Beziehungen zu komplex sind oder zu viele Daten bestehen.Typically, these patterns cannot be discovered by traditional data exploration because the relationships are too complex or because there is too much data.

Diese Muster und Trends können gesammelt und als Data Mining-Modelldefiniert werden.These patterns and trends can be collected and defined as a data mining model. Miningmodelle können auf spezifische Szenarien angewendet werden, beispielsweise:Mining models can be applied to specific scenarios, such as:

  • Planungserstellung: Schätzen des Absatzes, Vorhersagen der Serverlast oder ServerausfallzeitenForecasting: Estimating sales, predicting server loads or server downtime

  • Risiko und Wahrscheinlichkeit: Auswählen der besten Kunden für Targeted Mailings, Bestimmen der wahrscheinlichen Gewinnschwelle für Risikoszenarios, Zuweisen von Wahrscheinlichkeiten zu Diagnosen oder anderen ErgebnissenRisk and probability: Choosing the best customers for targeted mailings, determining the probable break-even point for risk scenarios, assigning probabilities to diagnoses or other outcomes

  • Empfehlungen: Ermitteln von Produkten mit Cross-Selling-Potenzial und Generieren von EmpfehlungenRecommendations: Determining which products are likely to be sold together, generating recommendations

  • Ermitteln von Reihenfolgen: Analysieren der Kundenauswahl in einem Einkaufswagen, Vorhersagen der nächsten wahrscheinlichen EreignisseFinding sequences: Analyzing customer selections in a shopping cart, predicting next likely events

  • Gruppieren: Unterteilen von Kunden oder Ereignissen in Cluster verwandter Elemente, Analysieren und Vorhersagen von AffinitätenGrouping: Separating customers or events into cluster of related items, analyzing and predicting affinities

    Die Erstellung eines Miningmodells muss als Teil eines größeren Prozesses verstanden werden, der sich von der Fragestellung im Hinblick auf die Daten und die Erstellung eines Modells zur Beantwortung dieser Fragen bis hin zur Implementierung des Modells in einer Arbeitsumgebung erstreckt.Building a mining model is part of a larger process that includes everything from asking questions about the data and creating a model to answer those questions, to deploying the model into a working environment. Ein Data Mining-Prozess besteht im Wesentlichen aus sechs Schritten:This process can be defined by using the following six basic steps:

  1. Definieren der ProblemstellungDefining the Problem

  2. Vorbereiten der DatenPreparing Data

  3. Durchsuchen von DatenExploring Data

  4. Erstellen von ModellenBuilding Models

  5. Durchsuchen und Validieren von ModellenExploring and Validating Models

  6. Bereitstellen und Aktualisieren von ModellenDeploying and Updating Models

    Das folgende Diagramm beschreibt das Beziehungsgefüge dieser Schritte und die Technologien in MicrosoftMicrosoft SQL ServerSQL Server , mit denen Sie den jeweiligen Schritt ausführen können.The following diagram describes the relationships between each step in the process, and the technologies in MicrosoftMicrosoft SQL ServerSQL Server that you can use to complete each step.

    Wichtige Schritte im Datamining-ProzessesKey steps in data mining process

    Der im Diagramm veranschaulichte Prozess ist zyklisch, d. h., dass ein Data Mining-Modell in einem dynamischen, sich wiederholenden Prozess erstellt wird.The process illustrated in the diagram is cyclical, meaning that creating a data mining model is a dynamic and iterative process. Nachdem Sie die Daten durchsucht haben, kommen Sie u. U. zu dem Ergebnis, dass Ihr Datenmaterial nicht ausreicht, um die geeigneten Miningmodelle zu erstellen, und dass Sie deshalb nach weiteren Daten suchen müssen.After you explore the data, you may find that the data is insufficient to create the appropriate mining models, and that you therefore have to look for more data. Vielleicht erstellen Sie auch mehrere Modelle und stellen dann fest, dass diese nicht in geeigneter Weise das von Ihnen definierte Problem lösen und dass Sie deshalb das Problem neu definieren müssen.Alternatively, you may build several models and then realize that the models do not adequately answer the problem you defined, and that you therefore must redefine the problem. Möglicherweise müssen die Modelle nach ihrer Implementierung angepasst werden, da mehr Daten zur Verfügung stehen.You may have to update the models after they have been deployed because more data has become available. Jeder Schritt des Prozesses kann so oft wiederholt werden, wie es für die Erstellung eines qualifizierten Modells notwendig ist.Each step in the process might need to be repeated many times in order to create a good model.

    Microsoft SQL Server Data Mining stellt eine integrierte Umgebung für die Erstellung und Verwendung von Data Mining-Modellen zur Verfügung.Microsoft SQL Server Data Mining provides an integrated environment for creating and working with data mining models. Diese Umgebung umfasst SQL Server Development Studio mit Data Mining-Algorithmen und Abfragetools, die das Erstellen einer umfassenden Projektmappe für unterschiedlichste Projekte erleichtern, sowie SQL Server Management StudioSQL Server Management Studiomit Tools zum Durchsuchen von Modellen und Verwalten von Data Mining-Objekten.This environment includes SQL Server Development Studio, which contains data mining algorithms and query tools that make it easy to build a comprehensive solution for a variety of projects, and SQL Server Management StudioSQL Server Management Studio, which contains tools for browsing models and managing data mining objects. Weitere Informationen finden Sie unter Erstellen mehrdimensionaler Modelle mit SQL Server Data Tools (SSDT).For more information, see Creating Multidimensional Models Using SQL Server Data Tools (SSDT).

    Ein Beispiel dafür, wie die SQL ServerSQL Server -Tools auf ein Geschäftsszenario angewandt werden können, finden Sie unter Tutorial zu Data Mining-Grundlagen.For an example of how the SQL ServerSQL Server tools can be applied to a business scenario, see the Basic Data Mining Tutorial.

Definieren der ProblemstellungDefining the Problem

Wie das folgende Diagramm verdeutlicht, besteht der erste Schritt des Data Mining-Prozesses darin, die Problemstellung exakt zu definieren und Möglichkeiten aufzuzeigen, wie das Problem anhand der richtigen Daten gelöst werden kann.The first step in the data mining process, as highlighted in the following diagram, is to clearly define the problem, and consider ways that data can be utilized to provide an answer to the problem.

Erste Schritt beim Datamining: Definieren der ProblemstellungData mining first step: defining the problem

Dieser Schritt schließt das Analysieren der Geschäftsanforderungen, das Festlegen des Problemumfangs, das Definieren der Erfolgsfaktoren für die Modellbewertung und das Formulieren der spezifischen Zielsetzung des Data Mining-Projekts ein.This step includes analyzing business requirements, defining the scope of the problem, defining the metrics by which the model will be evaluated, and defining specific objectives for the data mining project. Diese Tasks lassen sich u. a. in folgende Fragen übersetzen:These tasks translate into questions such as the following:

  • Wonach suchen Sie?What are you looking for? Welche Art von Beziehung versuchen Sie ausfindig zu machen?What types of relationships are you trying to find?

  • Spiegelt das Problem, das Sie lösen möchten, die Richtlinien oder Prozesse des Unternehmens wider?Does the problem you are trying to solve reflect the policies or processes of the business?

  • Möchten Sie mit dem Data Mining-Modell Vorhersagen treffen oder nur interessante Muster oder Zusammenhänge aufdecken?Do you want to make predictions from the data mining model, or just look for interesting patterns and associations?

  • Welche Ergebnisse oder Attribute sollen vorhergesagt werden?Which outcome or attribute do you want to try to predict?

  • Welche Art von Daten liegen vor, und welche Informationstypen sind in den einzelnen Spalten enthalten?What kind of data do you have and what kind of information is in each column? Wie stehen die Tabellen miteinander in Beziehung, wenn mehrere Tabellen vorhanden sein sollten?If there are multiple tables, how are the tables related? Müssen Bereinigungen, Aggregationen oder Verarbeitungsschritte ausgeführt werden, damit die Daten nutzbar werden?Do you need to perform any cleansing, aggregation, or processing to make the data usable?

  • Wie sind die Daten gestreut?How is the data distributed? Sind die Daten saisonbedingt?Is the data seasonal? Spiegeln die Daten die Prozesse des Unternehmens in geeigneter Weise wider?Does the data accurately represent the processes of the business?

    Um diese Fragen zu beantworten, müssen Sie u. U. im Rahmen einer Datenverfügbarkeitsstudie den Bedarf von Geschäftsanwendern im Hinblick auf die verfügbaren Daten ermitteln.To answer these questions, you might have to conduct a data availability study, to investigate the needs of the business users with regard to the available data. Wenn die Daten den Bedarf der Benutzer nicht unterstützen, müssen Sie das Projekt evtl. neu definieren.If the data does not support the needs of the users, you might have to redefine the project.

    Darüber hinaus müssen Sie die Art und Weise berücksichtigen, in der die Ergebnisse des Modells in die zur Messung des Geschäftserfolgs verwendeten Key Performance Indicators (KPI) eingebunden werden können.You also need to consider the ways in which the results of the model can be incorporated in key performance indicators (KPI) that are used to measure business progress.

Vorbereiten der DatenPreparing Data

Wie das folgende Diagramm verdeutlicht, besteht der zweite Schritt des Data Mining-Prozesses im Konsolidieren und Bereinigen der im Schritt Definieren der Problemstellung identifizierten Daten.The second step in the data mining process, as highlighted in the following diagram, is to consolidate and clean the data that was identified in the Defining the Problem step.

Zweiter Schritt beim Datamining: Vorbereiten von DatenData mining second step: preparing data

Daten können im gesamten Unternehmen verstreut und in unterschiedlichen Formaten gespeichert sein. Mitunter weisen sie Inkonsistenzen wie falsche oder fehlende Einträge auf.Data can be scattered across a company and stored in different formats, or may contain inconsistencies such as incorrect or missing entries. Es kann beispielsweise vorkommen, dass den Daten zufolge ein Produkt gekauft wurde, das auf dem Markt zu diesem Zeitpunkt noch nicht erhältlich war, oder die Daten zeigen, dass ein Kunde regelmäßig in einem Geschäft 2.000 Meilen von seinem Wohnsitz entfernt Einkäufe tätigt.For example, the data might show that a customer bought a product before the product was offered on the market, or that the customer shops regularly at a store located 2,000 miles from her home.

Beim Data Cleaning geht es nicht nur um das Löschen fehlerhafter Daten oder Interpolieren fehlender Werte, sondern auch um das Auffinden versteckter Beziehungen in den Daten, die Identifikation der genauesten Datenquellen und die Festlegung der Spalten, die für die Analyse am besten geeignet sind.Data cleaning is not just about removing bad data or interpolating missing values, but about finding hidden correlations in the data, identifying sources of data that are the most accurate, and determining which columns are the most appropriate for use in analysis. Zum Beispiel: Sollte das Versanddatum oder das Bestelldatum verwendet werden?For example, should you use the shipping date or the order date? Ist der beste Verkaufseinflussfaktor die Menge, der Gesamtpreis oder ein diskontierter Preis?Is the best sales influencer the quantity, total price, or a discounted price? Unvollständige Daten, falsche Daten und Eingaben, die separat erscheinen, aber tatsächlich stark korrelieren, können die Ergebnisse des Modells in unerwarteter Weise beeinflussen.Incomplete data, wrong data, and inputs that appear separate but in fact are strongly correlated all can influence the results of the model in ways you do not expect.

Daher sollten Sie diese Probleme bestimmen, bevor Sie mit der Erstellung der Miningmodelle beginnen, und festlegen, wie Sie sie beheben wollen.Therefore, before you start to build mining models, you should identify these problems and determine how you will fix them. Beim Data Mining verwenden Sie in der Regel ein sehr umfangreiches Dataset und können nicht jede Transaktion auf Datenqualität überprüfen. Aus diesem Grund benötigen Sie u. U. Tools für die Erstellung von Datenprofilen sowie die automatische Datenbereinigung und -filterung. Mithilfe der in Integration ServicesIntegration Services, Microsoft SQL Server 2012 Master Data ServicesMicrosoft SQL Server 2012 Master Data Servicesoder SQL Server Data Quality ServicesSQL Server Data Quality Services bereitgestellten Tools lassen sich Daten durchsuchen und Inkonsistenzen aufdecken.For data mining typically you are working with a very large dataset and cannot examine every transaction for data quality; therefore, you might need to use some form of data profiling and automated data cleansing and filtering tools, such as those supplied in Integration ServicesIntegration Services, Microsoft SQL Server 2012 Master Data ServicesMicrosoft SQL Server 2012 Master Data Services, or SQL Server Data Quality ServicesSQL Server Data Quality Services to explore the data and find the inconsistencies. Weitere Informationen finden Sie in den folgenden Ressourcen:For more information, see these resources:

Durchsuchen von DatenExploring Data

Wie das nachstehende Diagramm verdeutlicht, besteht der dritte Schritt des Data Mining-Prozesses im Durchsuchen der vorbereiteten Daten.The third step in the data mining process, as highlighted in the following diagram, is to explore the prepared data.

Dritter Schritt beim Datamining: Durchsuchen von DatenData mining third step: exploring data

Nur wenn Sie Ihre Datensituation verstanden haben, können Sie beim Erstellen der Miningmodelle sinnvolle Entscheidungen treffen.You must understand the data in order to make appropriate decisions when you create the mining models. Zu den Durchsuchungstechniken gehören das Berechnen von Mindest- und Maximalwerten, das Ermitteln von mittleren Abweichungen und Standardabweichungen und das Analysieren der Datenstreuung.Exploration techniques include calculating the minimum and maximum values, calculating mean and standard deviations, and looking at the distribution of the data. Beispielsweise können Sie gegebenenfalls durch Prüfung der Maximal-, Mindest- und Mittelwerte ermitteln, dass die Daten nicht repräsentativ für Ihre Kunden oder Geschäftsprozesse sind und dass Sie daher ausgewogenere Daten benötigen oder die Annahmen prüfen müssen, die Grundlage Ihrer Erwartungen sind.For example, you might determine by reviewing the maximum, minimum, and mean values that the data is not representative of your customers or business processes, and that you therefore must obtain more balanced data or review the assumptions that are the basis for your expectations. Standardabweichungen und andere Streuungswerte können nützliche Informationen über die Stabilität und Genauigkeit der Ergebnisse bieten.Standard deviations and other distribution values can provide useful information about the stability and accuracy of the results. Eine große Standardabweichung kann darauf hinweisen, dass ein weiteres Hinzufügen von Daten bei der Verbesserung des Modells hilfreich sein kann.A large standard deviation can indicate that adding more data might help you improve the model. Daten, die stark von einer Standardverteilung abweichen, können verfälscht sein oder ein genaues Abbild eines realen Problems darstellen. In jedem Fall erschweren Sie die Anpassung eines Modells auf die Daten.Data that strongly deviates from a standard distribution might be skewed, or might represent an accurate picture of a real-life problem, but make it difficult to fit a model to the data.

Durch das Durchsuchen der Daten angesichts Ihres eigenen Verständnisses des Geschäftsproblems können Sie entscheiden, ob das Dataset verfälschte Daten enthält. Daraufhin können Sie eine Strategie für die Behebung des Problems ausarbeiten oder ein tieferes Verständnis über die Verhaltensweisen erlangen, die für Ihr Unternehmen typisch sind.By exploring the data in light of your own understanding of the business problem, you can decide if the dataset contains flawed data, and then you can devise a strategy for fixing the problems or gain a deeper understanding of the behaviors that are typical of your business.

Mithilfe von Tools wie Master Data ServicesMaster Data Services können Sie verfügbare Datenquellen überprüfen und deren Verfügbarkeit für das Data Mining bestimmen.You can use tools such as Master Data ServicesMaster Data Services to canvass available sources of data and determine their availability for data mining. Um die Verteilung der Daten zu analysieren und Probleme aufgrund falscher oder fehlender Daten zu beheben, können Sie Tools wie SQL Server Data Quality ServicesSQL Server Data Quality Servicesoder den Datenprofiler in Integration Services verwenden.You can use tools such as SQL Server Data Quality ServicesSQL Server Data Quality Services, or the Data Profiler in Integration Services, to analyze the distribution of your data and repair issues such as wrong or missing data.

Nachdem Sie die Quellen definiert haben, kombinieren Sie sie mit dem Datenquellensicht-Designer in SQL Server Data ToolsSQL Server Data Toolsin einer Datenquellensicht.After you have defined your sources, you combine them in a Data Source view by using the Data Source View Designer in SQL Server Data ToolsSQL Server Data Tools. Weitere Informationen finden Sie unter Datenquellsichten in mehrdimensionalen Modellen.For more information, see Data Source Views in Multidimensional Models. Dieser Designer bietet zusätzlich einige Tools, mit denen Daten durchsucht und sichergestellt werden kann, dass die Daten für die Modellerstellung geeignet sind.This designer also contains some several tools that you can use to explore the data and verify that it will work for creating a model. Weitere Informationen finden Sie unter Durchsuchen von Daten in einer Datenquellensicht (Analysis Services).For more information, see Explore Data in a Data Source View (Analysis Services).

Wenn Sie ein Modell erstellen, erzeugt Analysis ServicesAnalysis Services automatisch statistische Zusammenfassungen der im Modell enthaltenen Daten, auf die Sie zur Verwendung in Berichten oder weiteren Analysen zurückgreifen können.Note that when you create a model, Analysis ServicesAnalysis Services automatically creates statistical summaries of the data contained in the model, which you can query to use in reports or further analysis. Weitere Informationen finden Sie unter Data Mining-Abfragen.For more information, see Data Mining Queries.

Erstellen von ModellenBuilding Models

Wie das nachstehende Diagramm verdeutlicht, besteht der vierte Prozessschritt des Data Mining-Prozesses im Generieren eines oder mehrerer Miningmodelle.The fourth step in the data mining process, as highlighted in the following diagram, is to build the mining model or models. Sie werden die im Schritt Durchsuchen von Daten gewonnenen Erkenntnisse verwenden, um die Modelle zu definieren und zu erstellen.You will use the knowledge that you gained in the Exploring Data step to help define and create the models.

Vierter Schritt beim Datamining: Erstellen von MiningmodellenData mining fourth step: building mining models

Sie definieren die zu verwendenden Datenspalten, indem Sie eine Miningstruktur erstellen.You define the columns of data that you want to use by creating a mining structure. Die Miningstruktur ist zwar mit der Datenquelle verknüpft, enthält bis zu ihrer Verarbeitung jedoch keine Daten.The mining structure is linked to the source of data, but does not actually contain any data until you process it. Wenn Sie die Miningstruktur verarbeiten, erzeugt Analysis ServicesAnalysis Services Aggregate und andere statistische Informationen, die zu Analysezwecken verwendet werden können.When you process the mining structure, Analysis ServicesAnalysis Services generates aggregates and other statistical information that can be used for analysis. Diese Informationen können von allen Miningmodellen verwendet werden, die auf der Struktur basieren.This information can be used by any mining model that is based on the structure. Weitere Informationen dazu, wie Miningstrukturen mit Miningmodellen in Beziehung stehen, finden Sie unter Logische Architektur (Analysis Services – Data Mining).For more information about how mining structures are related to mining models, see Logical Architecture (Analysis Services - Data Mining).

Bevor die Struktur und das Modell verarbeitet werden, fungiert auch ein Miningmodell lediglich als Container, in dem die Spalten angegeben sind, die für die Eingabe verwendet werden, die Attribute, die Sie vorhersagen, und die Parameter, die den Algorithmus anweisen, wie die Daten verarbeitet werden.Before the structure and model is processed, a data mining model too is just a container that specifies the columns used for input, the attribute that you are predicting, and parameters that tell the algorithm how to process the data. Die Modellverarbeitung wird häufig als Trainingbezeichnet.Processing a model is often called training. Training bezieht sich auf den Vorgang der Anwendung eines spezifischen mathematischen Algorithmus auf die Daten in der Struktur, um Muster zu extrahieren.Training refers to the process of applying a specific mathematical algorithm to the data in the structure in order to extract patterns. Die im Trainingsprozess gefundenen Muster hängen von der Auswahl der Trainingsdaten, dem ausgewählten Algorithmus und dessen Konfiguration ab.The patterns that you find in the training process depend on the selection of training data, the algorithm you chose, and how you have configured the algorithm. SQL Server 2017SQL Server 2017 enthält viele verschiedene Algorithmen, die für unterschiedliche Tasks ausgelegt sind und zur Erstellung unterschiedlicher Modelltypen dienen. contains many different algorithms, each suited to a different type of task, and each creating a different type of model. Eine Liste der in SQL Server 2017SQL Server 2017 bereitgestellten Algorithmen finden Sie unter Data Mining-Algorithmen (Analysis Services – Data Mining).For a list of the algorithms provided in SQL Server 2017SQL Server 2017, see Data Mining Algorithms (Analysis Services - Data Mining).

Darüber hinaus können Sie Parameter einsetzen, um jeden Algorithmus anzupassen, und Sie können Filter auf die Trainingsdaten anwenden, um nur eine Teilmenge der Daten zu verwenden, wodurch unterschiedliche Ergebnisse erreicht werden.You can also use parameters to adjust each algorithm, and you can apply filters to the training data to use just a subset of the data, creating different results. Nachdem Daten durch das Modell gelaufen sind, enthält das Miningmodellobjekt Zusammenfassungen und Muster, die abgefragt oder für Vorhersagen verwendet werden können.After you pass data through the model, the mining model object contains summaries and patterns that can be queried or used for prediction.

Ein neues Modell können Sie mithilfe des Data Mining-Assistenten in SQL Server Data ToolsSQL Server Data Tools oder über die Abfragesprache Data Mining-Erweiterungen (Data Mining Extensions, DMX) definieren.You can define a new model by using the Data Mining Wizard in SQL Server Data ToolsSQL Server Data Tools, or by using the Data Mining Extensions (DMX) language. Weitere Informationen zur Verwendung des Data Mining-Assistenten finden Sie unter Data Mining-Assistent (Analysis Services – Data Mining).For more information about how to use the Data Mining Wizard, see Data Mining Wizard (Analysis Services - Data Mining). Weitere Informationen zum Verwenden von DMX finden Sie unter Data Mining-Erweiterungen (DMX) – Referenz.For more information about how to use DMX, see Data Mining Extensions (DMX) Reference.

Es ist zu beachten, dass bei jeder Datenänderung sowohl die Miningstruktur als auch das Miningmodell aktualisiert werden müssen.It is important to remember that whenever the data changes, you must update both the mining structure and the mining model. Wenn Sie eine Miningstruktur durch eine erneute Verarbeitung aktualisieren, ruft Analysis ServicesAnalysis Services Daten von der Quelle ab, einschließlich aller neuen Daten, wenn die Quelle dynamisch aktualisiert wird, und füllt die Miningstruktur neu.When you update a mining structure by reprocessing it, Analysis ServicesAnalysis Services retrieves data from the source, including any new data if the source is dynamically updated, and repopulates the mining structure. Wenn Sie Modelle haben, die auf der Struktur basieren, können Sie auswählen, ob die Modelle, die auf der Struktur basieren, aktualisiert werden sollen, d. h. sie werden mit den neuen Daten erneut trainiert, oder Sie können die Modelle so belassen, wie sie sind.If you have models that are based on the structure, you can choose to update the models that are based on the structure, which means they are retrained on the new data, or you can leave the models as is. Weitere Informationen finden Sie unter Anforderungen und Überlegungen zur Verarbeitung (Data Mining).For more information, see Processing Requirements and Considerations (Data Mining).

Durchsuchen und Validieren von ModellenExploring and Validating Models

Wie das folgende Diagramm verdeutlicht, besteht der fünfte Schritt des Data Mining-Prozesses im Durchsuchen der von Ihnen generierten Miningmodelle und im Testen ihrer Wirksamkeit.The fifth step in the data mining process, as highlighted in the following diagram, is to explore the mining models that you have built and test their effectiveness.

Fünfter Schritt beim Datamining: Überprüfen von MiningmodellenData mining fifth step: validating mining models

Bevor Sie ein Modell in einer Produktionsumgebung einsetzen, möchten Sie wahrscheinlich testen, wie gut das Modell ist.Before you deploy a model into a production environment, you will want to test how well the model performs. Ferner erstellt man üblicherweise beim Aufbau eines Modells mehrere Modelle mit unterschiedlichen Konfigurationen und testet alle Modelle, um herauszufinden, welches die besten Ergebnisse für das Problem und die Daten erzielt.Also, when you build a model, you typically create multiple models with different configurations and test all models to see which yields the best results for your problem and your data.

Analysis ServicesAnalysis Services bietet Tools, die hilfreich bei der Trennung Ihrer Daten in Trainings- und Testdatasets sind. So können Sie die Leistungsfähigkeit aller Modelle an den gleichen Daten genau bewerten. provides tools that help you separate your data into training and testing datasets so that you can accurately assess the performance of all models on the same data. Mit dem Trainings-Dataset wird das Modell generiert, während das Test-Dataset mithilfe von Vorhersageabfragen die Genauigkeit des Modells testet.You use the training dataset to build the model, and the testing dataset to test the accuracy of the model by creating prediction queries. Diese Partitionierung ist möglich, während der Erstellung des Miningmodells automatisch.This partitioning can be done automatically while building the mining model. Weitere Informationen finden Sie unter Tests und Überprüfung (Data Mining).For more information, see Testing and Validation (Data Mining).

Die von den Algorithmen ermittelten Trends und Muster können mit den Viewern im Data Mining-Designer in SQL Server Data ToolsSQL Server Data Toolsanalysiert werden.You can explore the trends and patterns that the algorithms discover by using the viewers in Data Mining Designer in SQL Server Data ToolsSQL Server Data Tools. Weitere Informationen finden Sie unter Data Mining-Modell-Viewer.For more information, see Data Mining Model Viewers. Darüber hinaus können Sie testen, wie gut die Modelle Vorhersagen erstellen. Für diese Tasks stehen im Designer Tools wie das Prognosegütediagramm und die Klassifikationsmatrix zur Verfügung.You can also test how well the models create predictions by using tools in the designer such as the lift chart and classification matrix. Sie können eine statistische Technik mit dem Namen Kreuzvalidierung nutzen, um automatisch Teilmengen der Daten zu erstellen und das Modell gegen jede Teilmenge zu testen, um zu bestimmen, ob das Modell spezifisch für Ihre Daten ist oder verwendet werden kann, um Rückschlüsse auf die allgemeine Population zu ziehen.To verify whether the model is specific to your data, or may be used to make inferences on the general population, you can use the statistical technique called cross-validation to automatically create subsets of the data and test the model against each subset. Weitere Informationen finden Sie unter Tests und Überprüfung (Data Mining).For more information, see Testing and Validation (Data Mining).

Wenn die Leistung bei keinem der Modelle, die Sie im Schritt Erstellen von Modellen erstellt haben, befriedigend ist, müssen Sie möglicherweise zu einem vorhergehenden Prozessschritt zurückkehren und das Problem neu definieren oder die Daten im ursprünglichen Dataset neu analysieren.If none of the models that you created in the Building Models step perform well, you might have to return to a previous step in the process and redefine the problem or reinvestigate the data in the original dataset.

Bereitstellen und Aktualisieren von ModellenDeploying and Updating Models

Wie das folgende Diagramm verdeutlicht, besteht der letzte Schritt des Data Mining-Prozesses darin, in einer Produktionsumgebung diejenigen Modelle bereitzustellen, die die besten Ergebnisse erzielen.The last step in the data mining process, as highlighted in the following diagram, is to deploy the models that performed the best to a production environment.

Sechster Schritt beim Datamining: Bereitstellen von MiningmodellenData mining sixth step: deploying mining models

Sobald die Miningmodelle in eine Produktionsumgebung integriert wurden, stehen sie je nach Bedarf für zahlreiche Tasks zur Verfügung.After the mining models exist in a production environment, you can perform many tasks, depending on your needs. Sie können u. a. folgende Tasks ausführen:The following are some of the tasks you can perform:

  • Verwenden Sie die Modelle zum Erstellen von Vorhersagen, mit deren Hilfe Geschäftsentscheidungen getroffen werden können.Use the models to create predictions, which you can then use to make business decisions. SQL ServerSQL Server stellt die DMX-Sprache zur Verfügung, die Sie zum Erstellen von Vorhersageabfragen verwenden können. Darüber hinaus unterstützt Sie der Generator für Vorhersageabfragen beim Erstellen der Abfragen. provides the DMX language that you can use to create prediction queries, and Prediction Query Builder to help you build the queries. Weitere Informationen finden Sie unter Data Mining-Erweiterungen (DMX) – Referenz.For more information, see Data Mining Extensions (DMX) Reference.

  • Erstellen von Inhaltsabfragen, um Statistik, Regeln oder Formeln für das Modell abzurufen.Create content queries to retrieve statistics, rules, or formulas from the model. Weitere Informationen finden Sie unter Data Mining-Abfragen.For more information, see Data Mining Queries.

  • Data Mining-Funktionen in eine Anwendung integrieren.Embed data mining functionality directly into an application. Sie können Analysis Management Objects (AMO) hinzufügen, das mehrere Objekte enthält, mit denen Ihre Anwendung Miningstrukturen und -modelle erstellen, ändern, verarbeiten und löschen.You can include Analysis Management Objects (AMO), which contains a set of objects that your application can use to create, alter, process, and delete mining structures and mining models. Alternativ können Sie XMLA-Nachrichten (XML for Analysis) direkt an eine Instanz von Analysis ServicesAnalysis Servicessenden.Alternatively, you can send XML for Analysis (XMLA) messages directly to an instance of Analysis ServicesAnalysis Services. Weitere Informationen finden Sie unter Bereitstellung (Analysis Services – Data Mining).For more information, see Development (Analysis Services - Data Mining).

  • Mit Integration ServicesIntegration Services ein Paket erstellen, in dem mithilfe eines Miningmodells eingehende Daten eigenständig aufgeteilt und mehreren Tabellen zugeordnet werden.Use Integration ServicesIntegration Services to create a package in which a mining model is used to intelligently separate incoming data into multiple tables. Wenn eine Datenbank beispielsweise fortlaufend mit potenziellen Neukunden aktualisiert wird, können Sie ein Miningmodell zusammen mit Integration ServicesIntegration Services dazu verwenden, die eingehenden Daten zwei verschiedenen Kundengruppen zuzuordnen: einer Gruppe, deren Kunden wahrscheinlich ein Produkt kaufen, und einer anderen, deren Kunden wahrscheinlich kein Produkt kaufen.For example, if a database is continually updated with potential customers, you could use a mining model together with Integration ServicesIntegration Services to split the incoming data into customers who are likely to purchase a product and customers who are likely to not purchase a product. Weitere Informationen finden Sie unter Typische Verwendungen von SQL Server Integration Services.For more information, see Typical Uses of Integration Services.

  • Einen Bericht erstellen, mit dem Abfragen direkt für ein vorhandenes Miningmodell ausgeführt werden können.Create a report that lets users directly query against an existing mining model. Weitere Informationen finden Sie unter Reporting Services in SQL Server Data Tools (SSDT).For more information, see Reporting Services in SQL Server Data Tools (SSDT).

  • Nach Überprüfung und Analyse die Modelle aktualisieren.Update the models after review and analysis. Jedes Update erfordert, dass Sie die Modelle erneut verarbeiten.Any update requires that you reprocess the models. Weitere Informationen finden Sie unter Processing Data Mining Objects.For more information, see Processing Data Mining Objects.

  • Ein dynamischea Update der Modelle, während neue Daten in das Unternehmen kommen, und die konstante Vornahme von Änderungen zur Verbesserung der Effizienz der Lösung sollten Teil der Bereitstellungsstrategie sein.Update the models dynamically, as more data comes into the organization, and making constant changes to improve the effectiveness of the solution should be part of the deployment strategy. Weitere Informationen finden Sie unter Verwaltung von Data Mining-Lösungen und -ObjektenFor more information, see Management of Data Mining Solutions and Objects

Siehe auchSee Also

Data Mining-Projektmappen Data Mining Solutions
Data Mining-ToolsData Mining Tools