Ajouter des modèles d'exploration de données à une structure (Analysis Services - Exploration de données)Add Mining Models to a Structure (Analysis Services - Data Mining)

S’APPLIQUE À :ouiSQL Server Analysis ServicesnonAzure Analysis ServicesAPPLIES TO:yesSQL Server Analysis ServicesnoAzure Analysis Services

Une structure d'exploration de données est destinée à prendre en charge plusieurs modèles d'exploration de données.A mining structure is intended to support multiple mining models. Par conséquent, une fois l'exécution de l'Assistant terminée, vous pouvez ouvrir la structure et ajouter de nouveaux modèles d'exploration de données.Therefore, after you finish the wizard, you can open the structure and add new mining models. Chaque fois que vous créez un modèle, vous pouvez utiliser un algorithme différent, modifier les paramètres, ou appliquer des filtres pour utiliser un autre sous-ensemble des données.Each time that you create a model, you can use a different algorithm, change the parameters, or apply filters to use a different subset of the data.

Ajout de nouveaux modèles d'exploration de donnéesAdding New Mining Models

Lorsque vous utilisez l'Assistant Exploration de données pour créer un nouveau modèle d'exploration de données, par défaut, vous devez toujours d'abord créer une structure d'exploration de données.When you use the Data Mining Wizard to create a new mining model, by default you must always create a mining structure first. L'Assistant vous donne ensuite la possibilité d'ajouter un modèle d'exploration de données initial à la structure.The wizard then gives you the option to add an initial mining model to the structure. Toutefois, vous n'êtes pas obligé de créer un modèle immédiatement après.However, you don't need to create a model right away. Si vous créez uniquement la structure, vous n'avez pas besoin de prendre de décision concernant la colonne à utiliser comme attribut prédictible ou la façon d'utiliser les données dans un modèle particulier.If you create the structure only, you do not need to make a decision about which column to use as the predictable attribute, or how to use the data in a particular model. Il vous suffit de définir la structure de données générale que vous souhaitez utiliser ultérieurement. Par la suite, vous pouvez utiliser le Concepteur d’exploration de données pour ajouter de nouveaux modèles d’exploration de données basés sur la structure.Instead, you just set up the general data structure that you want to use in future, and later you can use Data Mining Designer to add new mining models that are based on the structure.

Note

Dans DMX, l'instruction CREATE MINING MODEL commence par le modèle d'exploration de données.In DMX, the CREATE MINING MODEL statement begins with the mining model. Autrement dit, vous définissez votre choix de modèle d'exploration de données, et Analysis ServicesAnalysis Services génère automatiquement la structure sous-jacente.That is, you define your choice of mining model, and Analysis ServicesAnalysis Services automatically generates the underlying structure. Par la suite, vous pouvez continuer à ajouter de nouveaux modèles d’exploration de données à cette structure à l’aide de l’instruction ALTER STRUCTURE…Later you can continue to add new mining models to that structure, by using the ALTER STRUCTURE… ADD MODEL.ADD MODEL statement.

Choix d'un algorithmeChoosing an Algorithm

Lorsque vous ajoutez un nouveau modèle à une structure existante, la première chose à faire est de sélectionner un algorithme d'exploration de données à utiliser dans ce modèle.When you add a new model to an existing structure, the first thing you should do is select a data mining algorithm to use in that model. Le choix de l'algorithme est important car chaque algorithme effectue un type d'analyse différent et a des exigences différentes.Choosing the algorithm is important because each algorithm performs a different type of analysis and has different requirements.

Lorsque vous sélectionnez un algorithme qui est incompatible avec vos données, un avertissement s'affiche.When you select an algorithm that is incompatible with your data, you will get a warning. Dans certains cas, vous devrez peut-être ignorer les colonnes qui ne peuvent pas être traitées par l'algorithme.In some cases, you might need to ignore columns that cannot be processed by the algorithm. Dans d'autres cas, l'algorithme effectuera automatiquement les ajustements.In other cases, the algorithm will automatically make the adjustments for you. Par exemple, si votre structure contient des données numériques et que l'algorithme ne peut fonctionner qu'avec des valeurs discrètes, il regroupera automatiquement les valeurs numériques dans des plages discrètes.For example, if your structure contains numeric data, and the algorithm can only work with discrete values, it will group the numeric values into discrete ranges for you. Dans certains cas, vous devrez peut-être d'abord corriger les données manuellement, en choisissant une clé ou un attribut prédictible.In some cases, you might need to manually fix the data first, by choosing a key or choosing a predictable attribute.

Il n'est pas nécessaire de modifier l'algorithme lorsque vous créez un modèle.You do not need to change the algorithm when you create a new model. Bien souvent, vous pouvez obtenir des résultats très différents en utilisant le même algorithme, mais en filtrant les données, ou en modifiant un paramètre tel que la méthode de clustering ou la taille minimale du jeu d'éléments.Often you can get very different results by using the same algorithm, but filtering the data, or changing a parameter such as the clustering method or the minimum itemset size. Nous vous recommandons de faire des essais avec plusieurs modèles afin de voir quels paramètres produisent les meilleurs résultats.We recommend that you experiment with multiple models to see which parameters produce the best results.

Notez que tous les nouveaux modèles doivent être traités avant de pouvoir être utilisés.Note that all new models need to be processed before you can use them.

Spécification de l'utilisation de colonnes dans un modèle d'exploration de donnéesSpecifying the Usage of Columns in a New Mining Model

Lorsque vous ajoutez de nouveaux modèles d'exploration de données à une structure d'exploration de données existante, vous devez spécifier la façon dont chaque colonne de données doit être utilisée par le modèle.When you add new mining models to an existing mining structure, you must specify how each column of data should be used by the model. Suivant le type d'algorithme que vous choisissez pour le modèle, certains de ces choix peut être effectués par défaut.Depending on the type of algorithm you choose for the model, some of these choices may be made by default. Si vous ne spécifiez pas de type d'utilisation pour une colonne, celle-ci ne sera pas incluse dans la structure d'exploration de données.If you do not specify a usage type for a column, the column will not be included in the mining structure. Toutefois, les données de la colonne peuvent encore être disponibles pour l'extraction, si le modèle prend en charge cette fonctionnalité.However, the data in the column can still be available for drillthrough, if the model supports it.

Les colonnes de la structure d'exploration de données qui sont utilisées par le modèle (si la valeur Ignorer ne leur a pas été affectée) doivent être une clé, une colonne d'entrée, une colonne prédictible, ou une colonne prédictible dont les valeurs sont également utilisées en tant qu'entrées pour le modèle.Columns from the mining structure that are used by the model (if not set to Ignore) must be a key, an input column, a predictable column, or a predictable column the values of which are also used as inputs to the model.

  • Les colonnes clés contiennent un identificateur unique pour chaque ligne d'une table.Key columns contain a unique identifier for each row in a table. Certains modèles d'exploration de données, tels que ceux basés sur les algorithmes MSC (Microsoft Sequence Clustering) ou MTS (Microsoft Time Series), peuvent contenir plusieurs colonnes clés.Some mining models, such as those based on the sequence clustering or time series algorithms, can contain multiple key columns. Toutefois, ces multiples clés ne sont pas des clés composées au sens relationnel ; elles doivent être sélectionnées pour prendre en charge l'analyse de séries chronologiques et Sequence Clustering.However, these multiple keys are not compound keys in the relational sense, but instead must be selected so as to provide support for time series and sequence clustering analysis.

  • Les colonnes d'entrée fournissent les informations à partir desquelles les prédictions sont effectuées.Input columns provide the information from which predictions are made. L’Assistant Exploration de données fournit la fonctionnalité Suggérer , qui est activée quand vous sélectionnez une colonne prédictible.The Data Mining Wizard provides the Suggest feature, which is enabled when you select a predictable column. Si vous cliquez sur ce bouton, l'Assistant échantillonne les valeurs prédictibles et détermine les autres colonnes de la structure qui constituent de bonnes variables.If you click this button, the wizard will sample the predictable values and determine which of the other columns in the structure make good variables. Il rejette les colonnes clés ou les autres colonnes comportant de nombreuses valeurs uniques, et suggère les colonnes qui semblent être en corrélation avec le résultat.It will reject key columns or other columns with many unique values, and suggest columns that appear to be correlated with the outcome.

    Cette fonctionnalité est particulièrement pratique lorsque les datasets contiennent plus de colonnes que nécessaire pour générer un modèle d'exploration de données.This feature is particularly handy when datasets contain more columns than you really need to build a mining model. La fonctionnalité Suggérer calcule un score compris entre 0 et 1, qui décrit la relation entre chaque colonne du jeu de données et la colonne prédictible.The Suggest feature calculates a numeric score, from 0 to 1, that describes the relationship between each column in the dataset and the predictable column. En fonction de ce score, la fonctionnalité suggère les colonnes à utiliser comme entrée pour le modèle d'exploration de données.Based on this score, the feature suggests columns to use as input for the mining model. Si vous utilisez la fonctionnalité Suggérer , vous pouvez utiliser les colonnes suggérées, modifier les choix pour les adapter à vos besoins ou ignorer les suggestions.If you use the Suggest feature, you can use the suggested columns, modify the selections to fit your needs, or ignore the suggestions.

  • Les colonnes prédictibles contiennent les informations que vous tentez de prévoir dans le modèle d'exploration de données.Predictable columns contain the information that you try to predict in the mining model. Vous pouvez sélectionner plusieurs colonnes comme attributs prédictibles.You can select multiple columns as the predictable attributes. Les modèles de clustering sont l'exception car un attribut prédictible est facultatif.Clustering models are the exception in that a predictable attribute is optional.

    Suivant le type de modèle, la colonne prédictible devra peut-être être un type de données spécifique : par exemple, un modèle de régression linéaire requiert une colonne numérique comme valeur prédite ; l'algorithme Naïve Bayes requiert une valeur discrète (et toutes les entrées doivent également être discrètes).Depending on the model type, the predictable column might need to be a specific data type: for example, a linear regression model requires a numeric column as the predicted value; Naïve Bayes algorithm requires a discrete value (and all the inputs must be discrete as well).

Spécification du contenu des colonnesSpecifying Column Content

Pour certaines colonnes, vous devrez peut-être spécifier le contenu de colonne.For some columns, you might also need to specify the column content. Dans l'exploration de données SQL ServerSQL Server , la propriété Type de contenu de chaque colonne de données indique à l'algorithme comment il doit traiter les données dans cette colonne.In SQL ServerSQL Server data mining, the Content Type property of each data columns tells the algorithm how it should process the data in that column. Par exemple, si vos données ont une colonne Income, vous devez spécifier que la colonne contient des nombres continus en définissant Continu comme type de contenu.For example, if your data has an Income column, you must specify that the column contains continuous numbers by setting the content type to Continuous. Vous pouvez aussi spécifier que les nombres dans la colonne Revenu doivent être regroupés dans des compartiments en attribuant au contenu le type Discrétisé et en indiquant éventuellement le nombre exact de compartiments.However, you could also specify that the numbers in the Income column be grouped into buckets by setting the content type to Discretized and optionally specifying the exact number of buckets. Vous pouvez créer des modèles distincts qui gèrent les colonnes différemment : par exemple, vous pouvez faire des essais avec un modèle qui répartit les clients en trois groupes d'âge et un autre modèle qui répartit les clients en dix groupes d'âge.You can create different models that handle columns differently: for example, you might try one model that buckets customers into three age groups, and another model that buckets customers into 10 age groups.

Voir aussiSee Also

Les Structures d’exploration de données ( Analysis Services - Exploration de données ) Mining Structures (Analysis Services - Data Mining)
Créer une Structure d’exploration de données relationnelles Create a Relational Mining Structure
Propriétés du modèle d’exploration de données Mining Model Properties
Colonnes du modèle d’exploration de donnéesMining Model Columns