Article
09/27/2010

Architecture logique (Analysis Services - Exploration de données)

L'exploration de données est un processus qui implique l'interaction de plusieurs composants. Vous accédez aux sources de données dans une base de données SQL Server ou à toute autre source de données à utiliser pour l’apprentissage, les tests ou les prédictions. Vous pouvez définir des structures et modèles d'exploration de données avec Business Intelligence Development Studio ou Visual Studio 2005. Vous pouvez gérer des objets d'exploration de données et créer des prédictions ainsi que des requêtes avec SQL Server Management Studio. Lorsque la solution est complète, vous pouvez la déployer sur une instance d'Analysis Services.

Solutions et projets d’exploration de données

Pour créer un projet d'exploration de données, vous devez définir les sources de données, ainsi que les structures et modèles d’exploration de données. Le projet d'exploration de données créé peut également contenir des jeux de test pour valider votre modèle. Après avoir déployé un projet sur le serveur, vous pouvez continuer à développer et tester de nouveaux modèles dans la solution d'origine.

Données issues d'une source d'exploration de données

Vous n'avez pas besoin d'avoir un cube ou une autre source de données spécialisée pour effectuer l'exploration de données. L’exploration de données peut être réalisée rapidement et simplement dans les tables de données relationnelles ou dans toute autre source de données ayant été définie comme vue de source de données Analysis Services. Les données utilisées dans l'exploration de données ne sont pas stockées dans la solution d'exploration de données ; seules les liaisons sont stockées. Les données peuvent résider dans une base de données créée dans une version précédente de SQL Server, un système CRM, ou même un fichier plat. Une vue de source de données Analysis Services permet d’associer différentes sources de données en spécifiant les jointures entre plusieurs tables. Vous pouvez également ajouter des tables qui ont une relation plusieurs-à-un pour créer des colonnes de table imbriquée.

Lorsque vous devez utiliser les données de la solution d'exploration de données, Analysis Services les lit à partir de la source et génère un cache d'agrégats et d'autres informations qui seront utilisées. Vous pouvez conserver les informations mises en cache et les utiliser pour créer des modèles d'exploration de données, ou les supprimer pour économiser de l’espace de stockage.

Vous pouvez mettre à jour en continu votre solution d'exploration de données avec les nouvelles données, ou, si vous trouvez un modèle qui fonctionne bien, vous pouvez le déployer tel quel sans jamais lui ajouter de nouvelles données.

SQL Server 2008 Analysis Services permet également de séparer vos données en données d’apprentissage et en données de test afin de tester vos modèles d'exploration de données sur un jeu de données représentatif, sélectionné aléatoirement.

Pour plus d'informations sur la création et l’utilisation des vues de sources de données et des sources de données Analysis Services, consultez Définition de sources de données (Analysis Services).

Structures d'exploration de données

Une structure d'exploration de données est une structure de données logiques qui définit le domaine de données à partir duquel les modèles d'exploration de données sont créés. Une structure d'exploration de données individuelle peut prendre en charge plusieurs modèles d'exploration de données qui partagent le même domaine. La structure d'exploration de données peut également être partitionnée en un jeu d’apprentissage et un jeu de test, en spécifiant un pourcentage ou une quantité de données comme HOLDOUT. Ce partitionnement peut être effectué automatiquement lors de la définition de la structure d'exploration de données

Pour plus d'informations, consultez Structures d'exploration de données (Analysis Services – exploration de données).

Une structure d'exploration de données peut contenir des tables imbriquées. Une table imbriquée fournit des détails supplémentaires sur le cas modélisé dans la table de données primaire. Pour plus d'informations, consultez Tables imbriquées (Analysis Services - Exploration de données)

Modèles d'exploration de données

Un modèle d'exploration de données représente une combinaison de données, un algorithme d'exploration de données ainsi qu’une collection de paramétrages et de paramètres de filtrage qui affectent les données utilisées et leur mode de traitement. Pour plus d'informations, consultez Modèles d'exploration de données (Analysis Services - Exploration de données).

Vous pouvez définir un modèle d’exploration de données en utilisant le langage DMX (Data Mining Extensions) ou l'Assistant Exploration de données de BI Development Studio. Pour plus d'informations sur l'utilisation de l'Assistant Exploration de données, consultez Assistant Exploration de données (Analysis Services - Exploration de données). Pour plus d'informations sur l'utilisation de DMX, consultez Guide de référence du langage DMX (Data Mining Extensions).

Après avoir défini la structure du modèle d'exploration de données, vous devez traiter le modèle en remplissant la structure vide avec les motifs le décrivant. C'est ce que l'on appelle l'apprentissage du modèle. Les motifs sont recherchés en acheminant les données d'origine dans un algorithme mathématique. Vous pouvez utiliser des paramètres pour ajuster chaque algorithme. Pour plus d'informations sur la sélection d'un algorithme d'exploration de données, consultez Algorithmes d'exploration de données (Analysis Services – exploration de données). Pour plus d'informations sur la définition des paramètres sur les algorithmes d'exploration de données individuels afin de régler avec précision les résultats d'un modèle, consultez Personnalisation d'un modèle d'exploration de données (Analysis Services - Exploration de données).

Lorsque vous générez de nouveaux modèles d'exploration de données, vous les testez de manière itérative en élaborant des prédictions, puis vous apportez des modifications pour améliorer les résultats. Les modifications peuvent inclure l'ajout de données supplémentaires ou la modification des paramètres du modèle afin d’obtenir un meilleur ajustement avec les données. Pour plus d'informations sur l’évaluation de la précision des prédictions, consultez Validation des modèles d'exploration de données (Analysis Services - Exploration de données).

Déploiement

Le but ultime du développement de l'exploration de données est de créer un modèle qui peut être utilisé par les utilisateurs finals et les analystes pour élaborer des prédictions et effectuer une analyse approfondie. Par conséquent, lorsque vous êtes satisfait des résultats générés par un modèle, vous pouvez le déployer dans un environnement de production. Dans un environnement de production, les modèles d'exploration de données peuvent être utilisés à différentes fins selon vos besoins. La liste suivante contient des exemples de tâches que vous pouvez effectuer avec un modèle d'exploration de données :

Utiliser les modèles pour créer des prédictions qui peuvent ensuite servir à prendre des décisions. SQL Server fournit le langage DMX que vous pouvez utiliser pour créer des requêtes de prédictions et le Générateur de requêtes de prédictions pour vous aider à créer ces requêtes.
Incorporer la fonctionnalité d'exploration de données directement dans une application. Vous pouvez inclure des objets AMO (Analysis Management Objects) ou un assembly contenant un jeu d'objets qui peuvent être utilisés par votre application pour créer, modifier, traiter et supprimer des structures d'exploration de données et des modèles d'exploration de données. Vous pouvez aussi envoyer directement des messages XML for Analysis (XMLA) à une instance d'Analysis Services.
Utiliser Integration Services pour créer un package dans lequel un modèle d'exploration de données est utilisé pour répartir intelligemment les données entrantes dans plusieurs tables. Par exemple, si une base de données est continuellement mise à jour avec des noms de clients potentiels, vous pouvez utiliser un modèle d'exploration de données avec Integration Services pour séparer les données entrantes en deux catégories : clients susceptibles d'acheter un produit et clients susceptibles de ne pas acheter un produit.
Créer un rapport permettant aux utilisateurs d'effectuer directement des requêtes sur un modèle d'exploration de données existant. Les utilisateurs peuvent souhaiter créer des prédictions différentes, ou les analystes avoir un accès direct au contenu du modèle d'exploration de données afin d’explorer des motifs intéressants dans les données.

La mise à jour du modèle fait partie de la stratégie de déploiement. Au fur et à mesure que de nouvelles données arrivent dans l'entreprise, vous devez traiter à nouveau les modèles afin d'améliorer leur efficacité. Pour plus d'informations, consultez Déploiement (Analysis Services - Exploration de données) et Création de requêtes de prédiction DMX