transformation de l'échantillonnage du pourcentage

S’applique à :SQL Server SSIS Integration Runtime dans Azure Data Factory

La transformation de l'échantillonnage du pourcentage crée un échantillon d'ensemble de données en sélectionnant un pourcentage des lignes d'entrée de transformation. L'échantillon d'ensemble de données est une sélection aléatoire de lignes dans l'entrée de transformation, visant à rendre l'échantillon résultant représentatif de l'entrée.

Notes

Outre le pourcentage spécifié, la transformation de l'échantillonnage du pourcentage utilise un algorithme pour déterminer si une ligne doit être incluse dans l'échantillon en sortie. Par conséquent, le nombre de lignes dans l'échantillon en sortie peut ne pas refléter exactement le pourcentage spécifié. Par exemple, la spécification de la valeur 10 % pour un ensemble de données d'entrée composé de 25 000 lignes peut ne pas générer un échantillon de 2 500 lignes ; celui-ci peut avoir un peu plus ou un peu moins de lignes.

La transformation de l'échantillonnage du pourcentage est spécialement utile pour l'exploration de données. Cette transformation vous permet de diviser de façon aléatoire un jeu de données en deux jeux de données : un pour mettre au point le modèle d'exploration de données, l'autre pour le tester.

La transformation de l'échantillonnage du pourcentage permet également de créer des échantillons d'ensembles de données en vue de développer des packages. Vous pouvez appliquer la transformation de l'échantillonnage du pourcentage à un flux de données afin de réduire uniformément la taille de l'ensemble de données tout en conservant les caractéristiques de ses données. Le package de test peut ensuite s'exécuter plus rapidement car il utilise un ensemble de données réduit mais représentatif.

Configuration de la transformation de l'échantillonnage du pourcentage

Vous pouvez spécifier une valeur d'échantillonnage de départ afin de modifier le comportement du générateur de nombres aléatoires qu'utilise la transformation pour sélectionner les lignes. Si la même valeur d'échantillonnage de départ est utilisée, la transformation crée toujours le même échantillon en sortie. Si aucune valeur de départ n'est spécifiée, la transformation utilise le nombre de cycles du système d'exploitation pour créer le nombre aléatoire. Par conséquent, vous pouvez utiliser une valeur de départ standard pour vérifier les résultats de la transformation pendant le développement et le test d'un package, puis opter pour une valeur de départ aléatoire lorsque le package passe en production.

Cette transformation est similaire à la transformation d'échantillonnage de lignes, qui crée un échantillon d'ensemble de données en sélectionnant un nombre spécifié de lignes d'entrée. Pour plus d’informations, consultez Transformation d’échantillonnage de lignes.

La transformation d’échantillonnage par pourcentage inclut la propriété personnalisée SamplingValue . La propriété peut être mise à jour par une expression de propriété lors du chargement du package. Pour plus d’informations, consultez Expressions Integration Services (SSIS), Utiliser des expressions de propriété dans des packages et Propriétés personnalisées des transformations.

La transformation a une entrée et deux sorties. Elle ne prend pas en charge de sortie d'erreur.

Vous pouvez définir les propriétés par le biais du concepteur SSIS ou par programmation.

La boîte de dialogue Éditeur avancé reflète les propriétés qui peuvent être définies par programmation. Pour plus d'informations sur les propriétés définissables dans la boîte de dialogue Éditeur avancé ou par programmation, cliquez sur l'une des rubriques suivantes :

Pour plus d’informations sur la façon de définir les propriétés, consultez Définir les propriétés d’un composant de flux de données.

Éditeur de transformation de l'échantillonnage du pourcentage

La boîte de dialogue Éditeur de transformation de l'échantillonnage du pourcentage permet de fractionner une partie d'une entrée en un exemple par le biais d'un certain pourcentage de lignes. Cette transformation divise l'entrée en deux sorties distinctes.

Options

Pourcentage de lignes
Permet d'indiquer le pourcentage de lignes de l'entrée à utiliser comme exemple.

Il est possible de spécifier la valeur de cette propriété en utilisant l'expression d'une propriété.

Nom de sortie de l'exemple
Fournissez un nom unique pour la sortie qui contiendra les lignes échantillonnées. Le nom fourni s'affichera dans le Concepteur SSIS .

Nom de sortie non sélectionnée
Fournissez un nom unique pour la sortie qui contiendra les lignes exclues de l'échantillonnage. Le nom fourni s'affichera dans le Concepteur SSIS .

Utiliser la valeur de départ aléatoire suivante
Définissez la valeur de départ d'échantillonnage du générateur de nombres aléatoires qu'utilise la transformation pour créer un échantillon. Ceci est recommandé uniquement pour le développement et les tests. La fonctionnalité de transformation utilise le nombre de cycles de Microsoft Windows si aucune valeur de départ aléatoire n'est mentionnée.