Transformations de données

Les transformations de données sont utilisées pour :

  • préparer les données pour l’entraînement de modèles
  • appliquer un modèle importé au format TensorFlow ou ONNX
  • traiter les données après qu’elles ont été transmises par le biais d’un modèle

Les transformations abordées dans ce guide retournent des classes qui implémentent l’interface IEstimator. Les transformations de données peuvent s’enchaîner. Chacune transformation attend et génère des données de type et de format spécifiques, indiqués dans le lien de la documentation de référence.

Certaines transformations de données ont besoin de données d’apprentissage pour calculer leurs paramètres. Par exemple, le transformateur NormalizeMeanVariance calcule la moyenne et la variance des données d’apprentissage au cours de l’opération Fit() et utilise ces paramètres dans l’opération Transform().

D’autres transformations de données n’exigent pas les données d’apprentissage. Par exemple, la transformation ConvertToGrayscale peut effectuer l’opération Transform() sans consulter ces données durant l’opération Fit().

Mappage et regroupement de colonnes

Transformation Définition Exportable vers ONNX
Concatenate Concaténer une ou plusieurs colonnes d’entrée en une nouvelle colonne de sortie Oui
CopyColumns Copier et renommer une ou plusieurs colonnes d’entrée Oui
DropColumns Supprimer une ou plusieurs colonnes d’entrée Oui
SelectColumns Sélectionner une ou plusieurs colonnes à exclure des données d’entrée Oui

Normalisation et pondération

Transformation Définition Exportable vers ONNX
NormalizeMeanVariance Soustraire la moyenne (des données d’apprentissage) et diviser par la variance (des données d’apprentissage) Oui
NormalizeLogMeanVariance Normaliser selon le logarithme des données d’apprentissage Oui
NormalizeLpNorm Mettre à l’échelle des vecteurs d’entrée par leur norme Lp, où p vaut 1, 2 ou l’infini, avec L² (distance euclidienne) comme valeur par défaut Oui
NormalizeGlobalContrast Pondérer chacune des valeurs d’une ligne en soustrayant la moyenne des données de la ligne, diviser par l’écart type ou la norme L² (des données de la ligne) et multiplier par un facteur de proportionnalité configurable (par défaut, 2) Oui
NormalizeBinning Affecter à la valeur d’entrée un index d’emplacement (bin) et diviser par le nombre d’emplacements pour produire une valeur float comprise entre 0 et 1, les limites étant calculées pour distribuer uniformément les données d’apprentissage dans les emplacements Oui
NormalizeSupervisedBinning Affecter à la valeur d’entrée un emplacement en fonction de sa corrélation avec la colonne d’étiquettes Oui
NormalizeMinMax Pondérer l’entrée selon la différence entre les valeurs minimales et les valeurs maximales des données d’apprentissage Oui
NormalizeRobustScaling Mettez à l’échelle chaque valeur en utilisant des statistiques robustes pour les valeurs hors norme qui centrent les données autour de 0 et mettez à l’échelle les données en fonction de la plage de quantiles. Oui

Conversions entre types de données

Transformation Définition Exportable vers ONNX
ConvertType Convertir le type d’une colonne d’entrée en un nouveau type Oui
MapValue Mapper les valeurs sur les clés (catégories) en fonction du dictionnaire de mappages fourni Non
MapValueToKey Mapper les valeurs sur les clés (catégories) en créant le mappage à partir des données d’entrée Oui
MapKeyToValue Reconvertir les clés dans leurs valeurs d’origine Oui
MapKeyToVector Reconvertir les clés en vecteurs de valeurs d’origine Oui
MapKeyToBinaryVector Reconvertir les clés en un vecteur binaire de valeurs d’origine Non
Hash Hacher la valeur dans la colonne d’entrée Oui

Transformations textuelles

Transformation Définition Exportable vers ONNX
FeaturizeText Transformer une colonne de texte en un tableau float de nombres de n-grammes et de car-grammes normalisés Non
TokenizeIntoWords Fractionner une ou plusieurs colonnes de texte en mots Oui
TokenizeIntoCharactersAsKeys Fractionner une ou plusieurs colonnes de texte en valeurs float de caractères sur un ensemble de rubriques Oui
NormalizeText Modifier la casse, supprimer les signes diacritiques, les signes de ponctuation et les chiffres Oui
ProduceNgrams Transformer une colonne de texte en un sac de nombres de n-grammes (séquences de mots consécutifs) Oui
ProduceWordBags Transformer une colonne de texte en un sac de nombres de vecteur de n-grammes Oui
ProduceHashedNgrams Transformer la colonne de texte en un vecteur de nombres de n-grammes hachés Non
ProduceHashedWordBags Transformer la colonne de texte en un sac de nombres de n-grammes hachés Oui
RemoveDefaultStopWords Supprimer les mots vides par défaut des colonnes d’entrée pour la langue spécifiée Oui
RemoveStopWords Supprimer les mots vides spécifiés des colonnes d’entrée Oui
LatentDirichletAllocation Transformer un document (représenté sous la forme d’un vecteur de valeurs float) en un vecteur de valeurs float sur un ensemble de rubriques Oui
ApplyWordEmbedding Convertir des vecteurs de jetons textuels en vecteurs de phrases selon un modèle préentraîné Oui

Transformations d’images

Transformation Définition Exportable vers ONNX
ConvertToGrayscale Convertir une image en nuances de gris Non
ConvertToImage Convertir un vecteur de pixels en ImageDataViewType Non
ExtractPixels Convertir les pixels d’une image d’entrée en un vecteur de nombres Non
LoadImages Charger les images d’un dossier en mémoire Non
LoadRawImageBytes Charge des images d’octets bruts dans une nouvelle colonne. Non
ResizeImages Redimensionner les images Non
DnnFeaturizeImage Appliquer un modèle DNN (Deep Neural Network) préentraîné pour transformer une image d’entrée en un vecteur de fonctionnalité Non

Transformations de données catégoriques

Transformation Définition Exportable vers ONNX
OneHotEncoding Convertir une ou plusieurs colonnes de texte en vecteurs encodés one-hot Oui
OneHotHashEncoding Convertir une ou plusieurs colonnes de texte en vecteurs encodés one-hot par hachage Non

Transformations de données de séries chronologiques

Transformation Définition Exportable vers ONNX
DetectAnomalyBySrCnn Détecter les anomalies dans les données de séries chronologiques d’entrée à l’aide de l’algorithme SR (Spectral Residual) Non
DetectChangePointBySsa Détecter les points de changement dans les données de séries chronologiques à l’aide de l’analyse de spectre singulier (SSA) Non
DetectIidChangePoint Détecter les points de changement dans des données de séries chronologiques indépendantes et identiquement distribuées à l’aide d’estimations de densité de noyau adaptative et de scores martingales Non
ForecastBySsa Prévoir des données de séries chronologiques à l’aide de l’analyse de spectre singulier (SSA) Non
DetectSpikeBySsa Détecter les pics dans les données de séries chronologiques à l’aide de l’analyse de spectre singulier (SSA) Non
DetectIidSpike Détecter les pics dans des données de séries chronologiques indépendantes et identiquement distribuées à l’aide d’estimations de densité de noyau adaptative et de scores martingales Non
DetectEntireAnomalyBySrCnn Détectez les anomalies pour l’ensemble des données d’entrée en utilisant l’algorithme SRCNN. Non
DetectSeasonality Détectez la saisonnalité en utilisant l’analyse de Fourier. Non
LocalizeRootCause Localise la cause racine à partir d’une entrée de série chronologique en utilisant un algorithme d’arbre de décision. Non
LocalizeRootCauses Localise les causes racines à partir de l’entrée de série de liens. Non

Valeurs manquantes

Transformation Définition Exportable vers ONNX
IndicateMissingValues Créer une colonne de sortie booléenne dont la valeur est true s’il manque la valeur de la colonne d’entrée Oui
ReplaceMissingValues Créer une colonne de sortie dont la valeur est définie sur une valeur par défaut s’il manque la valeur de la colonne d’entrée, sur la valeur d’entrée sinon Oui

Sélection de caractéristiques

Transformation Définition Exportable vers ONNX
SelectFeaturesBasedOnCount Sélectionner les caractéristiques dont les valeurs par défaut sont supérieures à un seuil Oui
SelectFeaturesBasedOnMutualInformation Sélectionnez les caractéristiques dont les données de la colonne d’étiquette dépendent le plus Oui

Transformations de fonctionnalités

Transformation Définition Exportable vers ONNX
ApproximatedKernelMap Mapper chaque vecteur d’entrée à un espace de fonctionnalité dimensionnelle inférieur, où les produits internes se rapprochent d’une fonction de noyau, afin que les fonctionnalités puissent être utilisées comme entrées des algorithmes linéaires Non
ProjectToPrincipalComponents Réduire les dimensions du vecteur de fonctionnalité d’entrée en appliquant l’algorithme Principal Component Analysis (PCA)

Transformations d’explicabilité

Transformation Définition Exportable vers ONNX
CalculateFeatureContribution Calculer les scores de contribution pour chaque élément d’un vecteur de fonctionnalité Non

Transformations d’étalonnage

Transformation Définition Exportable vers ONNX
Platt(String, String, String) Transforme un score brut de classifieur binaire en une probabilité de classe à l’aide de la régression logistique avec les paramètres estimés à l’aide des données d’entraînement Oui
Platt(Double, Double, String) Transforme un score brut de classifieur binaire en une probabilité de classe à l’aide de la régression logistique avec les paramètres fixes Oui
Naive Transforme un score brut de classifieur binaire en une probabilité de classe en affectant des scores à des emplacements et en calculant la probabilité en fonction de la répartition entre les emplacements Oui
Isotonic Transforme un score brut de classifieur binaire en une probabilité de classe en affectant des scores à des emplacements, où la position des limites et la taille des emplacements sont estimées à l’aide des données d’entraînement Non

Transformations d’apprentissage profond

Transformation Définition Exportable vers ONNX
ApplyOnnxModel Transformer les données d’entrée avec un modèle ONNX importé Non
LoadTensorFlowModel Transformer les données d’entrée avec un modèle TensorFlow importé Non

Transformations personnalisées

Transformation Définition Exportable vers ONNX
FilterByCustomPredicate Supprime les lignes où un prédicat spécifié retourne true (vrai). Non
FilterByStatefulCustomPredicate Supprime les lignes où un prédicat spécifié retourne true (vrai), mais autorise un état spécifié. Non
CustomMapping Transformer des colonnes existantes en de nouvelles colonnes suivant un mappage défini par l’utilisateur Non
Expression Appliquer une expression pour transformer des colonnes en nouvelles colonnes Non