Datatransformationer

Datatransformeringar används för att:

  • förbereda data för modellträning
  • tillämpa en importerad modell i TensorFlow- eller ONNX-format
  • efterprocessdata efter att de har skickats via en modell

Omvandlingarna i den här guiden returnerar klasser som implementerar IEstimator-gränssnittet . Datatransformeringar kan länkas samman. Varje transformering både förväntar sig och genererar data av specifika typer och format, som anges i den länkade referensdokumentationen.

Vissa datatransformeringar kräver träningsdata för att beräkna deras parametrar. Till exempel: NormalizeMeanVariance transformatorn beräknar medelvärdet och variansen för träningsdata under Fit() åtgärden och använder dessa parametrar i Transform() åtgärden.

Andra datatransformeringar kräver inte träningsdata. Till exempel: omvandlingen ConvertToGrayscale kan utföra Transform() åtgärden utan att ha sett några träningsdata under åtgärden Fit() .

Kolumnmappning och gruppering

Transformering Definition ONNX-exporterbar
Concatenate Sammanfoga en eller flera indatakolumner till en ny utdatakolumn Ja
CopyColumns Kopiera och byt namn på en eller flera indatakolumner Ja
DropColumns Släpp en eller flera indatakolumner Ja
SelectColumns Välj en eller flera kolumner att behålla från indata Ja

Normalisering och skalning

Transformering Definition ONNX-exporterbar
NormalizeMeanVariance Subtrahera medelvärdet (av träningsdata) och dividera med variansen (för träningsdata) Ja
NormalizeLogMeanVariance Normalisera baserat på logaritmen för träningsdata Ja
NormalizeLpNorm Skala indatavektorer efter lp-norm, där p är 1, 2 eller oändligt. Standardvärdet är normen l2 (Euklidiska avstånd) Ja
NormalizeGlobalContrast Skala varje värde i en rad genom att subtrahera medelvärdet av raddata och dividera med antingen standardavvikelsen eller l2-normen (av raddata) och multiplicera med en konfigurerbar skalningsfaktor (standard 2) Ja
NormalizeBinning Tilldela indatavärdet till ett lagerplatsindex och dividera med antalet lagerplatser för att skapa ett flyttalvärde mellan 0 och 1. Intervallgränserna beräknas för att fördela träningsdata jämnt mellan lagerplatser Ja
NormalizeSupervisedBinning Tilldela indatavärdet till en lagerplats baserat på dess korrelation med etikettkolumnen Ja
NormalizeMinMax Skala indata efter skillnaden mellan lägsta och högsta värden i träningsdata Ja
NormalizeRobustScaling Skala varje värde med hjälp av statistik som är robust för extremvärden som kommer att centrera data runt 0 och skala data enligt kvantilintervallet. Ja

Konverteringar mellan datatyper

Transformering Definition ONNX-exporterbar
ConvertType Konvertera typen av en indatakolumn till en ny typ Ja
MapValue Mappa värden till nycklar (kategorier) baserat på den angivna ordlistan med mappningar Nej
MapValueToKey Mappa värden till nycklar (kategorier) genom att skapa mappningen från indata Ja
MapKeyToValue Konvertera tillbaka nycklar till sina ursprungliga värden Ja
MapKeyToVector Konvertera tillbaka nycklar till vektorer med ursprungliga värden Ja
MapKeyToBinaryVector Konvertera tillbaka nycklar till en binär vektor med ursprungliga värden Nej
Hash Hash värdet i indatakolumnen Ja

Texttransformeringar

Transformering Definition ONNX-exporterbar
FeaturizeText Omvandla en textkolumn till en flyttalmatris med normaliserade ngram och antal tecken/gram Nej
TokenizeIntoWords Dela upp en eller flera textkolumner i enskilda ord Ja
TokenizeIntoCharactersAsKeys Dela upp en eller flera textkolumner i enskilda tecken som flyter över en uppsättning ämnen Ja
NormalizeText Ändra skiftläge, ta bort diakritiska markeringar, skiljetecken och tal Ja
ProduceNgrams Omvandla textkolumnen till en påse med antal ngram (sekvenser med efterföljande ord) Ja
ProduceWordBags Omvandla textkolumn till en påse med antal ngramsvektor Ja
ProduceHashedNgrams Omvandla textkolumn till en vektor med hashade ngramantal Nej
ProduceHashedWordBags Omvandla textkolumn till en påse med hashade ngramantal Ja
RemoveDefaultStopWords Ta bort standardstoppord för det angivna språket från indatakolumner Ja
RemoveStopWords Tar bort angivna stoppord från indatakolumner Ja
LatentDirichletAllocation Transformera ett dokument (representeras som en vektor av flyttal) till en vektor av flyttal över en uppsättning ämnen Ja
ApplyWordEmbedding Konvertera vektorer av texttoken till meningsvektorer med hjälp av en förtränad modell Ja

Bildtransformeringar

Transformering Definition ONNX-exporterbar
ConvertToGrayscale Konvertera en bild till gråskala Nej
ConvertToImage Konvertera en pixelvektor till ImageDataViewType Nej
ExtractPixels Konvertera bildpunkter från indatabild till en vektor med tal Nej
LoadImages Läsa in bilder från en mapp till minnet Nej
LoadRawImageBytes Läser in bilder av råa byte i en ny kolumn. Nej
ResizeImages Ändra storlek på bilder Nej
DnnFeaturizeImage Använder en förtränad DNN-modell (Deep Neural Network) för att omvandla en indatabild till en funktionsvektor Nej

Kategoriska datatransformeringar

Transformering Definition ONNX-exporterbar
OneHotEncoding Konvertera en eller flera textkolumner till en frekvent kodade vektorer Ja
OneHotHashEncoding Konvertera en eller flera textkolumner till hashbaserade kodade vektorer med en frekvent kodning Nej

Tidsseriedatatransformeringar

Transformering Definition ONNX-exporterbar
DetectAnomalyBySrCnn Identifiera avvikelser i indata för tidsseriedata med hjälp av Spektral residualalgoritmen (SR) Nej
DetectChangePointBySsa Identifiera ändringspunkter i tidsseriedata med SSA (Singular Spectrum Analysis) Nej
DetectIidChangePoint Identifiera ändringspunkter i oberoende och identiskt distribuerade tidsseriedata (IID) med hjälp av adaptiva kerneldensitetsuppskattningar och martingalepoäng Nej
ForecastBySsa Prognostisera tidsseriedata med singulär spektrumanalys (SSA) Nej
DetectSpikeBySsa Identifiera toppar i tidsseriedata med SSA (Singular Spectrum Analysis) Nej
DetectIidSpike Identifiera toppar i oberoende och identiskt distribuerade tidsseriedata (IID) med hjälp av adaptiva kerneldensitetsuppskattningar och martingalpoäng Nej
DetectEntireAnomalyBySrCnn Identifiera avvikelser för hela indata med hjälp av SRCNN-algoritmen. Nej
DetectSeasonality Identifiera säsongsvariationer med hjälp av fourier-analys. Nej
LocalizeRootCause Lokaliserar rotorsaken från tidsserieindata med hjälp av en beslutsträdsalgoritm. Nej
LocalizeRootCauses Lokaliserar rotorsaker från tie series-indata. Nej

Saknade värden

Transformering Definition ONNX-exporterbar
IndicateMissingValues Skapa en ny boolesk utdatakolumn, vars värde är sant när värdet i indatakolumnen saknas Ja
ReplaceMissingValues Skapa en ny utdatakolumn, vars värde är inställt på ett standardvärde om värdet saknas i indatakolumnen och indatavärdet annars Ja

Val av funktion

Transformering Definition ONNX-exporterbar
SelectFeaturesBasedOnCount Välj funktioner vars icke-standardvärden är större än ett tröskelvärde Ja
SelectFeaturesBasedOnMutualInformation Välj de funktioner som data i etikettkolumnen är mest beroende av Ja

Funktionstransformeringar

Transformering Definition ONNX-exporterbar
ApproximatedKernelMap Mappa varje indatavektor till ett lägre dimensionellt funktionsutrymme, där inre produkter approximeras en kernelfunktion, så att funktionerna kan användas som indata till de linjära algoritmerna Nej
ProjectToPrincipalComponents Minska dimensionerna för indatafunktionsvektorn genom att använda algoritmen för analys av huvudkomponent

Förklaringstransformeringar

Transformering Definition ONNX-exporterbar
CalculateFeatureContribution Beräkna bidragspoäng för varje element i en funktionsvektor Nej

Kalibreringstransformeringar

Transformering Definition ONNX-exporterbar
Platt(String, String, String) Omvandlar en binär klassificerarens råpoäng till en klasssannolikheten med logistisk regression med parametrar som uppskattas med hjälp av träningsdata Ja
Platt(Double, Double, String) Omvandlar en binär klassificerares råpoäng till en klasssannolikheten med logistisk regression med fasta parametrar Ja
Naive Omvandlar en binär klassificerarens råpoäng till en klasssannolikhet genom att tilldela poäng till lagerplatser och beräkna sannolikheten baserat på fördelningen mellan lagerplatserna Ja
Isotonic Omvandlar en binär klassificerarens råpoäng till en klasssannolikhet genom att tilldela poäng till lagerplatser, där gränsernas position och storleken på lagerplatser beräknas med hjälp av träningsdata Nej

Djupinlärningstransformeringar

Transformering Definition ONNX-exporterbar
ApplyOnnxModel Transformera indata med en importerad ONNX-modell Nej
LoadTensorFlowModel Transformera indata med en importerad TensorFlow-modell Nej

Anpassade transformeringar

Transformering Definition ONNX-exporterbar
FilterByCustomPredicate Tar bort rader där ett angivet predikat returnerar sant. Nej
FilterByStatefulCustomPredicate Tar bort rader där ett angivet predikat returnerar sant, men tillåter ett angivet tillstånd. Nej
CustomMapping Transformera befintliga kolumner till nya med en användardefinierad mappning Nej
Expression Använda ett uttryck för att omvandla kolumner till nya Nej