Fehlende Daten bereinigen

Gibt an, wie Werte verarbeitet werden sollen, die in einem Dataset fehlen.

Kategorie: Daten Transformation/-Bearbeitung

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Dieser Inhalt bezieht sich nur auf Studio (klassisch). Ähnliche Drag & Drop-Module wurden Azure Machine Learning-Designer hinzugefügt. Weitere Informationen finden Sie in diesem Artikel zum Vergleich der beiden Versionen.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul Clean Missing Data in Azure Machine Learning Studio (klassisch) verwenden, um fehlende Werte zu entfernen, zu ersetzen oder abzuleiten.

Datenanalysten überprüfen Daten oft auf fehlende Werte und führen dann verschiedene Vorgänge zum Korrigieren der Daten oder Einfügen neuer Werte aus. Durch solche Bereinigungsvorgänge sollen Probleme aufgrund von fehlenden Daten verhindert werden, die beim Trainieren eines Modells auftreten können.

Dieses Modul unterstützt mehrere Typen von Vorgängen zum „Bereinigen“ fehlender Werte, darunter:

  • Ersetzen von fehlenden Werten durch einen Platzhalter, einen Mittelwert oder einen anderen Wert
  • Vollständiges Entfernen von Zeilen und Spalten, in denen Werte fehlen
  • Ableiten von Werten basierend auf statistischen Methoden

Tipp

Neu bei Machine Learning? In diesem Artikel wird erläutert, warum Sie die verschiedenen Methoden zum Ersetzen fehlender Werte verwenden würden: Methoden für die Behandlung fehlender Werte .

Durch Verwendung dieses Moduls wird Ihr Quelldataset nicht geändert. Stattdessen erstellt es ein neues Dataset in Ihrem Arbeitsbereich, das Sie im nachfolgenden Workflow verwenden können. Sie können das neue, bereinigte Dataset auch zur Wiederverwendung speichern.

Dieses Modul gibt außerdem eine Definition der Transformation aus, die zum Bereinigen der fehlenden Werte verwendet wird. Sie können diese Transformation für andere Datasets mit dem gleichen Schema wieder verwenden, indem Sie das Apply Transformation -Modul verwenden.

Verwenden des Moduls „Clean Missing Data“

Mit diesem Modul können Sie einen Bereinigungsvorgang definieren. Sie können den Bereinigungsvorgang auch speichern, damit Sie ihn zu einem späteren Zeitpunkt auf neue Daten anwenden können. Lesen Sie unter den nachstehenden Links eine Beschreibung dazu, wie Sie einen Bereinigungsprozess erstellen und speichern können:

Wichtig

Die Bereinigungsmethode, die Sie zur Behandlung fehlender Werte verwenden, kann sich auf Ihre Ergebnisse erheblich auswirken. Wir empfehlen, dass Sie mit verschiedenen Methoden experimentieren. Berücksichtigen Sie sowohl die Begründung zur Verwendung einer bestimmten Methode als auch die Qualität der Ergebnisse.

Fehlende Werte ersetzen

Immer wenn Sie das Modul Clean Missing Data auf eine Gruppe von Daten anwenden, wird derselbe Bereinigungsvorgang auf alle von Ihnen ausgewählten Spalten angewendet. Wenn Sie verschiedene Spalten mithilfe verschiedener Methoden bereinigen müssen, verwenden Sie deshalb separate Instanzen des Moduls.

  1. Fügen Sie Ihrem Experiment das Modul Clean Missing Data hinzu, und verbinden Sie das Dataset, in dem Werte fehlen.

  2. Wählen Sie bei Columns to be cleaned (Zu bereinigende Spalten) die Spalten mit den fehlenden Werten aus, die Sie ändern möchten. Sie können mehrere Spalten auswählen, müssen aber dieselbe Ersetzungsmethode in allen ausgewählten Spalten verwenden. Daher müssen Sie Zeichenfolgenspalten und numerische Spalten in der Regel getrennt bereinigen.

    Um beispielsweise auf fehlende Werte in allen numerischen Spalten zu überprüfen, führen Sie die folgenden Schritte aus:

    1. Öffnen Sie die Spaltenauswahl, und wählen Sie WITH RULES (MIT REGELN) aus.

    2. Wählen Sie bei BEGIN WITH (BEGINNEN MIT) NO COLUMNS (KEINE SPALTEN) aus.

      Sie können auch mit „ALL COLUMNS“ (ALLE SPALTEN) beginnen und dann Spalten ausschließen. Wenn Sie zuerst auf ALL COLUMNS klicken, werden zunächst keine Regeln angezeigt. Sie können aber auch auf NO COLUMNS und dann erneut ALL COLUMNS klicken, um mit allen Spalten zu beginnen. Anschließend können Sie Spalten anhand des Namens, Datentyps oder Spaltenindex ausfiltern (ausschließen).

    3. Wählen Sie für Include (Einschließen) den Column Type (Spaltentyp) aus der Dropdownliste und anschließend Numeric (Numerisch) oder einen spezifischeren numerischen Typ aus.

    Jede von Ihnen ausgewählte Bereinigungs- oder Ersetzungsmethode muss auf alle Spalten in der Auswahl anwendbar sein. Wenn die Daten in einer Spalte mit dem angegebenen Vorgang inkompatibel sind, gibt das Modul einen Fehler zurück und beendet das Experiment.

  3. Geben Sie für Minimum missing value ratio (Mindestverhältnis für fehlende Werte) die Mindestanzahl von fehlenden Werten an, die für den auszuführenden Vorgang erforderlich sind.

    Sie verwenden diese Option in Kombination mit Maximum missing value ratio (Höchstverhältnis für fehlende Werte) zum Definieren der Bedingungen, unter denen ein Bereinigungsvorgang am Dataset ausgeführt wird. Wenn es zu viele oder zu wenige Zeilen gibt, in denen Werte fehlen, kann der Vorgang nicht ausgeführt werden.

    Die eingegebene Anzahl stellt das Verhältnis von fehlenden Werten zu allen Werten in der Spalte dar. Für die Eigenschaft Minimum missing value ratio ist standardmäßig „0“ festgelegt. Dies bedeutet: Fehlende Werte werden selbst dann bereinigt, wenn nur ein einziger Wert fehlt. Ein Beispiel für die Verwendung dieser Option finden Sie unter Festlegen eines Schwellenwerts für Bereinigungs Vorgänge.

    Warnung

    Diese Bedingung muss von jeder einzelnen Spalte erfüllt werden, damit der angegebene Vorgang angewendet werden kann. Angenommen beispielsweise, Sie haben drei Spalten ausgewählt und dann als Mindestverhältnis für fehlende Werte „0,2“ (20%) festgelegt, doch nur in einer einzigen Spalte fehlen tatsächlich 20% der Werte. In diesem Fall würde der Bereinigungsvorgang nur auf die Spalte angewendet, in der mehr als 20% der Werte fehlen. Die anderen Spalten würden unverändert beibehalten.

    Wenn Sie unsicher sind, ob fehlende Werte geändert wurden, wählen Sie die Option Generate missing value indicator column aus. Dann wird eine Spalte an das Dataset angefügt, um anzugeben, ob jede Spalte die festgelegten Kriterien für den minimalen und maximalen Bereich erfüllt hat oder nicht.

  4. Geben Sie für Maximum missing value ratio die maximale Anzahl von Werten an, die fehlen können, damit der Vorgang ausgeführt wird.

    So möchten Sie eine Ersetzung fehlender Werte beispielsweise nur dann durchführen, wenn in 30% oder weniger der Zeilen Werte fehlen, möchten die Werte aber unverändert beibehalten, wenn in mehr als 30% der Zeilen Werte fehlen.

    Sie definieren die Anzahl als Verhältnis der fehlenden Werte zu allen Werten in der Spalte. Standardmäßig ist für Maximum missing value ratio „1“ festgelegt. Dies bedeutet: Fehlende Werte werden selbst dann bereinigt, wenn 100% der Werte in der Spalte fehlen.

    Hinweis

    Wenn Sie einen Schwellenwert mit den Optionen Minimal fehlendes Wert Verhältnis oder Maximum missing value festlegen, kann der Reinigungsvorgang nicht ausgeführt werden, wenn auch eine der ausgewählten Spalten die Kriterien nicht erfüllt.

  5. Wählen Sie für Cleaning Mode (Bereinigungsmodus) eine der folgenden Optionen zum Ersetzen oder Entfernen fehlender Werte aus:

    • Replace using MICE: für jeden fehlenden Wert weist diese Option einen neuen Wert zu, der mithilfe einer Methode berechnet wird, die in der statistischen Literatur als "multivariate imputationusing Verkettung using Verkettung" oder "Multiple imputations by Verkettung" beschrieben wird. Bei einer Multiple imputations-Methode wird jede Variable mit fehlenden Daten bedingt mithilfe der anderen Variablen in den Daten modelliert, bevor die fehlenden Werte ausgefüllt werden. Im Gegensatz dazu wird bei einer einzelnen imputationmethode (z. b. beim Ersetzen eines fehlenden Werts durch einen Spalten Mittelwert) ein einzelner Durchlauf über die Daten vorgenommen, um den Füllwert zu bestimmen.

      Alle imputationmethoden führen zu einem Fehler oder einer gewissen Abweichung, aber die mehrfache Beeinträchtigung simuliert den Prozess, der die Daten erzeugt, und die Wahrscheinlichkeitsverteilung der Daten.

      Eine allgemeine Einführung in Methoden für die Behandlung fehlender Werte finden Sie unter fehlende Daten: der Zustand der Kunst. Schaferer und Graham, 2002.

      Warnung

      Diese Option kann nicht auf vollständig leere Spalten angewendet werden. Solche Spalten müssen unverändert entfernt oder an die Ausgabe übergeben werden.

    • Benutzerdefinierter Ersetzungs Wert: Verwenden Sie diese Option, um einen Platzhalter Wert (z. b. 0 oder Na) anzugeben, der für alle fehlenden Werte gilt. Der Wert, den Sie als Ersatz angeben, muss mit dem Datentyp der Spalte kompatibel sein.

    • Durch Mean ersetzen: berechnet den Mittelwert der Spalte und verwendet den Mittelwert als Ersatzwert für jeden fehlenden Wert in der Spalte.

      Gilt nur für Spalten mit den Datentypen „Integer“, „Double“ oder „Boolean“. Weitere Informationen finden Sie im Abschnitt Technische Hinweise .

    • Durch Median ersetzen: berechnet den Medianwert der Spalte und verwendet den Medianwert als Ersatz für jeden fehlenden Wert in der Spalte.

      Gilt nur für Spalten mit den Datentypen „Integer“ oder „Double“. Weitere Informationen finden Sie im Abschnitt Technische Hinweise .

    • Durch Modus ersetzen: berechnet den Modus für die Spalte und verwendet den Modus als Ersatzwert für jeden fehlenden Wert in der Spalte.

      Gilt für Spalten mit den Datentypen „Integer“, „Double“, „Boolean“ oder „Categorical“. Weitere Informationen finden Sie im Abschnitt Technische Hinweise .

    • Gesamte Zeile entfernen: entfernt vollständig alle Zeilen im DataSet, die einen oder mehrere fehlende Werte haben. Dies ist hilfreich, wenn der fehlende Wert als zufällig fehlend betrachtet werden kann.

    • Gesamte Spalte entfernen: entfernt vollständig alle Spalten im DataSet, die einen oder mehrere fehlende Werte haben.

    • Durch Probabilistic PCA ersetzen: ersetzt die fehlenden Werte mithilfe eines linearen Modells, das die Korrelationen zwischen den Spalten analysiert und eine niedrig dimensionale Näherung der Daten schätzt, von der die vollständigen Daten rekonstruiert werden. Die zugrunde liegende Verringerung der Dimensionalität ist eine probabilistische Form der Principal Component Analysis (PCA). Sie implementiert eine Variante des Modells, das im „Journal of the Royal Statistical Society“, Reihe B 21(3), 611–622, von Tipping und Bishop vorgeschlagen wird.

      Im Vergleich zu anderen Optionen wie Multiple Imputation using Chained Equations (MICE) bietet diese Option den Vorteil, dass keine Prädiktoren für jede Spalte angewendet werden müssen. Stattdessen erfolgt eine Annäherung an die Kovarianz des vollständigen Datasets. Daher bietet Sie möglicherweise eine bessere Leistung für Datasets, die in vielen Spalten fehlende Werte aufweisen.

      Die Einschränkungen dieser Methode sind, dass sie Kategoriespalten auf numerische Indikatoren erweitert und eine dichte Kovarianzmatrix der resultierenden Daten berechnet. Zudem ist sie nicht für Darstellungen mit geringer Dichte optimiert. Aus diesen Gründen werden Datasets mit einer großen Anzahl von Spalten und/oder großen Kategoriedomänen (zehntausende) aufgrund der nicht tragbaren Speicherplatzbelegung nicht unterstützt.

      Tipp

      Beachten Sie, dass die gewählte Methode auf alle Spalten in der Auswahl angewendet wird. Wenn Sie also einige fehlende Werte durch Nullen in einigen Spalten ersetzen, aber einen Platzhalter in andere Spalten einfügen möchten, sollten Sie select columns in DataSet verwenden, um die Daten zu trennen und verschiedene Instanzen des Moduls Clean Missing Data zu verwenden.

  6. Die Option Replacement value (Ersatzwert) steht zur Verfügung, wenn Sie die Option Custom substitution value (Benutzerdefinierter Ersatzwert) ausgewählt haben. Geben Sie den neuen Wert ein, der als Ersatzwert für alle fehlenden Werte in der Spalte verwendet werden soll.

    Beachten Sie, dass Sie diese Option nur in Spalten mit den Datentypen „Integer“, „Double“, „Boolean“ oder „Date“ verwenden können. Bei Datumsspalten kann der Ersatzwert auch als die Anzahl von 100-Nanosekunden-Takten seit dem 01.01.0001 12:00 Uhr eingegeben werden.

  7. Indikator Spalte für fehlende Werte generieren: Wählen Sie diese Option aus, wenn Sie einen Hinweis darauf ausgeben möchten, ob die Werte in der Spalte die Kriterien für das Bereinigen fehlender Werte erfüllen. Diese Option ist besonders hilfreich, wenn Sie beim Einrichten eines neuen Bereinigungsvorgangs sicherstellen möchten, dass er wie vorgesehen funktioniert.

  8. Führen Sie das Experiment aus, oder wählen Sie das Modul Clean Missing Data aus, und klicken Sie auf Auswahl ausführen.

Ergebnisse

Das Modul gibt zwei Ausgaben zurück:

  • Bereinigtes DataSet: ein DataSet, das aus den ausgewählten Spalten besteht, wobei fehlende Werte wie angegeben zusammen mit einer Indikator Spalte behandelt werden, wenn Sie diese Option ausgewählt haben.

    Spalten, die nicht zur Bereinigung ausgewählt wurden, werden auch „per Pass-Through übergeben“.

  • Bereinigungs Transformation: eine zum Bereinigen verwendete Datentransformation, die in Ihrem Arbeitsbereich gespeichert und später auf neue Daten angewendet werden kann.

Anwenden eines gespeicherten Bereinigungs Vorgangs auf neue Daten

Wenn Sie Bereinigungsvorgänge oft wiederholen müssen, empfehlen wir, dass Sie Ihr „Rezept“ für die Datenbereinigung als eine Transformation speichern, um es bei demselben Dataset wiederverwenden zu können. Das Speichern einer Bereinigungstransformation ist besonders hilfreich, wenn Sie Daten mit demselben Schema häufig erneut importieren und dann bereinigen müssen.

  1. Fügen Sie das Modul Apply Transformation (Transformation anwenden) Ihrem Experiment hinzu.

  2. Fügen Sie dann das zu bereinigende Dataset hinzu, und verbinden Sie es mit dem rechten Eingangsport.

  3. Erweitern Sie die Gruppe Transformationen im linken Bereich von Studio (klassisch). Suchen Sie die gespeicherte Transformation, und ziehen Sie sie in das Experiment.

  4. Verbinden Sie die gespeicherte Transformation mit dem linken Eingangsport von Apply Transformation.

    Wenn Sie eine gespeicherte Transformation anwenden, können Sie die Spalten, auf die die Transformation angewendet wird, nicht auswählen. Dies liegt daran, dass die Transformation bereits definiert wurde und automatisch auf die Datentypen angewendet wird, die im ursprünglichen Vorgang angegeben wurden.

    Allerdings: Nehmen Sie einmal an, Sie hätten eine Transformation für eine Teilmenge numerischer Spalten erstellt. Diese Transformation können Sie auf ein Dataset von gemischten Spaltentypen anwenden, ohne dass ein Fehler ausgelöst wird, weil die fehlenden Werte nur in den übereinstimmenden numerischen Spalten geändert werden.

  5. Führen Sie das Experiment aus.

Beispiele

Weitere Informationen finden Sie unter Beispiele für die Verwendung dieses Moduls in der Azure AI Gallery:

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails sowie bekannte Probleme und häufig gestellte Fragen.

  • Wenn die Mittelwert- oder Medianoption verwendet wird, tritt ein Fehler auf, wenn Zeichenfolgenspalten ausgewählt werden. Wenn Sie Spalten mit unterschiedlichen Datentypen verarbeiten müssen, erstellen Sie zwei Instanzen von Clean Missing Data.

  • Beim Ersetzen fehlender Werte durch einen Mittelwert in Spalten mit den Datentypen "Boolean", "Integer", "DateTime" oder "TimeSpan" wird die Spalte zunächst in Gleit Komma Zahlen konvertiert, der Mittelwert berechnet und das Ergebnis dann auf den nächsten Wert des ursprünglichen Datentyps gerundet.

  • Wenn Sie einen Ersatzwert eingeben, muss der Wert mit dem Datentyp in der ausgewählten Spalte kompatibel sein.

  • Werte von NaN , Inf und –Inf sind für Spalten zulässig, in denen der-Datentyp Double ist.

  • Bei Verwendung der MICE-Methode wird der Ersatzwert mithilfe des trainierten MICE-Modells vorhergesagt.

  • Durch die Verwendung von Clean Missing Data können andere Spaltentypen auf die Funktion zurückgesetzt werden. Wenn die Daten andere Spaltentypen enthalten (z. b. Bezeichnungen), verwenden Sie Edit Metadata , um die Spaltentypen zu korrigieren.

Einschränkungen bei der Verwendung von Bereinigungs Transformationen

Die folgenden Einschränkungen gelten, wenn Sie eine gespeicherte Transformation (basierend auf Clean Missing Data) für neue Daten verwenden:

  • Eine gespeicherte Transformation kann keine Indikatorwerte generieren, auch wenn diese Option im ursprünglichen Reinigungsvorgang verwendet wurde. Beachten Sie die Indikatorwerte als besonders hilfreich, wenn Sie eine neue Transformation testen.

  • Die Transformation berechnet keine neuen Werte basierend auf dem neuen DataSet. Anders ausgedrückt: Wenn Sie saubere fehlende Daten für DataSet A verwendet haben und einen Mittelwert von 0,5 generiert haben, wird derselbe Wert auch als Mittel für das Ersetzen fehlender Werte in DataSet b angewendet, unabhängig von den tatsächlichen Werten in DataSet b.

  • Der Datentyp der Spalten im neuen DataSet muss mit dem Datentyp der Spalten, für die die Transformation ursprünglich erstellt wurde, identisch sein. Wenn Vorgänge für die Spalte ausgeführt werden, die den Datentyp implizit ändern, wird ein Fehler ausgelöst.

    Nehmen Sie beispielsweise an, Sie erstellen einen Mittelwert für eine ganzzahlige Datenspalte [col1] und speichern die Transformation. Nun möchten Sie die Bereinigungs Transformation auf eine Kopie von [col1] anwenden, die mithilfe einer Formel wie ([col1]/1,5) angepasst wurde. Um sicherzustellen, dass es sich bei dem Ergebnis um eine ganze Zahl handelt, wird das Ergebnis abgerundet, beim Anwenden der Transformation wird jedoch immer noch ein Fehler ausgegeben. Wenn Sie den Wert jedoch mit einer Formel wie ([Col 1] * 10) anpassen, wird kein Fehler ausgelöst.

    Um solche Probleme zu vermeiden, verwenden Sie Edit Metadata , um den Datentyp explizit auf Integer zurückzusetzen. Im allgemeinen ändern Vorgänge im Modul Apply Math Operation implizit numerische Spalten in double .

Festlegen und Interpretieren von Schwellenwerten

Wenn Sie einen Schwellenwert für das Bereinigen von Vorgängen mit dem Minimalwert für fehlende Werte oder dem maximalen Wert für fehlende Werte angeben, können die Ergebnisse unerwartet oder verwirrend sein. Um zu veranschaulichen, wie die Optionen für Maximum und Missing Missing Values funktionieren, haben wir einige Beispiele aus dem Beispiel DataSet Automobile prices bereitgestellt, das viele Spalten mit fehlenden Werten aufweist.

In der folgenden Tabelle wird die Anzahl der fehlenden Werte für mehrere Spalten in diesem DataSet sowie das Verhältnis der fehlenden Werte, die für das Dataset berechnet werden, angezeigt. Das Verhältnis der fehlenden Werte (in der Spalte ganz rechts) ist der Wert, der bei der Auswertung des Datasets mit den angegebenen Schwellenwerten verwendet wird.

Nehmen Sie an, Sie legen das minimale Verhältnis von fehlenden Werten auf 0,019 fest und legen das Verhältnis der maximalen fehlenden Werte auf 0,020 fest. In der folgenden Tabelle mit Werten entsprechen einige Spalten den Schwellenwert Kriterien, andere jedoch nicht:

  • Die Spalten bore und stroke erfüllen die Schwellenwert Kriterien.
  • Die Spalten normalized-losses und compression-ratio erfüllen nicht die Schwellenwert Kriterien.
Spaltenname Anzahl der fehlenden Werte Verhältnis von fehlenden Werten
Normalized-losses 41 0.2
Bore 4 0,019512195
Stroke 4 0,019512195
Komprimierungs Verhältnis 0 0

Da einige Spalten in der Auswahl die angegebenen Kriterien nicht erfüllen, wurde für eine Spalte kein Reinigungsvorgang ausgeführt. Um herauszufinden, was passiert ist, gibt das Modul den Wert false in den beiden Indikator Spalten und zurück bore_IsMissing stroke_IsMissing .

Wenn Sie jedoch den Schwellenwert auf den Standardwert 0 für das minimale Verhältnis von fehlenden Werten und den Wert 1 für das maximale Verhältnis von fehlenden Werten zurücksetzen, wird eine Indikator Spalte für alle ausgewählten Spalten zurückgegeben, und der angegebene Vorgang wird ausgeführt.

Tipp

Wenn Sie unsicher sind, ob das Bereinigen fehlender Werte erwartungsgemäß funktioniert, wählen Sie die Option fehlende Wert Indikator Spalte generieren aus.

Bekannte Probleme

Wenn Sie die MICE-Methode verwenden, um Daten zu bereinigen und dann ein DataSet zu verarbeiten, das fehlende Werte enthält, erhalten Sie möglicherweise den folgenden Fehler: "Ausnahme der AFX-Bibliotheks Bibliothek: das Modell ist nicht trainiert. (Fehler 1000) "

Dieser Fehler tritt nur auf, wenn die MICE-Methode ausgewählt ist und das Trainings Dataset keine fehlenden Werte enthält, aber das Test Dataset.

Erwartete Eingaben

Name Typ BESCHREIBUNG
Dataset Datentabelle Zu bereinigendes Dataset

Modulparameter

Name Range type Standard BESCHREIBUNG
Columns to be cleaned Any ColumnSelection Alle Wählen Sie die Spalten für die Bereinigung von fehlenden Werten aus.
Mindestanzahl fehlender Werte [0.0;1.0] Float 0,0 Bereinigt nur die Spalte, deren fehlendes Wert Verhältnis oberhalb des angegebenen Werts liegt, aus einer Menge aller ausgewählten Spalten.
Maximale Anzahl fehlender Werte [0.0;1.0] Float 1.0 Bereinigt aus dem Satz aller ausgewählten Spalten nur Spalten, bei denen das Verhältnis der fehlenden Werte unter dem angegebenen Wert liegt
Bereinigungsmodus List Richtlinie zur Handhabung Benutzerdefinierter Ersatzwert Wählen Sie einen Algorithmus aus, der beim Bereinigen von fehlenden Werten verwendet werden soll.
Replacement value Any String "0" Geben Sie einen Wert ein, der als Ersatz für fehlende Werte verwendet werden soll.

Dieser Wert ist optional.
Cols with all missing values Any ColumnsWithAllValuesMissing Entfernen Geben Sie an, ob die Spalten aller fehlenden Werte in der Ausgabe beibehalten werden sollen.
Generate missing value indicator column Any Boolean false Generiert eine Spalte, die angibt, welche Zeilen bereinigt wurden.
Number of iterations [1;10] Integer 5 Geben Sie die Anzahl der Iterationen an, wenn MICE verwendet wird.
Number of iterations for PCA prediction [1; 50] Integer 10 Geben Sie die Anzahl der Iterationen an, wenn die PCA-Vorhersage verwendet wird.

Ausgaben

Name Typ BESCHREIBUNG
Bereinigtes Dataset Datentabelle Bereinigtes Dataset
Bereinigungstransformation ITransform-Schnittstelle Transformation, die an das Modul Apply Transformation zum Bereinigen neuer Daten übergeben werden kann.

Ausnahmen

Ausnahme Beschreibung
Fehler 0002 Eine Ausnahme tritt auf, wenn mindestens ein Parameter nicht analysiert oder nicht aus einem angegebenen Typ in den für die Zielmethode erforderlichen Typ konvertiert werden konnte.
Fehler 0003 Eine Ausnahme tritt auf, wenn mindestens ein Eingabedataset null oder leer ist.
Fehler 0008 Eine Ausnahme tritt auf, wenn ein Parameter nicht im Bereich liegt.
Fehler 0013 Eine Ausnahme tritt auf, wenn das an das Modul übergebene Lernmodul einen ungültigen Typ hat.
Fehler 0018 Eine Ausnahme tritt auf, wenn das Eingabedataset ungültig ist.
Fehler 0039 Eine Ausnahme tritt auf, wenn der Vorgang fehlgeschlagen ist.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning Rest-API-Fehler Codes.

Weitere Informationen

Bearbeitung
Daten Transformation
Modulliste von A bis Z