Vorbereiten von Daten für erweitertes maschinelles Lernen

Vorverarbeitung und Bereinigung sind wichtige Aufgaben, die durchgeführt werden müssen, bevor ein Dataset zum Trainieren von Modellen verwendet werden kann. Rohdaten enthalten häufig überflüssige und unzuverlässige Daten. Möglicherweise fehlen auch Daten. Die Verwendung dieser Daten für die Modellierung kann zu falschen Ergebnissen führen. Diese Aufgaben sind Teil des Team Data Science-Prozesses (TDSP) und folgen in der Regel der anfänglichen Untersuchung eines Datasets, um die erforderliche Vorverarbeitung zu ermitteln und zu planen. Weitere Informationen hierzu finden Sie unter Was ist der Team Data Science-Prozess (TDSP)?.

Vorverarbeitung und Bereinigung können genau wie die Datenuntersuchung in verschiedenen Umgebungen ausgeführt werden, z. B. SQL, Hive oder Azure Machine Learning Studio (classic). Sie können außerdem verschiedene Tools und Sprachen verwenden, z. B. R oder Python. Speicherort und Formatierung Ihrer Daten wirken sich auf diese Entscheidungen aus. Da der TDSP iterativ ist, können diese Aufgaben an verschiedenen Stellen im Workflow des Prozesses ausgeführt werden.

In diesem Artikel werden verschiedene Konzepte und Aufgaben im Bereich der Datenverarbeitung beschrieben, die vor oder nach der Erfassung von Daten in Azure Machine Learning Studio (classic) angewendet und ausgeführt werden können.

Ein Beispiel für die Datenuntersuchung und Vorverarbeitung in Azure Machine Learning Studio (classic) finden Sie im Video zur Vorverarbeitung von Daten.

Warum müssen Daten vorverarbeitet und bereinigt werden?

Echte Daten stammen aus verschiedenen Quellen und Prozessen und könnten daher Unregelmäßigkeiten enthalten oder beschädigt sein, was die die Qualität des Datasets beeinträchtigen würde. Folgende Qualitätsprobleme treten bei Daten häufiger auf:

  • Unvollständige Daten: Den Daten fehlen Attribute oder es fehlen Daten.
  • Überflüssige Daten: Die Daten enthalten fehlerhafte Datensätze oder Ausreißer.
  • Inkonsistente Daten: Die Daten enthalten widersprüchliche Datensätze oder Abweichungen.

Daten von hoher Qualität sind eine wichtige Voraussetzung für die Qualität von Vorhersagemodellen. Um mangelhafte Ausgangsdaten und entsprechend schlechte Ausgabedaten zu vermeiden und die Datenqualität und damit die Modellleistung zu verbessern, müssen Sie zur frühzeitigen Identifizierung von Problemen die Datenintegrität prüfen. Sie müssen Entscheidungen hinsichtlich der jeweiligen Schritte für die Vorverarbeitung und Bereinigung der Daten treffen.

Welche Methoden zur Überprüfung der Datenintegrität werden am häufigsten eingesetzt?

Sie können die allgemeine Qualität der Daten anhand der folgenden Kriterien überprüfen:

  • Die Anzahl der Datensätze.
  • Die Anzahl der Attribute (oder Features).
  • Die Datentypen der Attribute, z B. nominal, ordinal oder fortlaufend.
  • Die Anzahl der fehlenden Werte.
  • Die Wohlgeformtheit der Daten.
    • Wenn die Daten im TSV- oder CSV-Format gespeichert sind, sollten Sie prüfen, ob Spalten und Zeilen durch die Spalten- und Zeilentrennzeichen korrekt getrennt werden.
    • Bei Daten im HTML- oder XML-Format sollten Sie überprüfen, ob die Daten gemäß den jeweiligen Standards wohlgeformt sind.
    • Möglicherweise müssen Sie die Daten analysieren, um strukturierte Informationen aus teilweise strukturierten oder unstrukturierten Daten zu extrahieren.
  • Inkonsistente Datensätze. Überprüfen Sie den zulässigen Wertebereich. Wenn die Daten beispielsweise Notendurchschnitte von Schüler*innen enthalten, sollten Sie überprüfen, ob die Notendurchschnitte im angegebenen Bereich liegen, z. B. 0 bis 4.

Wenn Sie Probleme in den Daten entdecken, müssen Sie eine Vorverarbeitung durchführen. Dies kann beispielsweise die Bereinigung fehlender Daten, die Normalisierung von Daten, die Diskretisierung, die Textverarbeitung zur Entfernung und/oder Ersetzung eingebetteter Zeichen, die sich auf die Datenausrichtung auswirken könnten, die Bereinigung gemischter Datentypen in gemeinsamen Feldern usw. umfassen.

In Azure Machine Learning werden wohlgeformte Tabellendaten verarbeitet. Wenn die Daten bereits in einem Tabellenformat vorliegen, kann die Datenvorverarbeitung direkt mit Azure Machine Learning Studio (classic) ausgeführt werden. Wenn die Daten nicht im Tabellenformat vorliegen, z. B. im XML-Format, müssen Sie die Daten möglicherweise analysieren, um sie in ein Tabellenformat zu konvertieren.

Was sind die Hauptaufgaben bei der Datenvorverarbeitung?

  • Datenbereinigung: Ausfüllen fehlender Werte bzw. Erkennen und Entfernen überflüssiger Daten und Ausreißer
  • Datentransformation: Normalisierung der Daten, um Umfang und Störungen zu verringern.
  • Datenreduzierung: Erstellen von Stichproben aus den Datensätzen oder Attributen zur einfacheren Datenverarbeitung.
  • Datendiskretisierung: Konvertieren kontinuierlicher Attribute in kategorische Attribute zur einfacheren Verwendung in bestimmten Machine Learning-Methoden.
  • Textbereinigung: Entfernen eingebetteter Zeichen, die zu einer fehlerhaften Datenausrichtung führen könnten. Dabei könnte es sich beispielsweise um eingebettete Tabulatorzeichen in einer durch Tabulatorzeichen getrennten Datendatei oder um eingebettete Zeilenumbrüche handeln, die Datensätze beschädigen.

In den folgenden Abschnitten werden einige dieser Schritte zur Datenvorverarbeitung beschrieben.

Wie werden fehlende Daten behandelt?

Um das Problem fehlender Daten zu lösen, identifizieren Sie zunächst den Grund für die fehlenden Daten. Folgende Vorgehensweisen werden bei fehlenden Werten häufig angewendet:

  • Löschen: Entfernen Sie Datensätze, in denen Daten fehlen.
  • Ersetzen durch Platzhalterwerte: Ersetzen Sie fehlende Werte durch einen Platzhalterwert, beispielsweise Unbekannt für Kategoriewerte oder 0 für numerische Werte.
  • Ersetzen durch Mittelwerte: Ersetzen Sie fehlende numerische Daten durch Mittelwerte.
  • Ersetzen durch häufige Werte: Wenn es sich bei den fehlenden Daten um kategorische Daten handelt, ersetzen Sie die fehlenden Werte durch den häufigsten Wert.
  • Ersetzen durch Regressionswerte: Verwenden Sie ein Regressionsverfahren, um fehlende Werte durch Regressionswerte zu ersetzen.

Wie werden Daten normalisiert?

Bei der Datennormalisierung werden numerische Werte in einen angegebenen Bereich neu skaliert. Folgende Normalisierungsverfahren werden häufig angewendet:

  • Min-Max-Normalisierung: Transformieren Sie die Daten linear in einen Bereich, z. B. 0 bis 1. Hierbei wird der Mindestwert auf 0 skaliert und der maximale auf 1 skaliert.
  • Z-Wert-Normalisierung: Skalieren Sie die Daten anhand von mittlerer und Standardabweichung. Dividieren Sie die Differenz zwischen den Daten und der mittleren Abweichung durch die Standardabweichung.
  • Dezimalskalierung: Skalieren Sie die Daten durch Verschieben des Dezimaltrennzeichens des Attributwerts.

Wie werden Daten diskretisiert?

Daten können durch die Konvertierung kontinuierlicher Werte in nominale Attribute oder Intervalle diskretisiert werden. Sie können die folgenden Methoden verwenden:

  • Festbreitengruppierung: Teilen Sie den Bereich aller möglichen Werte eines Attributs in N Gruppen mit gleicher Größe auf, und weisen Sie den Werten, die jeweils in eine Gruppe fallen, die Gruppennummer zu.
  • Festhöhengruppierung: Teilen Sie den Bereich aller möglichen Werte eines Attributs in N Gruppen mit jeweils der gleichen Anzahl von Instanzen auf. Weisen Sie anschließend den Werten, die in eine Gruppe fallen, die Gruppennummer zu.

Wie werden Daten reduziert?

Es gibt verschiedene Methoden zum Reduzieren der Größe zur einfacheren Datenverarbeitung. Abhängig von Größe und Domäne der Daten können Sie die folgenden Methoden anwenden:

  • Datensatzstichproben: Erstellen Sie die Datensätze, und wählen Sie nur eine repräsentative Teilmenge der Daten aus.
  • Attributstichproben: Wählen Sie nur eine Teilmenge der wichtigsten Attribute aus den Daten aus.
  • Aggregation: Unterteilen Sie die Daten in Gruppen, und speichern Sie die Zahlen der einzelnen Gruppen. Beispielsweise können die Tageseinnahmen einer Restaurant-Kette aus den letzten 20 Jahren im monatlichen Umsatz zusammengefasst werden, um die Größe der Daten zu verringern.

Wie werden Textdaten bereinigt?

Textfelder in Tabellendaten könnten Zeichen enthalten, die sich auf die Spaltenausrichtung oder die Datensatzgrenzen auswirken. Eingebettete Tabstopps in einer tabstoppgetrennten Datei verursachen z. B. Fehlausrichtungen von Spalten, während eingebettete Zeilenumbrüche Datensatzzeilen beschädigen. Beim Schreiben oder Lesen von Texten muss die Textcodierung ordnungsgemäß verarbeitet werden, um Informationsverluste zu verhindern, die versehentliche Einfügung unlesbarer Zeichen (z. B. Nullen) auszuschließen oder negative Auswirkungen auf die Textanalyse zu vermeiden. Möglicherweise müssen Sie die Daten sorgfältig analysieren und bearbeiten. Sie können Textfelder bereinigen, um ihre ordnungsgemäße Ausrichtung sicherzustellen und strukturierte Daten aus unstrukturierten oder halbstrukturierten Daten zu extrahieren.

Die Datenuntersuchung ermöglicht frühzeitige Einblicke in Daten. In diesem Schritt können Sie viele Datenprobleme aufdecken und geeignete Methoden zur Behebung dieser Probleme anwenden. Es ist wichtig, sich Fragen zu stellen, z. B. zur Ursache eines Problems und zu dessen Einführung. Dieser Prozess hilft Ihnen auch bei den Entscheidungen zu den Datenverarbeitungsschritten, die zu ihrer Lösung erforderlich sind. Zur Priorisierung des Datenverarbeitungsaufwands können Sie die endgültigen Anwendungsfälle und Personas identifizieren.

References

Data Mining: Concepts and Techniques, 3. Auflage, Morgan Kaufmann, 2011, Jiawei Han, Micheline Kamber und Jian Pei

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.

Nächste Schritte