Conversies van gegevensindelingen

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules met slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

In dit artikel worden de modules vermeld die in Machine Learning Studio (klassiek) worden geboden voor het converteren van gegevens naar verschillende bestandsindelingen die worden gebruikt in machine learning.

De ondersteunde indelingen zijn onder andere:

  • De indeling van de gegevensset die wordt gebruikt in Machine Learning.
  • De ARFF-indeling die wordt gebruikt door Weka. Weka is een open-source op Java gebaseerde set machine learning algoritmen.
  • De SVMLight-indeling . De SVMLight-indeling is ontwikkeld voor het SVMlight-framework voor machine learning. Het kan ook worden gebruikt door Vowpal Wabbit.
  • De door tabs gescheiden indelingen (TSV) en door komma's gescheiden platte bestanden (CSV) die worden ondersteund door de meeste relationele databases. Deze indelingen worden ook algemeen ondersteund door R en Python.

Wanneer u gegevens converteert naar deze indelingen, kunt u resultaten en gegevens gemakkelijker verplaatsen tussen verschillende machine learning frameworks of opslagmechanismen.

Notitie

Deze modules voor gegevensconversie converteren alleen de volledige gegevensset naar een opgegeven indeling. Als u een cast-conversie, afslagbewerking, conversie van datum/tijd-indelingen of andere bewerkingen van de waarden wilt uitvoeren, gebruikt u de modules in Gegevenstransformatie of bekijkt u de lijst met gerelateerde taken.

Veelvoorkomende scenario's voor gegevensconversie

Doorgaans gebruikt u de modules voor gegevensconversie als u gegevens van een Machine Learning experiment naar een ander machine learning of platform wilt verplaatsen. U kunt de modules ook gebruiken om gegevens uit Machine Learning exporteren in een indeling die kan worden gebruikt door een database of andere hulpprogramma's. Bijvoorbeeld:

Taak Gebruik deze
U moet een tussenliggende gegevensset opslaan voor gebruik in Excel of importeren in een database. Gebruik de CSV-module of de TSV-module om de gegevens in de juiste indeling voor te bereiden. Download vervolgens de gegevens of sla deze op in Azure Storage.
U wilt gegevens uit uw experiment hergebruiken in R- of Python-code. Gebruik de CSV-module of de TSV-module om de gegevens voor te bereiden. Klik vervolgens met de rechtermuisknop op de geconverteerde gegevensset om de Python-code op te halen die u nodig hebt voor toegang tot de gegevensset.
U bent uw experiment en gegevens aan het over poorten tussen Weka en Machine Learning. Gebruik de ARFF-module om de gegevens voor te bereiden. Download vervolgens de resultaten.
U moet gegevens voorbereiden in het SVMlight-framework. Gebruik de module Converteren naar SVMLight om de gegevens voor te bereiden. Download vervolgens de resulterende gegevens.
Maak gegevens voor gebruik met Vowpal Wabbit. Gebruik de SVMLight-indeling . Wijzig vervolgens de bestanden zoals beschreven in het artikel. Sla het bestand op in Azure Blob Storage voor gebruik met een Vowpal Wabbit-module in Machine Learning.
Gegevens hebben geen tabelvorm. Gebruik de module Converteren naar gegevensset om deze te converteren naar een gegevenssetindeling.

Als u gegevens wilt importeren in Machine Learning of gegevens in afzonderlijke kolommen wilt transformeren, gebruikt u deze modules voordat u gegevensconversie gaat uitvoeren:

Taak Gebruik deze
Gegevens van mijn computer importeren in Machine Learning. Upload gegevenssets in CSV-indeling zoals beschreven in Uw trainingsgegevens importeren in Machine Learning Studio (klassiek).
Gegevens importeren uit een gegevensbron in de cloud, waaronder Hadoop of Azure. Gebruik de module Gegevens importeren.
Sla machine learning op in Azure Blob Storage, een Hadoop-cluster of andere cloudopslag. Gebruik de module Gegevens exporteren.
Wijzig het gegevenstype van kolommen of cast-kolommen in een andere indeling of type. Gebruik Machine Learning de modules Edit Metadata (Metagegevens bewerken) of Apply SQL Transformation (Metagegevens bewerken of SQL Transformatie toepassen). Als u ervaring hebt met R of Python, kunt u de modules Python-script uitvoeren of R-script uitvoeren proberen.
Numerieke gegevens ronden, groeperen of normaliseren. Gebruik de modules Wiskundige bewerking toepassen, Gegevens groeperen in bins of Gegevens normaliseren .

Lijst met modules

De categorie Conversies van gegevensindelingen omvat de volgende modules:

  • Converteren naar ARFF: converteert gegevensinvoer naar de bestandsindeling van de kenmerkrelatie die wordt gebruikt door de Weka-toolset.
  • Converteren naar CSV: converteert een gegevensset naar een indeling met door komma's gescheiden waarden.
  • Converteren naar gegevensset: converteert gegevensinvoer naar de interne gegevenssetindeling die wordt gebruikt door Machine Learning.
  • Converteren naar SVMLight: converteert gegevensinvoer naar de indeling die wordt gebruikt door het SVMlight-framework.
  • Converteren naar TSV: converteert gegevensinvoer naar de door tabs scheidingstekens.

Zie ook