Converteren naar TSV

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

Converteert gegevensinvoer naar een door tabs scheidingstekens

Categorie: Conversies van gegevensindelingen

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules met slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Moduleoverzicht

In dit artikel wordt beschreven hoe u de module Converteren naar TSV in Machine Learning Studio (klassiek) gebruikt om gegevenssets te converteren van de interne indeling die wordt gebruikt door alle modules van Machine Learning Studio (klassiek) naar een plat bestand in door tabs gescheiden indeling.

Door tabs gescheiden waarden (TSV)-bestanden zijn compatibel met veel externe hulpprogramma's, waaronder:

  • R en Python

  • Excel en PowerPivot

  • Alle relationele databases

Als uw experiment bijvoorbeeld een tussenliggende gegevensset heeft die u wilt opslaan voor opnieuw gebruik in een ander hulpprogramma of vanuit code wilt aanroepen, converteert u deze naar de TSV-indeling en klikt u vervolgens met de rechtermuisknop op de geconverteerde gegevensset om de Python-code op te halen die nodig is voor toegang tot de gegevensset.

Converteren naar TSV gebruiken

Gebruik de module Converteren naar TSV wanneer u een gegevensset in door tabs scheidingstekens moet downloaden.

  1. Voeg Converteren naar TSV toe aan uw experiment. U vindt deze module in de categorie Conversies van gegevensindelingen in Machine Learning Studio (klassiek).

  2. Verbinding maken module naar een andere datset of naar een module die een tabellaire gegevensset als uitvoer geeft.

  3. Voer het experiment uit of klik met de rechtermuisknop op de module Converteren naar TSV en selecteer Uitvoeren geselecteerd.

Resultaten

Wanneer de conversie is voltooid, kunt u de gegevensset openen, deze aanroepen vanuit R- of Python-code, deze gebruiken in een Jupyter-notebook of opslaan in een lokaal bestand.

Als u de gegevensset wilt downloaden, dubbelklikt u op de module-uitvoer en geeft u aan of u de datset wilt openen of opslaan.

  • Als u Openen selecteert, wordt de gegevensset geladen met behulp van het hulpprogramma dat uw computer standaard gebruikt om te openen. TSV-bestanden. Dit is doorgaans Microsoft Excel.

  • Als u Gegevensset downloaden selecteert, wordt het bestand standaard opgeslagen met de naam van de module plus een GUID die de werkruimte-id vertegenwoordigt. U kunt echter tijdens het downloaden de optie Opslaan als selecteren en de bestandsnaam of -locatie wijzigen.

Voorbeelden

Hoewel er geen voorbeelden zijn die specifiek zijn voor deze indeling, kunt u voorbeelden zien van hoe indelingsconversie wordt gebruikt door deze voorbeeldexperimenten te verkennen in de Azure AI Gallery:

  • Voorbeeld van kruisvalidatie voor binaire classificatie: hiermee exporteert u de resultaten van kruisvalidatie naar de INDELING met door komma's gescheiden waarden (CSV), zodat de resultaten voor meerdere modellen kunnen worden vergeleken met behulp van een hulpprogramma zoals Excel.

  • Afbeeldingscompressie op basis van kleur Kwantisatie: exporteert de gegevenssets die worden gebruikt voor elk deel van de analyse naar CSV-bestanden, zodat u eenvoudig een vergelijkbaar model kunt uitvoeren in elk hulpprogramma dat ondersteuning biedt voor de CSV-indeling.

Technische opmerkingen

Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.

Vereisten voor TSV-indeling

Door tabs gescheiden waarden (TSV) is een tekstindeling die wordt gebruikt voor het opslaan van gegevens in een tabelstructuur. Het is vergelijkbaar met de CSV-indeling, maar het scheidingsteken is een tabblad in plaats van een komma.

De TSV-indeling is een nuttig alternatief voor de CSV-indeling als uw gegevens komma's bevatten. Komma's komen veel voor in tekstgegevens en worden gebruikt in Europese nummerindelingen.

Een probleem met de door tabs scheidingstekens is dat tabstops vaak worden beschouwd als witruimte in ongestructureerde tekst. De IANA-standaard voor TSV bevordert echter een schone en nauwkeurige parsering van TSV-bestanden door tabs in velden niet toe te staan.

Let op de volgende vereisten voor TSV-bestanden in Machine Learning Studio (klassiek):

  • De module Converteren naar TSV ondersteunt de uitvoer van een rij met één kop als de gegevensset kolomnamen bevat.

  • De TSV-provider ondersteunt alleen codering van UTF-8-tekens.

  • Bij het lezen van of schrijven naar TSV-bestanden kunnen de prestaties langzamer zijn dan bij andere indelingen (zoals CSV).

Verwachte invoer

Naam Type Description
Gegevensset Gegevenstabel Invoerset

Uitvoer

Naam Type Description
Gegevensset met resultaten GenericTsv Uitvoerset

Zie ook

Conversies van gegevensindelingen
Lijst met A-Z-modules