Converteren naar CSV

Hiermee wordt de gegevens invoer geconverteerd naar een indeling met door komma's gescheiden waarden

Categorie: gegevens indeling conversies

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

Module overzicht

In dit artikel wordt beschreven hoe u de module Convert to CSV gebruikt in azure machine learning Studio (klassiek) om een gegevensset van Azure ml te converteren naar een CSV-indeling die kan worden gedownload, geëxporteerd of gedeeld met R-of python-script modules.

Meer informatie over de CSV-indeling

De CSV-indeling, die staat voor ' door komma's gescheiden waarden ', is een bestands indeling die wordt gebruikt door veel externe machine learning-hulpprogram ma's. Hoewel de systeem eigen indeling van de gegevensset die wordt gebruikt door Azure Machine Learning is gebaseerd op de .NET-DataTable en dus kan worden gelezen door .NET-bibliotheken, is CSV een gemeen schappelijke Interchange-indeling bij het werken met open-source talen zoals R of python.

Zelfs als u het meren deel van uw werk in Azure Machine Learning Studio (klassiek) hebt, is het mogelijk dat het handig is om uw gegevensset om te zetten in CSV om te gebruiken in externe hulpprogram ma's. Bijvoorbeeld:

  • Down load het CSV-bestand om het te openen met Excel of importeer het in een relationele data base.
  • Sla het CSV-bestand op in de Cloud opslag en maak er verbinding mee vanuit Power BI om visualisaties te maken.
  • Gebruik de CSV-indeling om gegevens voor te bereiden voor gebruik in R en python. Klik met de rechter muisknop op de uitvoer van de module om de code te genereren die nodig is voor toegang tot de gegevens rechtstreeks vanuit Python of een Jupyter-notebook.

Wanneer u een gegevensset converteert naar CSV, wordt het bestand opgeslagen in uw Azure ML-werk ruimte. U kunt een Azure-opslag hulpprogramma gebruiken om het bestand rechtstreeks te openen en te gebruiken, of u kunt met de rechter muisknop op de module-uitvoer klikken en het CSV-bestand downloaden naar uw computer of gebruiken in R-of python-code.

Conversie naar CSV configureren

  1. Voeg de module Convert to CSV toe aan uw experiment. U kunt deze module vinden in de groep gegevens indeling conversies in Studio (klassiek).

  2. Verbind het met een wille keurige module die een gegevensset uitvoert.

  3. Voer het experiment uit, of klik op de module converteren naar CSV en klik op geselecteerde uitvoeren.

Resultaten

Dubbel klik op de uitvoer van converteren naar CSVen selecteer een van deze opties.

  • Downloaden: Hiermee opent u direct een kopie van de gegevens in CSV-indeling die u kunt opslaan in een lokale map. Als u geen map opgeeft, wordt een standaard bestands naam toegepast en wordt het CSV-bestand opgeslagen in de lokale bibliotheek met down loads .

    Als u gegevensset downloadenselecteert, moet u aangeven of u de gegevensset wilt openen of opslaan in een lokaal bestand.

    Als u openenselecteert, wordt de gegevensset geladen met de toepassing die standaard is gekoppeld aan. CSV-bestanden: bijvoorbeeld micro soft Excel.

    Als u gegevensset downloadenselecteert, wordt het bestand standaard opgeslagen met de naam van de module plus een GUID die de werk ruimte-id voor stelt. U kunt echter de optie Opslaan als selecteren tijdens het downloaden en de bestands naam of-locatie wijzigen.

  • Opslaan als gegevensset: slaat het CSV-bestand terug naar de Azure ml-werk ruimte als een afzonderlijke gegevensset.

  • Gegevens toegangs code genereren: Azure ml genereert twee sets code voor toegang tot de gegevens, hetzij met behulp van python, hetzij met behulp van R. Kopieer het code fragment in uw toepassing om toegang te krijgen tot de gegevens.

  • Openen in een nieuw notitie blok: er wordt een nieuw Jupyter-notitie blok voor u gemaakt en code ingevoegd voor het lezen van de gegevens in uw werk ruimte, met behulp van de taal van uw keuze: python 2, python 3 of R met micro soft R open.

    Als u bijvoorbeeld de R-optie kiest, wordt er een voor beeld-R-code gegeven die het CSV-bestand in een gegevens frame laadt en worden de eerste rijen weer gegeven met behulp van de head functie.

Technische opmerkingen

Deze sectie bevat implementatie details, tips en antwoorden op veelgestelde vragen.

Vereisten van de CSV-indeling

De CSV-bestands indeling is een populaire indeling die door veel machine learning Frameworks wordt ondersteund. De notatie wordt op verschillende punten genoemd: ' door komma's gescheiden waarden ' of ' door teken gescheiden waarden '.

In een CSV-bestand worden tabellaire gegevens (getallen en tekst) opgeslagen in de vorm van tekst zonder opmaak. Een CSV-bestand bestaat uit een wille keurig aantal records, gescheiden door regel einden van een bepaalde soort. Elke record bestaat uit velden, gescheiden door een letterlijke komma. In sommige regio's kan het scheidings teken een punt komma zijn.

Normaal gesp roken hebben alle records een identiek aantal velden, en ontbrekende waarden worden weer gegeven als nullen of lege teken reeksen.

Tip

U kunt eenvoudig gegevens uit Excel, Access of een relationele data base exporteren naar CSV-bestanden om te gebruiken in Azure Machine Learning. Hoewel bestands namen meestal de. De CSV-extensie Azure Machine Learning vereist niet dat deze bestandsnaam extensie aanwezig is als u de gegevens wilt importeren als CSV-bestand. U kunt XLSX-, TXT-en andere bestanden importeren als CSV-bestand. De velden in het bestand moeten echter worden opgemaakt zoals beschreven in de vorige sectie, en het bestand moet de UTF-8-code ring gebruiken.

Veelgestelde vragen en problemen

In deze sectie worden enkele bekende problemen, veelgestelde vragen en tijdelijke oplossingen beschreven die specifiek zijn voor de module converteren naar CSV .

Headers moeten één rij zijn

De CSV-bestands indeling die in Azure Machine Learning wordt gebruikt, ondersteunt één veldnamenrij. U kunt geen kopteksten met meerdere regels invoegen.

Aangepaste scheidings tekens worden ondersteund bij importeren, maar niet exporteren

De module Convert to CSV biedt geen ondersteuning voor het genereren van alternatieve kolom scheidings tekens, zoals de punt komma (;), die vaak wordt gebruikt in Europa.

Wanneer u echter gegevens uit CSV-bestanden in externe opslag importeert, kunt u alternatieve scheidings tekens opgeven. Selecteer in de module gegevens importeren de optie CSV met code ringen en kies een ondersteunde code ring.

Onnauwkeurige kolom scheiding voor teken reeks gegevens met komma's

Het is een veelvoorkomend probleem bij het verwerken van tekst dat specifiek is voor elk teken dat kan worden opgegeven als een kolom scheidings element (tabs, spaties, komma's, enzovoort) kan ook wille keurig in tekst velden worden gevonden. Voor het importeren van tekst uit CSV is altijd een waarschuwing vereist om te voor komen dat tekst wordt gescheiden in overbodige nieuwe kolommen.

Wanneer u een kolom met teken reeks gegevens wilt exporteren die komma's bevatten, kunt u ook problemen ondervinden. Azure Machine Learning biedt geen ondersteuning voor speciale verwerkingen of speciale vertalingen van dergelijke gegevens, zoals het insluiten van teken reeksen tussen aanhalings tekens. U kunt ook geen escape tekens vóór een komma gebruiken om ervoor te zorgen dat komma's worden verwerkt als letterlijke tekens.

Daarom worden nieuwe velden gemaakt in het uitvoer bestand voor elke komma die wordt aangetroffen in het teken reeks veld. Om dit probleem te voor komen, zijn er verschillende tijdelijke oplossingen:

  • Gebruik de tekst module preprocess om Lees tekens uit teken reeks velden te verwijderen.

  • Gebruik aangepast script voor R-script of python om tekst te verwerken en ervoor te zorgen dat de gegevens correct kunnen worden geëxporteerd.

UTF-8-code ring vereist

De module Convert to CSV ondersteunt alleen UTF-8-teken codering. Als u gegevens wilt exporteren met behulp van een andere code ring, kunt u proberen om het uitvoeren van R-script of het uitvoeren van python- script modules om een aangepaste uitvoer te genereren.

Dataset heeft geen kolom namen

Als de gegevensset die u naar een CSV-bestand exporteert geen kolom namen heeft, raden we u aan om meta gegevens bewerken te gebruiken om kolom namen toe te voegen voordat u deze converteert. U kunt geen kolom namen toevoegen als onderdeel van het conversie-of export proces.

SYLK: de bestands indeling is ongeldig

Als de eerste kolom van de gegevensset die u naar CSV converteert de naam -idheeft, kan de volgende fout optreden wanneer u probeert het bestand te openen in Excel:

 "SYLK: File format is not valid."  

Als u deze fout wilt voor komen, moet u de naam van de kolom wijzigen. Zie voor meer informatie https://support.microsoft.com/kb/215591

Ik heb hulp nodig bij het importeren vanuit CSV

Voor het importeren gebruikt u niet de module exporteren naar CSV . Gebruik in plaats daarvan de module gegevens importeren .

Raadpleeg de volgende bronnen voor algemene informatie over het importeren uit CSV:

Verwachte invoer

Naam Type Beschrijving
Gegevensset Gegevens tabel Invoer gegevensset

Uitvoer

Naam Type Beschrijving
Gegevensset voor resultaten GenericCsv Uitvoer gegevensset

Zie ook

Conversies van gegevens indeling
Module lijst a-Z