Importeren vanuit een web-URL via HTTP

In dit artikel wordt beschreven hoe u de module gegevens importeren in azure machine learning Studio (klassiek) gebruikt om gegevens te lezen van een open bare webpagina voor gebruik in een machine learning experiment.

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

De volgende beperkingen zijn van toepassing op de gegevens die op een webpagina worden gepubliceerd:

  • De gegevens moeten een van de ondersteunde indelingen hebben: CSV, TSV, ARFF of SvmLight. Andere gegevens zullen fouten veroorzaken.
  • Er is geen verificatie vereist of ondersteund. Gegevens moeten openbaar beschikbaar zijn.

Gegevens importeren via HTTP

Er zijn twee manieren om gegevens op te halen: gebruik de wizard om de gegevens bron in te stellen of configureer deze hand matig.

De wizard gegevens importeren gebruiken

  1. Voeg de module gegevens importeren toe aan uw experiment. U kunt de module in Studio (klassiek) vinden in de categorie gegevens invoer en uitvoer .

  2. Klik op wizard import data starten en selecteer Web-URL via http.

  3. Plak de URL en selecteer een gegevens indeling.

  4. Wanneer de configuratie is voltooid, klikt u met de rechter muisknop op de module en selecteert u geselecteerde uitvoeren.

Als u een bestaande gegevens verbinding wilt bewerken, start u de wizard opnieuw. De wizard laadt alle vorige configuratie details zodat u niet opnieuw hoeft te beginnen

Eigenschappen hand matig instellen in de module gegevens importeren

In de volgende stappen wordt beschreven hoe u de import bron hand matig configureert.

  1. Voeg de module gegevens importeren toe aan uw experiment. U kunt de module in Studio (klassiek) vinden in de categorie gegevens invoer en uitvoer .

  2. Voor gegevens bronselecteert u Web-URL via http.

  3. Voor URL, typt of plakt u de volledige URL van de pagina die de gegevens bevat die u wilt laden.

    De URL moet de site-URL en het volledige pad, met de bestands naam en de extensie, bevatten naar de pagina die de gegevens bevat die moeten worden geladen.

    De volgende pagina bevat bijvoorbeeld de Iris gegevensset uit de machine learning opslag plaats van de University of Californië, Irvine:

    https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

  4. Selecteer bij gegevens indelingeen van de ondersteunde gegevens indelingen uit de lijst.

    U wordt aangeraden de gegevens altijd vooraf te controleren om de indeling te bepalen. Op de pagina UC-Irvine wordt de CSV-indeling gebruikt. Andere ondersteunde gegevens indelingen zijn TSV, ARFF en SvmLight.

  5. Als de gegevens zich in CSV-of TSV-indeling bevindt, gebruikt u de optie bestand heeft koprij om aan te geven of de bron gegevens een koprij bevatten. De rij met koppen wordt gebruikt om kolom namen toe te wijzen.

  6. Selecteer de opties in cache opgeslagen resultaten als u niet verwacht dat de gegevens veel worden gewijzigd of als u wilt voor komen dat u de gegevens opnieuw laadt telkens wanneer u het experiment uitvoert.

    Als deze optie is geselecteerd, laadt het experiment de gegevens op het moment dat de module voor het eerst wordt uitgevoerd en wordt vervolgens een versie van de gegevensset in de cache gebruikt.

    Als u de gegevensset voor elke herhaling van de gegevensset van de experiment opnieuw wilt laden, schakelt u de optie resultaten in cache gebruiken uit. De resultaten worden ook opnieuw geladen als er wijzigingen zijn aangebracht in de para meters van gegevens importeren.

  7. Voer het experiment uit.

Resultaten

Wanneer u klaar bent, klikt u op de uitvoer gegevensset en selecteert u visualiseren om te zien of de gegevens zijn geïmporteerd.

Voorbeelden

Bekijk deze voor beelden in de Azure AI Gallery van machine learning experimenten die gegevens ophalen van open bare websites:

Technische opmerkingen

Deze sectie bevat implementatie details, tips en antwoorden op veelgestelde vragen.

Veelgestelde vragen

Kan ik gegevens filteren terwijl deze vanuit de bron worden gelezen

Nee. Deze optie wordt niet ondersteund met deze gegevens bron.

Nadat u de gegevens in Azure Machine Learning Studio (klassiek) hebt gelezen, kunt u de gegevensset splitsen, steek proeven gebruiken, zodat u alleen de gewenste rijen krijgt:

  • Schrijf een eenvoudige R-code in het script Execute r om een deel van de gegevens op rijen of kolommen op te halen.

  • Gebruik de gesplitste gegevens module met een relatieve expressie of een reguliere expressie om de gewenste gegevens te isoleren.

  • Als u meer gegevens hebt geladen dan u nodig hebt, overschrijft u de gegevensset in de cache door een nieuwe gegevensset te lezen en deze met dezelfde naam op te slaan.

Hoe kan ik voor komen dat dezelfde gegevens onnodig opnieuw worden geladen

Als de bron gegevens worden gewijzigd, kunt u de gegevensset vernieuwen en nieuwe gegevens toevoegen door import gegevensopnieuw uit te voeren.

Als u niet telkens wanneer u het experiment uitvoert opnieuw wilt lezen uit de bron, selecteert u de optie in de cache opgeslagen resultaten gebruiken op waar. Als deze optie is ingesteld op TRUE, controleert de module of het experiment eerder dezelfde bron en dezelfde invoer opties heeft gebruikt. Als een vorige uitvoering wordt gevonden, worden de gegevens in de cache gebruikt, in plaats van de gegevens uit de bron opnieuw te laden.

Waarom is er een extra rij toegevoegd aan het einde van mijn gegevensset

Als in de module gegevens importeren een rij gegevens wordt aangetroffen die worden gevolgd door een lege regel of een nieuw regel teken, wordt een extra rij toegevoegd aan het einde van de tabel. Deze nieuwe rij bevat ontbrekende waarden.

De reden voor het interpreteren van een nieuwe regel als een nieuwe rij is dat het importeren van gegevens het verschil tussen een daad werkelijke lege regel en een lege regel niet kan bepalen, waarbij de gebruiker op ENTER drukt aan het einde van een bestand.

Omdat sommige machine learning-algoritmen ondersteuning bieden voor ontbrekende gegevens en deze regel zouden behandelen als een geval (dit kan van invloed zijn op de resultaten), moet u clean Missing Data gebruiken om te controleren of er ontbrekende waarden zijn (met name rijen die volledig leeg zijn) en verwijdert u deze indien nodig.

Voordat u op lege rijen controleert, wilt u mogelijk ook de gegevensset verdelen met behulp van gegevens splitsen. Hiermee worden rijen gescheiden door gedeeltelijke ontbrekende waarden, die de werkelijke ontbrekende waarden in de bron gegevens vertegenwoordigen. Gebruik de optie Head N rows selecteren om het eerste deel van de gegevensset in een afzonderlijke container van de laatste regel te lezen.

Waarom worden sommige tekens in mijn bron bestand niet correct weer gegeven

Azure Machine Learning ondersteunt de UTF-8-code ring. Als uw bron bestand een ander type code ring gebruikt, zijn de tekens mogelijk niet correct geïmporteerd.

Module parameters

Naam Bereik Type Standaard Beschrijving
Gegevensbron Lijst Gegevens bron of sink Azure Blob Storage De gegevens bron kan HTTP, FTP, anonieme HTTPS of FTPS, een bestand in azure BLOB Storage, een Azure-tabel, een Azure SQL Database, een on-premises SQL Server Data Base, een Hive-tabel of een OData-eind punt zijn.
URL alle Tekenreeks geen URL voor HTTP
Gegevensindeling CSV

TSV

ARFF

SvmLight
Gegevensindeling CSV Bestands type van HTTP-bron
CSV of TSV heeft veldnamenrij WAAR/ONWAAR Boolean-waarde onjuist Hiermee wordt aangegeven of het CSV-of TSV-bestand een veldnamenrij bevat
In cache opgeslagen resultaten gebruiken WAAR/ONWAAR Boolean-waarde FALSE De module wordt alleen uitgevoerd als er geen geldige cache bestaat. Anders worden de gegevens in de cache van de vorige uitvoering gebruikt.

Outputs

Naam Type Beschrijving
Gegevensset voor resultaten Gegevens tabel Gegevensset met gedownloade gegevens

Uitzonderingen

Uitzondering Beschrijving
Fout 0027 Een uitzonde ring treedt op wanneer twee objecten dezelfde grootte hebben, maar niet.
Fout 0003 Een uitzonde ring treedt op als een of meer invoer waarden null of leeg zijn.
Fout 0029 Er treedt een uitzonde ring op wanneer een ongeldige URI wordt door gegeven.
Fout 0030 Er treedt een uitzonde ring op in wanneer het niet mogelijk is om een bestand te downloaden.
Fout 0002 Een uitzonde ring treedt op als een of meer para meters niet kunnen worden geparseerd of geconverteerd van het opgegeven type naar het type dat vereist is voor de doel methode.
Fout 0048 Een uitzonde ring treedt op wanneer het niet mogelijk is om een bestand te openen.
Fout 0046 Er treedt een uitzonde ring op wanneer het niet mogelijk is om een map te maken op het opgegeven pad.
Fout 0049 Een uitzonde ring treedt op wanneer het niet mogelijk is om een bestand te parseren.

Zie machine learning fout codesvoor een lijst met fouten die specifiek zijn voor Studio-modules (Classic).

Zie Machine Learning rest API fout codesvoor een lijst met API-uitzonde ringen.

Zie ook

Gegevens importeren
Gegevens exporteren
Importeren uit Hive-query
Importeren uit Azure SQL Database
Importeren uit Azure-tabel
Importeren uit Azure Blob Storage
Importeren uit data feed-providers
Importeren uit on-premises SQL Server Data Base