Importeren uit Azure-tabel

In dit artikel wordt beschreven hoe u de module gegevens importeren in azure machine learning Studio (klassiek) kunt gebruiken om gestructureerde of semi-gestructureerde gegevens uit Azure-tabellen te importeren in een machine learning experiment.

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

De Azure Table -service is een gegevens beheer service in azure waarmee u grote hoeveel heden gestructureerde, niet-relationele gegevens kunt opslaan. Het is een NoSQL-gegevens archief dat geverifieerde aanroepen binnen en buiten Azure accepteert.

Voor het importeren vanuit Azure Table Storage moet u een van de twee account typen kiezen: een opslag account dat toegankelijk is via een SAS-URL of een privé-opslag account waarvoor aanmeldings referenties zijn vereist.

Gegevens importeren uit Azure-tabellen

De wizard gegevens importeren gebruiken

De module bevat een nieuwe wizard om u te helpen bij het kiezen van een opslag optie, het selecteren van de bestaande abonnementen en accounts en het snel configureren van alle opties.

  1. Voeg de module gegevens importeren toe aan uw experiment. U kunt de module vinden onder gegevens invoer en-uitvoer.

  2. Klik op wizard import data starten en volg de aanwijzingen.

  3. Wanneer de configuratie is voltooid, kunt u de gegevens in uw experiment echt kopiëren door met de rechter muisknop op de module te klikken en geselecteerde uitvoerente selecteren.

Als u een bestaande gegevens verbinding wilt bewerken, laadt de wizard alle vorige configuratie gegevens zodat u niet opnieuw hoeft te beginnen

Eigenschappen hand matig instellen in de module gegevens importeren

In de volgende stappen wordt beschreven hoe u de import bron hand matig configureert.

  1. Voeg de module gegevens importeren toe aan uw experiment. U kunt deze module vinden in de gegevens invoer-en uitvoer groep in de lijst proef items in azure machine learning Studio (klassiek).

  2. Selecteer voor gegevens bronde optie Azure Table.

  3. Kies voor verificatie type openbaar (SAS-URL) als u weet dat de gegevens zijn verstrekt als een open bare gegevens bron. Een SAS-URL is een tijdgebonden toegangs-URL die u kunt genereren met behulp van een Azure-opslag programma.

    Kies anders account.

  4. Als uw gegevens zich in een open bare BLOB bevinden die toegankelijk is via een SAS-URL, hebt u geen aanvullende referenties nodig omdat de URL-teken reeks alle informatie bevat die nodig is voor down loads en authenticatie.

    Typ of plak in het veld SAS URI voor de tabel de volledige URI waarmee het account en de open bare BLOB worden gedefinieerd.

    Notitie

    Op een pagina die toegankelijk is via SAS URL, kunnen gegevens worden opgeslagen met alleen de volgende indelingen: CSV, TSV en ARFF.

  5. Als uw gegevens zich in een privé -account bevindt, moet u referenties opgeven, inclusief de account naam en de sleutel.

    • Voor de naam van de tabel accounttypt of plakt u de naam van het account dat de BLOB bevat waartoe u toegang wilt.

      Als de volledige URL van het opslag account bijvoorbeeld is https://myshared.table.core.windows.net , typt u myshared .

    • Plak voor de tabel account sleutelde toegangs sleutel die is gekoppeld aan het opslag account. \

      Als u de toegangs sleutel niet kent, raadpleegt u de sectie ' toegangs sleutels voor opslag weer geven, kopiëren en opnieuw genereren ' in dit artikel: over Azure Storage-accounts.

    • Voor de tabel naamtypt u de naam van de specifieke tabel die u wilt lezen.

  6. Kies een optie die aangeeft hoeveel rijen met de import gegevens moeten worden gescand. Bij het importeren van gegevens wordt gebruikgemaakt van de scan om de lijst met kolommen in de gegevens op te halen en om te bepalen wat de kolom gegevens typen moeten zijn.

    • TopN: alleen het opgegeven aantal rijen scannen, beginnend vanaf de bovenkant van de gegevensset.

      Standaard worden tien rijen gescand, maar u kunt deze waarde verg Roten of verkleinen met de optie aantal rijen voor TopN .

      Als de gegevens homo geen zijn en voorspelbaar zijn, selecteert u TopN en voert u een getal in bij N. Voor grote tabellen kan dit leiden tot snellere lees tijden.

    • ScanAll: alle rijen in de tabel scannen.

      Als de gegevens zijn gestructureerd met sets eigenschappen die variëren op basis van de diepte en positie van de tabel, kiest u de optie ScanAll om alle rijen te scannen. Zo zorgt u ervoor dat de integriteit van de resulterende eigenschappen en meta gegevens worden geconverteerd.

  7. Geef aan of u wilt dat de gegevens telkens worden vernieuwd wanneer het experiment wordt uitgevoerd. Als u de optie in cache opgeslagen resultaten gebruiken selecteert (de standaard instelling), worden de gegevens in de module import gegevens gelezen de opgegeven bron wanneer het experiment voor het eerst wordt uitgevoerd en worden de resultaten daarna in de cache opgeslagen. Als er wijzigingen zijn aangebracht in de para meters van de module import data , worden de gegevens opnieuw geladen.

    Als u deze optie uitschakelt, worden de gegevens uit de bron gelezen telkens wanneer het experiment wordt uitgevoerd, ongeacht of de gegevens hetzelfde zijn of niet.

Voorbeelden

Zie de Azure AI Galleryvoor voor beelden van het gebruik van de module gegevens exporteren .

Technische opmerkingen

Deze sectie bevat implementatie details, tips en antwoorden op veelgestelde vragen.

Veelgestelde vragen

Hoe kan ik voor komen dat dezelfde gegevens onnodig opnieuw worden geladen?

Als de bron gegevens worden gewijzigd, kunt u de gegevensset vernieuwen en nieuwe gegevens toevoegen door import gegevensopnieuw uit te voeren. Als u echter niet telkens wanneer u het experiment uitvoert opnieuw wilt lezen uit de bron, selecteert u de optie in cache opgeslagen resultaten gebruiken op waar. Als deze optie is ingesteld op TRUE, controleert de module of het experiment eerder is uitgevoerd met dezelfde bron en dezelfde invoer opties, en als een vorige uitvoering wordt gevonden, worden de gegevens in de cache gebruikt, in plaats van de gegevens uit de bron opnieuw te laden.

Kan ik gegevens filteren terwijl deze worden gelezen uit de bron?

De module gegevens importeren biedt geen ondersteuning voor filteren omdat gegevens worden gelezen. De uitzonde ring is het lezen van gegevensfeeds, waarmee u soms een filter voorwaarde kunt opgeven als onderdeel van de URL van de feed.

U kunt gegevens echter wijzigen of filteren nadat u deze in Azure Machine Learning Studio hebt gelezen (klassiek):

  • Gebruik een aangepast R-script om gegevens te wijzigen of te filteren.
  • Gebruik de gesplitste gegevens module met een relatieve expressie of een reguliere expressie om de gewenste gegevens te isoleren en sla deze vervolgens op als een gegevensset.

Notitie

Als u merkt dat u meer gegevens hebt geladen dan u nodig hebt, kunt u de gegevensset in de cache overschrijven door een nieuwe gegevensset te lezen en deze op te slaan met dezelfde naam als de oudere, grotere gegevens.

Hoe worden gegevens verwerking gegevens verwerkt uit verschillende geografische regio's?

Als het BLOB-of Table-opslag account zich in een andere regio bevindt dan het reken knooppunt dat voor het machine learning experiment wordt gebruikt, kan de toegang tot de gegevens trager worden. Verder worden er kosten in rekening gebracht voor inkomend en uitgaand verkeer op het abonnement.

Waarom worden sommige tekens in mijn tabel niet correct weer gegeven?

Azure Machine Learning ondersteunt UTF-8-code ring. Als uw tabel gebruikmaakt van een andere code ring, zijn de tekens mogelijk niet correct geïmporteerd.

Zijn er verboden tekens of tekens die tijdens het importeren worden gewijzigd?

Als kenmerk gegevens aanhalings tekens of teken reeksen met escape-tekens bevatten, worden deze verwerkt met behulp van de regels voor dergelijke tekens in micro soft Excel. Alle andere tekens worden verwerkt met behulp van de volgende specificaties als richt lijn: RFC 4180.

Module parameters

Naam Bereik Type Standaard Standaard
Gegevensbron Lijst Gegevens bron of sink Azure Blob Storage De gegevens bron kan HTTP, FTP, anonieme HTTPS of FTPS, een bestand in azure BLOB Storage, een Azure-tabel, een Azure SQL Database, een on-premises SQL Server Data Base, een Hive-tabel of een OData-eind punt zijn.
Verificatietype PublicOrSas

Account
tableAuthType Account Geef op of de gegevens in een open bare container toegankelijk zijn via een SAS-URL of zich in een privé-opslag account bevinden waarvoor verificatie voor toegang is vereist.

Open bare of SAS-open bare opslag opties

Naam Bereik Type Standaard Beschrijving
Tabel-URI alle Tekenreeks
Rijen om te scannen op eigenschapnamen via SAS geheel getal
Aantal rijen voor TopN via SAS

Account-persoonlijke opslag opties

Naam Bereik Type Standaard Beschrijving
Account naam van de tabel
Sleutel van tabel account alle SecureString
Tabelnaam alle
Rijen om te scannen op eigenschapnamen TopN

ScanAll
Aantal rijen voor TopN alle geheel getal

Outputs

Naam Type Beschrijving
Gegevensset voor resultaten Gegevens tabel Gegevensset met gedownloade gegevens

Uitzonderingen

Uitzondering Beschrijving
Fout 0027 Een uitzonde ring treedt op wanneer twee objecten dezelfde grootte hebben, maar niet.
Fout 0003 Een uitzonde ring treedt op als een of meer invoer waarden null of leeg zijn.
Fout 0029 Er treedt een uitzonde ring op wanneer een ongeldige URI wordt door gegeven.
Fout 0030 Er treedt een uitzonde ring op in wanneer het niet mogelijk is om een bestand te downloaden.
Fout 0002 Een uitzonde ring treedt op als een of meer para meters niet kunnen worden geparseerd of geconverteerd van het opgegeven type naar het type dat vereist is voor de doel methode.
Fout 0009 Een uitzonde ring treedt op als de naam van het Azure-opslag account of de container naam onjuist is opgegeven.
Fout 0048 Een uitzonde ring treedt op wanneer het niet mogelijk is om een bestand te openen.
Fout 0046 Er treedt een uitzonde ring op wanneer het niet mogelijk is om een map te maken op het opgegeven pad.
Fout 0049 Een uitzonde ring treedt op wanneer het niet mogelijk is om een bestand te parseren.

Zie machine learning fout codesvoor een lijst met fouten die specifiek zijn voor Studio-modules (Classic).

Zie Machine Learning rest API fout codesvoor een lijst met API-uitzonde ringen.

Zie ook

Gegevens importeren
Gegevens exporteren
Importeren vanuit de web-URL via HTTP
Importeren uit Hive-query
Importeren uit Azure SQL Database
Importeren uit Azure Blob Storage
Importeren uit data feed-providers
Importeren uit on-premises SQL Server Data Base