Exporteren naar Hive-query

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

In dit artikel wordt beschreven hoe u de optie gegevens exporteren naar Hive gebruikt in de module gegevens exporteren in azure machine learning Studio (klassiek). Deze optie is handig wanneer u met zeer grote gegevens sets werkt en uw machine learning-experiment wilt opslaan in een Hadoop-cluster of een gedistribueerde HDInsight-opslag. Misschien wilt u ook tussenliggende resultaten of andere gegevens naar Hadoop exporteren, zodat u deze met een MapReduce-taak kunt verwerken.

Gegevens exporteren naar Hive

  1. Voeg de module gegevens exporteren toe aan uw experiment. U kunt deze module vinden in de categorie gegevens invoer en-uitvoer in azure machine learning Studio (klassiek).

    Verbind de module met de gegevensset die u wilt exporteren.

  2. Selecteer Hive-queryvoor gegevens bron.

  3. Typ voor de naam van de Hive-tabel de naam van de Hive-tabel waarin de gegevensset moet worden opgeslagen.

  4. Typ in het tekstvak URI van HCatalog-server de volledig gekwalificeerde naam van uw cluster.

    Als u bijvoorbeeld een cluster met de naam hebt gemaakt, gebruikt u de volgende mycluster001 indeling:

    https://mycluster001.azurehdinsight.net

  5. Plak in het tekstvak naam Hadoop-gebruikers account in het Hadoop-gebruikers account dat u hebt gebruikt bij het inrichten van het cluster.

  6. In het tekstvak Hadoop-gebruikers account typt u de referenties die u hebt gebruikt bij het inrichten van het cluster.

  7. Voor de locatie van uitvoer gegevensselecteert u de optie die aangeeft waar de gegevens moeten worden opgeslagen: HDFS of Azure.

    Als de gegevens zich in het Hadoop Distributed File System bevindt, moet deze toegankelijk zijn via hetzelfde account en wacht woord dat u zojuist hebt ingevoerd.

    Als de gegevens zich in azure bevindt, geeft u de locatie en referenties van het opslag account op.

  8. Als u de optie HDFS hebt geselecteerd, geeft u voor de URI van de hdfs-serverde naam van het HDInsight-cluster zonder het https:// voor voegsel op.

  9. Als u de optie Azure hebt geselecteerd, geeft u de naam van het opslag account op en de referenties die de module kan gebruiken om verbinding te maken met de opslag.

    • Azure Storage-account naam: Typ de naam van het Azure-account. Als de volledige URL van het opslag account bijvoorbeeld is https://myshared.blob.core.windows.net , typt u myshared .

    • Azure-opslag sleutel: Kopieer en plak de sleutel die wordt verschaft voor toegang tot het opslag account.

    • Azure-container naam: Geef de standaard container voor het cluster op. Zie de sectie technische opmerkingen voor tips over het bepalen van de standaard container.

  10. In cache opgeslagen resultaten gebruiken: Selecteer deze optie als u wilt voor komen dat de Hive-tabel telkens wanneer u het experiment uitvoert, opnieuw moet worden geschreven. Als er geen andere wijzigingen zijn in de module parameters, schrijft het experiment de Hive-tabel alleen de eerste keer dat de module wordt uitgevoerd of wanneer er wijzigingen in de gegevens zijn.

    Als u de Hive-tabel elke keer dat het experiment wordt uitgevoerd wilt schrijven, schakelt u de optie in cache opgeslagen resultaten gebruiken uit.

  11. Voer het experiment uit.

Voorbeelden

Zie de Azure AI Galleryvoor voor beelden van het gebruik van de module gegevens exporteren .

Technische opmerkingen

Deze sectie bevat implementatie details, tips en antwoorden op veelgestelde vragen.

Veelgestelde vragen

Geheugen problemen voor komen bij het schrijven van grote gegevens sets

Soms is de standaard configuratie van het Hadoop-cluster te beperkt om de MapReduce-taak uit te voeren. In deze release opmerkingen voor HDInsight worden de standaard instellingen bijvoorbeeld gedefinieerd als een cluster met vier knoop punten.

Als de vereisten van de MapReduce-taak meer beschik bare capaciteit overschrijden, kunnen de Hive-query's een fout bericht van onvoldoende geheugen retour neren, waardoor de bewerking voor het exporteren van gegevens mislukt. Als dit het geval is, kunt u de standaard geheugen toewijzing voor Hive-query's wijzigen.

Voor komen dat dezelfde gegevens onnodig opnieuw worden geladen

Als u de Hive-tabel niet telkens wanneer u het experiment uitvoert opnieuw wilt maken, selecteert u de optie in cache opgeslagen resultaten gebruiken op waar. Als deze optie is ingesteld op TRUE, wordt door de module gecontroleerd of het experiment eerder is uitgevoerd, en als een vorige uitvoering wordt gevonden, wordt de schrijf bewerking niet uitgevoerd.

Gebruiks tips

Het kan lastig zijn om de standaard container voor het cluster te achterhalen. Hier vindt u enkele tips:

  • Als u het cluster hebt gemaakt met behulp van de standaard instellingen, is er een container met dezelfde naam gemaakt op het moment dat het cluster werd gemaakt. Deze container is de standaard container voor het cluster.

  • Als u het cluster hebt gemaakt met behulp van de optie voor aangepast maken , hebt u twee opties opgegeven voor het selecteren van de standaard container.

    Bestaande container: als u een bestaande container hebt geselecteerd, is die container de standaard opslag container voor het cluster.

    Standaard container maken: als u deze optie hebt geselecteerd, wordt er een container met dezelfde naam als het cluster gemaakt en moet u die container naam opgeven als de standaard container voor het cluster.

Module parameters

Naam Bereik Type Standaard Beschrijving
Gegevensbron Lijst Gegevens bron of sink Azure Blob Storage De gegevens bron kan HTTP, FTP, anonieme HTTPS of FTPS, een bestand in azure BLOB Storage, een Azure-tabel, een Azure SQL Database, een Hive-tabel of een OData-eind punt zijn.
Naam van Hive-tabel alle Tekenreeks geen Naam van de tabel in Hive
URI van HCatalog-server alle Tekenreeks geen Templeton-eind punt
Hadoop-gebruikers accountnaam alle Tekenreeks geen Hadoop HDFS/HDInsight-gebruikers naam
Wacht woord van Hadoop-gebruikers account alle SecureString geen Hadoop HDFS/HDInsight-wacht woord
Locatie van uitvoer gegevens alle DataLocation HDFS HDFS of Azure opgeven voor outputDir
HDFS-server-URI alle Tekenreeks geen Rest-eind punt (HDFS)
Naam van het Microsoft Azure Storage-account alle Tekenreeks geen Naam van het Microsoft Azure Storage-account
Azure-opslag sleutel alle SecureString geen Azure-opslag sleutel
Azure-container naam alle Tekenreeks geen Azure-container naam
In cache opgeslagen resultaten gebruiken WAAR/ONWAAR Boolean-waarde FALSE Module wordt alleen uitgevoerd als er geen geldige cache bestaat; Gebruik anders in cache opgeslagen gegevens uit eerdere uitvoering.

Uitzonderingen

Uitzondering Beschrijving
Fout 0027 Een uitzonde ring treedt op wanneer twee objecten dezelfde grootte hebben, maar niet.
Fout 0003 Een uitzonde ring treedt op als een of meer invoer waarden null of leeg zijn.
Fout 0029 Er treedt een uitzonde ring op wanneer een ongeldige URI wordt door gegeven.
Fout 0030 Er treedt een uitzonde ring op in wanneer het niet mogelijk is om een bestand te downloaden.
Fout 0002 Een uitzonde ring treedt op als een of meer para meters niet kunnen worden geparseerd of geconverteerd van het opgegeven type naar het type dat vereist is voor de doel methode.
Fout 0009 Een uitzonde ring treedt op als de naam van het Azure-opslag account of de container naam onjuist is opgegeven.
Fout 0048 Een uitzonde ring treedt op wanneer het niet mogelijk is om een bestand te openen.
Fout 0046 Er treedt een uitzonde ring op wanneer het niet mogelijk is om een map te maken op het opgegeven pad.
Fout 0049 Een uitzonde ring treedt op wanneer het niet mogelijk is om een bestand te parseren.

Zie machine learning fout codesvoor een lijst met fouten die specifiek zijn voor Studio-modules (Classic).

Zie Machine Learning rest API fout codesvoor een lijst met API-uitzonde ringen.

Zie ook

Gegevens importeren
Gegevens exporteren
Exporteren naar Azure SQL Database
Exporteren naar Azure Blob Storage
Exporteren naar Azure-tabel