Exporteren naar Hive-query

Artikel
05/06/2019

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

Zie informatie over het verplaatsen machine learning van ML Studio (klassiek) naar Azure Machine Learning.
Meer informatie over Azure Machine Learning.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

In dit artikel wordt beschreven hoe u de optie Gegevens exporteren naar Hive gebruikt in de module Gegevens exporteren in Machine Learning Studio (klassiek). Deze optie is handig wanneer u met zeer grote gegevenssets werkt en uw machine learning-experimentgegevens wilt opslaan in een Hadoop-cluster of gedistribueerde HDInsight-opslag. Mogelijk wilt u ook tussenliggende resultaten of andere gegevens exporteren naar Hadoop, zodat u deze kunt verwerken met behulp van een MapReduce-taak.

Gegevens exporteren naar Hive

Voeg de module Gegevens exporteren toe aan uw experiment. U vindt deze module in de categorie Gegevensinvoer en -uitvoer in Machine Learning Studio (klassiek).

Verbinding maken module naar de gegevensset die u wilt exporteren.
Selecteer hive-query bij Gegevensbron.
Bij Hive-tabelnaam typt u de naam van de Hive-tabel waarin de gegevensset moet worden opgeslagen.
Typ in het tekstvak HCatalog-server-URI de volledig gekwalificeerde naam van uw cluster.

Als u bijvoorbeeld een cluster met de naam mycluster001hebt gemaakt, gebruikt u deze indeling:

https://mycluster001.azurehdinsight.net
Plak in het tekstvak Naam van Hadoop-gebruikersaccount het Hadoop-gebruikersaccount dat u hebt gebruikt bij het inrichten van het cluster.
Typ in het tekstvak Wachtwoord voor Hadoop-gebruikersaccount de referenties die u hebt gebruikt bij het inrichten van het cluster.
Selecteer bij Locatie van uitvoergegevens de optie die aangeeft waar de gegevens moeten worden opgeslagen: HDFS of Azure.

Als de gegevens zich in het HdFS-bestandssysteem (Hadoop Distributed File System) hebben, moeten deze toegankelijk zijn via hetzelfde account en wachtwoord dat u zojuist hebt ingevoerd.

Als de gegevens zich in Azure bevinden, geeft u de locatie en referenties van het opslagaccount op.
Als u de optie HDFS hebt geselecteerd, geeft u voor HDFS-server-URI de naam van het HDInsight-cluster op zonder het voorvoegsel https:// .
Als u de optie Azure hebt geselecteerd, geeft u de naam van het opslagaccount op en de referenties die de module kan gebruiken om verbinding te maken met de opslag.
- Naam van Azure-opslagaccount: typ de naam van het Azure-account. Als de volledige URL van het opslagaccount bijvoorbeeld is https://myshared.blob.core.windows.net, typt u myshared.
- Azure-opslagsleutel: kopieer en plak de sleutel die is opgegeven voor toegang tot het opslagaccount.
- Azure-containernaam: geef de standaardcontainer voor het cluster op. Zie de sectie Technische notities voor tips over het vinden van de standaardcontainer.
In cache opgeslagen resultaten gebruiken: selecteer deze optie als u wilt voorkomen dat de Hive-tabel telkens opnieuw wordt geschreven wanneer u het experiment uit te voeren. Als er geen andere wijzigingen in moduleparameters zijn, schrijft het experiment de Hive-tabel alleen wanneer de module voor het eerst wordt uitgevoerd of wanneer er wijzigingen in de gegevens zijn.

Als u de Hive-tabel telkens wilt schrijven wanneer het experiment wordt uitgevoerd, deselecteert u de optie Resultaten in cache gebruiken.
Voer het experiment uit.

Voorbeelden

Zie de Azure AI Gallery voor voorbeelden van het gebruik van de module Azure AI Gallery.

Advanced Analytics Process and Technology in Action: Using HDInsight Hadoop clusters: Dit artikel biedt een gedetailleerd overzicht van het maken van een cluster, het uploaden van gegevens en het aanroepen van de gegevens vanuit Studio (klassiek) met behulp van Hive.

Technische opmerkingen

Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.

Veelgestelde vragen

Problemen met het geheugen voorkomen bij het schrijven van grote gegevenssets

Soms is de standaardconfiguratie van het Hadoop-cluster te beperkt om het uitvoeren van de MapReduce-taak te ondersteunen. In deze opmerkingen bij de release voor HDInsight worden de standaardinstellingen bijvoorbeeld gedefinieerd als een cluster met vier knooppunt.

Als de vereisten van de MapReduce-taak de beschikbare capaciteit overschrijden, kunnen de Hive-query's een foutbericht Over onvoldoende geheugen retourneren, waardoor de bewerking Gegevens exporteren mislukt. Als dit gebeurt, kunt u de standaardgeheugentoewijzing voor Hive-query's wijzigen.

Voorkomen dat dezelfde gegevens onnodig opnieuw worden geladen

Als u de Hive-tabel niet telkens opnieuw wilt maken wanneer u het experiment hebt uitgevoerd, selecteert u de optie In cache opgeslagen resultaten gebruiken op TRUE. Wanneer deze optie is ingesteld op TRUE, controleert de module of het experiment eerder is uitgevoerd en als er een eerdere run is gevonden, wordt de schrijfbewerking niet uitgevoerd.

Gebruikstips

Het kan lastig zijn om de standaardcontainer voor het cluster te achterhalen. Hier vindt u enkele tips:

Als u uw cluster hebt gemaakt met behulp van de standaardinstellingen, is er een container met dezelfde naam gemaakt op hetzelfde moment dat het cluster werd gemaakt. Deze container is de standaardcontainer voor het cluster.
Als u het cluster hebt gemaakt met behulp van de optie AANGEPAST MAKEN , hebt u twee opties gekregen voor het selecteren van de standaardcontainer.

Bestaande container: als u een bestaande container hebt geselecteerd, is die container de standaardopslagcontainer voor het cluster.

Standaardcontainer maken: als u deze optie hebt geselecteerd, is er een container met dezelfde naam als het cluster gemaakt en moet u die containernaam opgeven als de standaardcontainer voor het cluster.

Moduleparameters

Name	Bereik	Type	Standaard	Beschrijving
Gegevensbron	Lijst	Gegevensbron of sink	Azure Blob Storage	De gegevensbron kan HTTP, FTP, anonieme HTTPS of FTPS zijn, een bestand in Azure BLOB-opslag, een Azure-tabel, een Azure SQL Database, een Hive-tabel of een OData-eindpunt.
Hive-tabelnaam	alle	Tekenreeks	geen	Naam van tabel in Hive
HCatalog-server-URI	alle	Tekenreeks	geen	Het Endpoint van Dekje
Naam van Hadoop-gebruikersaccount	alle	Tekenreeks	geen	Gebruikersnaam voor Hadoop HDFS/HDInsight
Wachtwoord voor Hadoop-gebruikersaccount	alle	SecureString	geen	Hadoop HDFS/HDInsight-wachtwoord
Locatie van uitvoergegevens	alle	DataLocation	HDFS	HDFS of Azure opgeven voor outputDir
URI van HDFS-server	alle	Tekenreeks	geen	HDFS-rest-eindpunt
Naam van het Microsoft Azure Storage-account	alle	Tekenreeks	geen	Naam van het Microsoft Azure Storage-account
Azure-opslagsleutel	alle	SecureString	geen	Azure-opslagsleutel
Azure-containernaam	alle	Tekenreeks	geen	Azure-containernaam
Resultaten in cache gebruiken	TRUE/FALSE	Booleaans	FALSE	Module wordt alleen uitgevoerd als er geen geldige cache bestaat; gebruik anders gegevens uit eerdere uitvoering in de cache.

Uitzonderingen

Uitzondering	Description
Fout 0027	Er treedt een uitzondering op wanneer twee objecten dezelfde grootte moeten hebben, maar niet.
Fout 0003	Er treedt een uitzondering op als een of meer invoer null of leeg zijn.
Fout 0029	Er treedt een uitzondering op wanneer een ongeldige URI wordt doorgegeven.
Fout 0030	Er treedt een uitzondering op wanneer het niet mogelijk is om een bestand te downloaden.
Fout 0002	Er treedt een uitzondering op als een of meer parameters niet kunnen worden geparseerd of geconverteerd van het opgegeven type naar het type dat is vereist voor de doelmethode.
Fout 0009	Er treedt een uitzondering op als de naam van het Azure-opslagaccount of de containernaam onjuist is opgegeven.
Fout 0048	Er treedt een uitzondering op wanneer het niet mogelijk is om een bestand te openen.
Fout 0046	Er treedt een uitzondering op wanneer het niet mogelijk is om een map te maken op het opgegeven pad.
Fout 0049	Er treedt een uitzondering op wanneer het niet mogelijk is om een bestand te parseren.

Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).

Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.

Zie ook

Gegevens importeren
Gegevens exporteren
Exporteren naar Azure SQL Database
Exporteren naar Azure Blob Storage
Exporteren naar Azure Table