Exportera till Hive-fråga

Anteckning

Gäller för: Machine Learning Studio (klassisk)

Det här innehållet gäller endast Studio (klassisk). Liknande dra-och släpp moduler har lagts till i Azure Machine Learning designer. Mer information i den här artikeln är att jämföra de två versionerna.

Den här artikeln beskriver hur du använder alternativet Exportera data till Hive i modulen Exportera data i Azure Machine Learning Studio (klassisk). Det här alternativet är användbart när du arbetar med mycket stora datauppsättningar och vill spara dina maskininlärningsexperimentdata till ett Hadoop-kluster eller en distribuerad HDInsight-lagring. Du kanske också vill exportera mellanliggande resultat eller andra data till Hadoop så att du kan bearbeta dem med hjälp av ett MapReduce-jobb.

Så här exporterar du data till Hive

  1. Lägg till modulen Exportera data i experimentet. Du hittar den här modulen i kategorin Indata och utdata i Azure Machine Learning Studio (klassisk).

    Anslut modulen till den datauppsättning som du vill exportera.

  2. För Datakälla väljer du Hive-fråga.

  3. För Hive-tabellnamn anger du namnet på Hive-tabellen där datauppsättningen ska lagras.

  4. I textrutan HCatalog-server-URI skriver du det fullständigt kvalificerade namnet på klustret.

    Om du till exempel har skapat ett kluster med namnet mycluster001 använder du det här formatet:

    https://mycluster001.azurehdinsight.net

  5. I textrutan Namn på Hadoop-användarkonto klistrar du in det Hadoop-användarkonto som du använde när du etablerade klustret.

  6. I textrutan Lösenord för Hadoop-användarkonto anger du de autentiseringsuppgifter som du använde när du etablerade klustret.

  7. För Plats för utdata väljer du det alternativ som anger var data ska lagras: HDFS eller Azure.

    Om data finns i HDFS (Hadoop Distributed File System) måste de vara tillgängliga via samma konto och lösenord som du nyss angav.

    Om data finns i Azure anger du lagringskontots plats och autentiseringsuppgifter.

  8. Om du valde alternativet HDFS anger du HDInsight-klusternamnet utan prefixet för HDFS-server-URI. https://

  9. Om du valde alternativet Azure anger du namnet på lagringskontot och de autentiseringsuppgifter som modulen kan använda för att ansluta till lagringen.

    • Namn på Azure-lagringskonto: Ange namnet på Azure-kontot. Om den fullständiga URL:en för lagringskontot till exempel är https://myshared.blob.core.windows.net skriver du myshared .

    • Azure Storage-nyckel: Kopiera och klistra in den nyckel som finns för åtkomst till lagringskontot.

    • Azure-containernamn: Ange standardcontainern för klustret. Tips om hur du tar reda på standardcontainern finns i avsnittet Tekniska anteckningar.

  10. Använd cachelagrade resultat: Välj det här alternativet om du vill undvika att skriva om Hive-tabellen varje gång du kör experimentet. Om det inte finns några andra ändringar av modulparametrarna skriver experimentet Hive-tabellen bara första gången modulen körs, eller när det finns ändringar i data.

    Om du vill skriva Hive-tabellen varje gång experimentet körs avmarkerar du alternativet Använd cachelagrade resultat.

  11. Kör experimentet.

Exempel

Exempel på hur du använder modulen Exportera data finns i Azure AI Gallery.

  • Avancerad analysprocess och teknik i praktiken: Använda HDInsight Hadoop-kluster:Den här artikeln innehåller en detaljerad genomgång av hur du skapar ett kluster, laddar upp data och anropar data från Studio (klassisk) med Hive.

Teknisk information

Det här avsnittet innehåller implementeringsinformation, tips och svar på vanliga frågor.

Vanliga frågor

Så här undviker du minnesproblem när du skriver stora datamängder

Ibland är standardkonfigurationen för Hadoop-klustret för begränsad för att stödja körning av MapReduce-jobbet. I de här versionerna för HDInsight definieras till exempel standardinställningarna som ett kluster med fyra noder.

Om kraven för MapReduce-jobbet överskrider den tillgängliga kapaciteten kan Hive-frågorna returnera ett felmeddelande om att minnet är slut, vilket gör att åtgärden Exportera data misslyckas. Om detta inträffar kan du ändra standardminnesallokeringen för Hive-frågor.

Så här undviker du att läsa in samma data i onödan

Om du inte vill återskapa Hive-tabellen varje gång du kör experimentet väljer du alternativet Använd cachelagrade resultat till TRUE. När det här alternativet är inställt på TRUE kontrollerar modulen om experimentet har körts tidigare och om en tidigare körning hittas utförs inte skrivåtgärden.

Användningstips

Det kan vara svårt att ta reda på standardcontainern för klustret. Här följer några tips:

  • Om du skapade klustret med hjälp av standardinställningarna skapades en container med samma namn samtidigt som klustret skapades. Den containern är standardcontainern för klustret.

  • Om du skapade klustret med alternativet ANPASSAD SKAPA fick du två alternativ för att välja standardcontainern.

    Befintlig container: Om du har valt en befintlig container är den containern standardlagringscontainern för klustret.

    Skapa standardcontainer: Om du valde det här alternativet, en container med samma namn som klustret skapades, och du bör ange det containernamnet som standardcontainer för klustret.

Modulparametrar

Name Intervall Typ Standardvärde Description
Datakälla Lista Datakälla eller mottagare Azure Blob Storage Datakällan kan vara HTTP, FTP, anonym HTTPS eller FTPS, en fil i Azure BLOB Storage, en Azure-tabell, en Azure SQL Database, en Hive-tabell eller en OData-slutpunkt.
Hive-tabellnamn valfri Sträng inget Namnet på tabellen i Hive
URI för HCatalog-server valfri Sträng inget Slutpunkt för Templeton
Namn på Hadoop-användarkonto valfri Sträng inget Hadoop HDFS/HDInsight-användarnamn
Lösenord för Hadoop-användarkonto valfri SecureString inget Hadoop HDFS/HDInsight-lösenord
Plats för utdata valfri DataLocation HDFS Ange HDFS eller Azure för outputDir
URI för HDFS-server valfri Sträng inget HDFS-restslutpunkt
Azure Storage-kontonamn valfri Sträng inget Azure Storage-kontonamn
Azure Storage-nyckel valfri SecureString inget Azure Storage-nyckel
Azure-containernamn valfri Sträng inget Azure-containernamn
Använda cachelagrade resultat TRUE/FALSE Boolesk FALSE Modulen körs bara om det inte finns någon giltig cache. använd annars cachelagrade data från föregående körning.

Undantag

Undantag Description
Fel 0027 Ett undantag inträffar när två objekt måste ha samma storlek, men de inte är det.
Fel 0003 Ett undantag inträffar om en eller flera indata är null eller tomma.
Fel 0029 Ett undantag inträffar när en ogiltig URI skickas.
Fel 0030 ett undantag inträffar i när det inte går att ladda ned en fil.
Fel 0002 Ett undantag inträffar om en eller flera parametrar inte kunde parsas eller konverteras från den angivna typen till den typ som krävs av målmetoden.
Fel 0009 Ett undantag inträffar om namnet på Azure-lagringskontot eller containernamnet har angetts felaktigt.
Fel 0048 Ett undantag inträffar när det inte går att öppna en fil.
Fel 0046 Ett undantag inträffar när det inte går att skapa en katalog på den angivna sökvägen.
Fel 0049 Ett undantag inträffar när det inte går att parsa en fil.

En lista över fel som är specifika för Studio-moduler (klassisk) finns i Machine Learning felkoder.

En lista över API-undantag finns i Machine Learning REST API felkoder.

Se även

Importera data
Exportera data
Exportera till Azure SQL Database
Exportera till Azure Blob Storage
Exportera till Azure Table