Eksportowanie do zapytania Hive

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Uwaga

Dotyczy: tylko Machine Learning Studio (klasyczne)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

W tym artykule opisano sposób użycia opcji Eksportuj dane do programu Hive w module Eksportowanie danych w programie Machine Learning Studio (wersja klasyczna). Ta opcja jest przydatna w przypadku pracy z bardzo dużymi zestawami danych i zapisywania danych eksperymentu uczenia maszynowego w klastrze Hadoop lub rozproszonym magazynie usługi HDInsight. Możesz również wyeksportować wyniki pośrednie lub inne dane do usługi Hadoop, aby można było je przetworzyć przy użyciu MapReduce zadań.

Jak wyeksportować dane do hive

  1. Dodaj moduł Eksportuj dane do eksperymentu. Ten moduł można znaleźć w kategorii Dane wejściowe i Wyjściowe w programie Machine Learning Studio (wersja klasyczna).

    Połączenie moduł do zestawu danych, który chcesz wyeksportować.

  2. W przypadku źródła danych wybierz pozycję Zapytanie Hive.

  3. W przypadku nazwy tabeli Hive wpisz nazwę tabeli Hive, w której ma być zapisywany zestaw danych.

  4. W polu tekstowym HCatalog server URI (Adres URI serwera HCatalog ) wpisz w pełni kwalifikowaną nazwę klastra.

    Jeśli na przykład utworzono klaster o nazwie mycluster001, użyj tego formatu:

    https://mycluster001.azurehdinsight.net

  5. W polu tekstowym Nazwa konta użytkownika usługi Hadoop wklej konto użytkownika usługi Hadoop, które było używane podczas aprowizowania klastra.

  6. W polu tekstowym Hadoop user account password (Hasło konta użytkownika usługi Hadoop ) wpisz poświadczenia użyte podczas aprowizowania klastra.

  7. W pozycji Lokalizacja danych wyjściowych wybierz opcję, która wskazuje, gdzie mają być przechowywane dane: system plików HDFS lub platforma Azure.

    Jeśli dane są w rozproszonym systemie plików Hadoop (HDFS), muszą być dostępne za pośrednictwem tego samego konta i hasła, które zostały wprowadzone.

    Jeśli dane są na platformie Azure, podaj lokalizację i poświadczenia konta magazynu.

  8. Jeśli wybrano opcję HDFS , w przypadku identyfikatora URI serwera HDFS określ nazwę klastra usługi HDInsight bez prefiksu https:// .

  9. Jeśli wybrano opcję Azure , podaj nazwę konta magazynu i poświadczenia, których moduł może użyć do nawiązania połączenia z magazynem.

    • Nazwa konta usługi Azure Storage: wpisz nazwę konta platformy Azure. Jeśli na przykład pełny adres URL konta magazynu to https://myshared.blob.core.windows.net, należy wpisać .myshared

    • Klucz usługi Azure Storage: skopiuj i wklej klucz podany w celu uzyskania dostępu do konta magazynu.

    • Nazwa kontenera platformy Azure: określ domyślny kontener dla klastra. Aby uzyskać porady dotyczące sposobu ustalić domyślny kontener, zobacz sekcję Uwagi techniczne.

  10. Użyj buforowanych wyników: wybierz tę opcję, jeśli chcesz uniknąć ponownego zapisu tabeli Hive przy każdym uruchomieniu eksperymentu. Jeśli nie ma żadnych innych zmian parametrów modułu, eksperyment zapisuje tabelę Hive tylko przy pierwszym uruchomieniu modułu lub w przypadku zmian danych.

    Jeśli chcesz napisać tabelę Hive przy każdym uruchomieniu eksperymentu, usuń zaznaczenie opcji Użyj buforowanych wyników .

  11. Uruchom eksperyment.

Przykłady

Przykłady użycia modułu Eksportowanie danych można znaleźć w Azure AI Gallery.

  • Proces analizy zaawansowanej i technologia w działaniu: Korzystanie z klastrów Hadoop w umacie HDInsight: ten artykuł zawiera szczegółowy przewodnik tworzenia klastra, przekazywania danych i wywołania danych z programu Studio (wersja klasyczna) przy użyciu programu Hive.

Uwagi techniczne

Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.

Często zadawane pytania

Jak uniknąć problemów z braku pamięci podczas pisania dużych zestawów danych

Czasami domyślna konfiguracja klastra Hadoop jest zbyt ograniczona do obsługi uruchamiania MapReduce usługi. Na przykład w tych informacjach o wersji dla usługi HDInsight domyślne ustawienia są definiowane jako klaster z czterema węzłami.

Jeśli wymagania zadania MapReduce przekraczają dostępną pojemność, zapytania Hive mogą zwracać komunikat o błędzie braku pamięci, co powoduje niepowodzenie operacji eksportowania danych. W takim przypadku można zmienić domyślną alokację pamięci dla zapytań Hive.

Jak uniknąć niepotrzebnie ponownego ładowania tych samych danych

Jeśli nie chcesz ponownie tworzyć tabeli Hive przy każdym uruchomieniu eksperymentu, wybierz opcję Użyj buforowanych wyników na wartość TRUE. Gdy ta opcja jest ustawiona na wartość TRUE, moduł sprawdzi, czy eksperyment został wcześniej uruchomiony, a jeśli zostanie znaleziony poprzedni przebieg, operacja zapisu nie zostanie wykonana.

Porady dotyczące użycia

Może być trudno ustalić domyślny kontener dla klastra. Poniżej przedstawiono kilka wskazówek:

  • Jeśli klaster został utworzony przy użyciu ustawień domyślnych, kontener o takiej samej nazwie został utworzony w tym samym czasie, w czasie tworzenia klastra. Ten kontener jest domyślnym kontenerem klastra.

  • Jeśli klaster został utworzony przy użyciu opcji CUSTOM CREATE , zostały podane dwie opcje wyboru kontenera domyślnego.

    Istniejący kontener: jeśli wybrano istniejący kontener, jest to domyślny kontener magazynu dla klastra.

    Utwórz kontener domyślny: jeśli wybrano tę opcję, kontener o takiej samej nazwie jak klaster został utworzony i należy określić tę nazwę kontenera jako domyślny kontener dla klastra.

Parametry modułu

Nazwa Zakres Typ Domyślny Opis
Źródło danych Lista Źródło danych lub ujścia Azure Blob Storage Źródłem danych może być protokół HTTP, FTP, anonimowy protokół HTTPS lub FTPS, plik w usłudze Azure BLOB Storage, tabela platformy Azure, Azure SQL Database, tabela Programu Hive lub punkt końcowy OData.
Nazwa tabeli hive dowolny Ciąg brak Nazwa tabeli w programie Hive
HCatalog server URI dowolny Ciąg brak Punkt końcowy Waton
Nazwa konta użytkownika hadoop dowolny Ciąg brak Nazwa użytkownika usługi Hadoop HDFS/HDInsight
Hasło konta użytkownika hadoop dowolny Securestring brak Hasło usługi Hadoop HDFS/HDInsight
Lokalizacja danych wyjściowych dowolny DataLocation SYSTEM PLIKÓW HDFS Określanie systemu plików HDFS lub platformy Azure dla katalogu outputDir
URI serwera HDFS dowolny Ciąg brak Punkt końcowy REST systemu plików HDFS
Nazwa konta usługi Azure Storage dowolny Ciąg brak Nazwa konta usługi Azure Storage
Klucz usługi Azure Storage dowolny Securestring brak Klucz usługi Azure Storage
Nazwa kontenera platformy Azure dowolny Ciąg brak Nazwa kontenera platformy Azure
Używanie buforowanych wyników PRAWDA/FAŁSZ Wartość logiczna FALSE Moduł jest wykonywany tylko wtedy, gdy nie istnieje prawidłowa pamięć podręczna; w przeciwnym razie użyj danych buforowanych z poprzedniego wykonania.

Wyjątki

Wyjątek Opis
Błąd 0027 Wyjątek występuje, gdy dwa obiekty muszą mieć ten sam rozmiar, ale nie są.
Błąd 0003 Wyjątek występuje, gdy co najmniej jeden element wejściowy ma wartość null lub jest pusty.
Błąd 0029 Wyjątek występuje, gdy zostanie przekazany nieprawidłowy identyfikator URI.
Błąd 0030 występuje wyjątek w programie , gdy nie jest możliwe pobranie pliku.
Błąd 0002 Wyjątek występuje, jeśli co najmniej jeden parametr nie może zostać analizowany lub przekonwertowany z określonego typu na typ wymagany przez metodę docelową.
Błąd 0009 Wyjątek występuje, jeśli nazwa konta usługi Azure Storage lub nazwa kontenera jest niepoprawnie określona.
Błąd 0048 Wyjątek występuje, gdy nie jest możliwe otwarcie pliku.
Błąd 0046 Wyjątek występuje, gdy nie jest możliwe utworzenie katalogu w określonej ścieżce.
Błąd 0049 Wyjątek występuje, gdy nie jest możliwe analizowanie pliku.

Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kodów błędów.

Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).

Zobacz też

Importowanie danych
Eksportowanie danych
Eksportuj do Azure SQL Database
Eksportowanie do Azure Blob Storage
Eksportowanie do tabeli platformy Azure