Korzystanie z widoku programu Hive narzędzia Apache Ambari z usługą Apache Hadoop w usłudze HDInsight

Dowiedz się, jak uruchamiać zapytania Hive przy użyciu widoku Programu Hive apache Ambari. Widok hive umożliwia tworzenie, optymalizowanie i uruchamianie zapytań hive z przeglądarki internetowej.

Wymagania wstępne

Klaster Hadoop w usłudze HDInsight. Zobacz Wprowadzenie z usługą HDInsight w systemie Linux.

Uruchomienie zapytania programu Hive

  1. W Azure Portal wybierz klaster. Aby uzyskać instrukcje, zobacz Wyświetlanie i wyświetlanie klastrów . Klaster jest otwarty w nowym widoku portalu.

  2. W obszarze Pulpity nawigacyjne klastra wybierz pozycję Widoki systemu Ambari. Po wyświetleniu monitu o uwierzytelnienie użyj nazwy konta logowania klastra (domyślnej admin) i hasła podanego podczas tworzenia klastra. Możesz również przejść do https://CLUSTERNAME.azurehdinsight.net/#/main/views adresu w przeglądarce, gdzie CLUSTERNAME jest nazwą klastra.

  3. Z listy widoków wybierz pozycję Widok programu Hive.

    Apache Ambari select Apache Hive view

    Strona widoku programu Hive jest podobna do poniższej ilustracji:

    Image of the query worksheet for the Hive view

  4. Na karcie Zapytanie wklej następujące instrukcje HiveQL do arkusza:

    DROP TABLE log4jLogs;
    CREATE EXTERNAL TABLE log4jLogs(
        t1 string,
        t2 string,
        t3 string,
        t4 string,
        t5 string,
        t6 string,
        t7 string)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
    STORED AS TEXTFILE LOCATION '/example/data/';
    SELECT t4 AS loglevel, COUNT(*) AS count FROM log4jLogs
        WHERE t4 = '[ERROR]'
        GROUP BY t4;
    

    Te instrukcje wykonują następujące czynności:

    Instrukcja Opis
    DROP TABLE Usuwa tabelę i plik danych, jeśli tabela już istnieje.
    TWORZENIE TABELI ZEWNĘTRZNEJ Tworzy nową tabelę "zewnętrzną" w programie Hive. Tabele zewnętrzne przechowują tylko definicję tabeli w programie Hive. Dane pozostają w oryginalnej lokalizacji.
    FORMAT WIERSZA Pokazuje sposób formatowania danych. W takim przypadku pola w każdym dzienniku są oddzielone spacją.
    PRZECHOWYWANA JAKO LOKALIZACJA PLIKU TEKSTOWEGO Pokazuje, gdzie są przechowywane dane i czy są przechowywane jako tekst.
    SELECT Wybiera liczbę wszystkich wierszy, w których kolumna t4 zawiera wartość [ERROR].

    Ważne

    Pozostaw wartość domyślną wyboru Baza danych. W przykładach w tym dokumencie używana jest domyślna baza danych dołączona do usługi HDInsight.

  5. Aby uruchomić zapytanie, wybierz pozycję Wykonaj poniżej arkusza. Przycisk zmienia kolor pomarańczowy, a tekst zmieni się na Zatrzymaj.

  6. Po zakończeniu zapytania na karcie Wyniki zostaną wyświetlone wyniki operacji. Wynikiem zapytania jest następujący tekst:

    loglevel       count
    [ERROR]        3
    

    Możesz użyć karty DZIENNIK , aby wyświetlić informacje rejestrowania utworzone przez zadanie.

    Porada

    Pobierz lub zapisz wyniki z listy rozwijanej Akcje na karcie Wyniki .

Objaśnienie wizualne

Aby wyświetlić wizualizację planu zapytania, wybierz kartę Visual Explain poniżej arkusza.

Widok Visual Explain zapytania może być pomocny w zrozumieniu przepływu złożonych zapytań.

Interfejs użytkownika aplikacji Tez

Aby wyświetlić interfejs użytkownika aplikacji Tez dla zapytania, wybierz kartę Tez UI poniżej arkusza.

Ważne

Aplikacja Tez nie jest używana do rozwiązywania wszystkich zapytań. Wiele zapytań można rozwiązać bez korzystania z aplikacji Tez.

Wyświetlanie historii zadań

Na karcie Zadania jest wyświetlana historia zapytań Hive.

Apache Hive view jobs tab history

Tabele bazy danych

Za pomocą karty Tabele można pracować z tabelami w bazie danych Programu Hive.

Image of the Apache Hive tables tab

Zapisane zapytania

Na karcie Zapytanie możesz opcjonalnie zapisywać zapytania. Po zapisaniu zapytania można użyć go ponownie na karcie Zapisane zapytania .

Apache Hive views saved queries tab

Porada

Zapisane zapytania są przechowywane w domyślnym magazynie klastra. Zapisane zapytania można znaleźć w ścieżce /user/<username>/hive/scripts. Są one przechowywane jako pliki zwykłego tekstu .hql .

Jeśli usuniesz klaster, ale zachowasz magazyn, możesz użyć narzędzia, takiego jak Eksplorator usługi Azure Storage lub Data Lake Storage Explorer (z witryny Azure Portal), aby pobrać zapytania.

Funkcje zdefiniowane przez użytkownika

Usługę Hive można rozszerzyć za pomocą funkcji zdefiniowanych przez użytkownika (UDF). Użyj funkcji zdefiniowanej przez użytkownika, aby zaimplementować funkcje lub logikę, która nie jest łatwo modelowana w języku HiveQL.

Zadeklaruj i zapisz zestaw funkcji zdefiniowanych przez użytkownika przy użyciu karty UDF w górnej części widoku programu Hive. Tych funkcji zdefiniowanych przez użytkownika można używać z Edytor Power Query.

Apache Hive view UDFs tab display

W dolnej części Edytor Power Query pojawi się przycisk Wstaw udfs. Ten wpis zawiera listę rozwijaną funkcji zdefiniowanych w widoku programu Hive. Wybranie funkcji zdefiniowanej przez użytkownika powoduje dodanie instrukcji HiveQL do zapytania w celu włączenia funkcji zdefiniowanej przez użytkownika.

Jeśli na przykład zdefiniowano funkcję zdefiniowaną przez użytkownika z następującymi właściwościami:

  • Nazwa zasobu: myudfs

  • Ścieżka zasobu: /myudfs.jar

  • Nazwa funkcji zdefiniowanej przez użytkownika: myawesomeudf

  • Nazwa klasy UDF: com.myudfs.Awesome

Przy użyciu przycisku Wstaw u udfs jest wyświetlany wpis o nazwie myudfs z inną listą rozwijaną dla każdego zdefiniowanego dla tego zasobu funkcji zdefiniowanej przez użytkownika. W tym przypadku jest to myawesomeudf. Wybranie tego wpisu powoduje dodanie następującego kodu na początku zapytania:

add jar /myudfs.jar;
create temporary function myawesomeudf as 'com.myudfs.Awesome';

Następnie możesz użyć funkcji zdefiniowanej przez użytkownika w zapytaniu. Na przykład SELECT myawesomeudf(name) FROM people;.

Aby uzyskać więcej informacji na temat używania funkcji zdefiniowanych przez użytkownika z usługą Hive w usłudze HDInsight, zobacz następujące artykuły:

Ustawienia programu Hive

Można zmienić różne ustawienia programu Hive, takie jak zmiana aparatu wykonywania programu Hive z aplikacji Tez (ustawienie domyślne) na MapReduce.

Następne kroki

Aby uzyskać ogólne informacje na temat programu Hive w usłudze HDInsight: