빠른 시작: Azure Portal을 사용하여 Azure HDInsight에서 Apache Hadoop 클러스터 만들기Quickstart: Create Apache Hadoop cluster in Azure HDInsight using Azure portal

이 문서에서는 Azure Portal을 사용하여 HDInsight에서 Apache Hadoop 클러스터를 만든 다음, HDInsight에서 Apache Hive 작업을 실행하는 방법에 대해 알아봅니다.In this article, you learn how to create Apache Hadoop clusters in HDInsight using Azure portal, and then run Apache Hive jobs in HDInsight. Hadoop 작업의 대부분은 배치 작업입니다.Most of Hadoop jobs are batch jobs. 클러스터를 만들고 일부 작업을 실행한 다음 클러스터를 삭제합니다.You create a cluster, run some jobs, and then delete the cluster. 이 문서에서는 세 가지 작업을 모두 수행할 수 있습니다.In this article, you perform all the three tasks. 사용 가능한 구성에 대한 자세한 설명은 HDInsight에서 클러스터 설정을 참조하세요.For in-depth explanations of available configurations, see Set up clusters in HDInsight. 포털을 사용하여 클러스터를 만드는 방법에 대한 자세한 내용은 포털에서 클러스터 만들기를 참조하세요.For more information regarding the use of the portal to create clusters, see Create clusters in the portal.

이 빠른 시작에서는 Azure Portal을 사용하여 HDInsight Hadoop 클러스터를 만듭니다.In this quickstart, you use the Azure portal to create an HDInsight Hadoop cluster. 또한 Azure Resource Manager 템플릿을 사용하여 클러스터를 만들 수 있습니다.You can also create a cluster using the Azure Resource Manager template.

HDInsight에는 현재 서로 다른 7개의 클러스터 유형이 제공됩니다.Currently, HDInsight comes with seven different cluster types. 각 클러스터 유형은 서로 다른 구성 요소 집합을 지원합니다.Each cluster type supports a different set of components. 모든 클러스터 형식은 Hive를 지원합니다.All cluster types support Hive. HDInsight에서 지원되는 구성 요소 목록은 HDInsight에서 제공하는 Apache Hadoop 클러스터 버전의 새로운 기능을 참조하세요.For a list of supported components in HDInsight, see What's new in the Apache Hadoop cluster versions provided by HDInsight?

Azure 구독이 아직 없는 경우 시작하기 전에 체험 계정을 만듭니다.If you don't have an Azure subscription, create a free account before you begin.

Apache Hadoop 클러스터 만들기Create an Apache Hadoop cluster

이 섹션에서는 Azure Portal을 사용하여 HDInsight에서 Hadoop 클러스터를 만듭니다.In this section, you create a Hadoop cluster in HDInsight using the Azure portal.

  1. Azure Portal에 로그인합니다.Sign in to the Azure portal.

  2. 위쪽 메뉴에서 + 리소스 만들기를 선택합니다.From the top menu, select + Create a resource.

    리소스 HDInsight 클러스터 만들기Create a resource HDInsight cluster

  3. 분석 > Azure HDInsight를 차례로 선택하여 HDInsight 클러스터 만들기 페이지로 이동합니다.Select Analytics > Azure HDInsight to go to the Create HDInsight cluster page.

  4. 기본 탭에서 다음 정보를 제공합니다.From the Basics tab, provide the following information:

    속성Property DescriptionDescription
    SubscriptionSubscription 드롭다운 목록에서 클러스터에 사용할 Azure 구독을 선택합니다.From the drop-down list, select the Azure subscription that's used for the cluster.
    Resource groupResource group 드롭다운 목록에서 기존 리소스 그룹을 선택하거나 새로 만들기를 선택합니다.From the drop-down list, select your existing resource group, or select Create new.
    클러스터 이름Cluster name 전역적으로 고유한 이름을 입력합니다.Enter a globally unique name. 이름은 문자, 숫자 및 하이픈을 포함하여 최대 59자로 구성할 수 있습니다.The name can consist of up to 59 characters including letters, numbers, and hyphens. 이름의 첫 번째 및 마지막 문자에는 하이픈을 사용할 수 없습니다.The first and last characters of the name can't be hyphens.
    지역Region 드롭다운 목록에서 클러스터를 만들 지역을 선택합니다.From the drop-down list, select a region where the cluster is created. 성능 향상을 위해 가까운 곳을 선택합니다.Choose a location closer to you for better performance.
    클러스터 유형Cluster type 클러스터 유형 선택을 선택합니다.Select Select cluster type. 그런 다음, 클러스터 유형으로 Hadoop을 선택합니다.Then select Hadoop as the cluster type.
    버전Version 드롭다운 목록에서 버전을 선택합니다.From the drop-down list, select a version. 어떤 버전을 선택할지 잘 모르는 경우 기본 버전을 사용합니다.Use the default version if you don't know what to choose.
    클러스터 로그인 사용자 이름 및 암호Cluster login username and password 기본 로그인 이름은 admin입니다. 암호는 10자 이상이어야 하며, 숫자, 대문자, 소문자 및 영숫자가 아닌 문자(' " ` 문자 제외)를 각각 하나 이상 포함해야 합니다.The default login name is admin. The password must be at least 10 characters in length and must contain at least one digit, one uppercase, and one lower case letter, one non-alphanumeric character (except characters ' " ` ). "Pass@word1"과 같은 일반적인 암호를 제공하지 않았는지 확인합니다.Make sure you do not provide common passwords such as "Pass@word1".
    SSH(보안 셸) 사용자 이름Secure Shell (SSH) username 기본 사용자 이름은 sshuser입니다.The default username is sshuser. SSH 사용자 이름에 다른 이름을 입력할 수 있습니다.You can provide another name for the SSH username.
    SSH에 클러스터 로그인 암호 사용Use cluster login password for SSH 클러스터 로그인 사용자에 대해 입력한 것과 동일한 암호를 SSH 사용자에 사용하려면 이 확인란을 선택합니다.Select this check box to use the same password for SSH user as the one you provided for the cluster login user.

    HDInsight Linux 시작 - 클러스터 기본값 제공HDInsight Linux get started provide cluster basic values

    페이지 맨 아래에서 다음: Storage >> 를 선택하여 스토리지 설정으로 이동합니다.Select the Next: Storage >> to advance to the storage settings.

  5. 스토리지 탭에서 다음 값을 입력합니다.From the Storage tab, provide the following values:

    속성Property DescriptionDescription
    기본 스토리지 유형Primary storage type 기본값 Azure Storage를 사용합니다.Use the default value Azure Storage.
    선택 방법Selection method 기본값 목록에서 선택을 사용합니다.Use the default value Select from list.
    기본 스토리지 계정Primary storage account 드롭다운 목록을 사용하여 기존 스토리지 계정을 선택하거나 새로 만들기를 선택합니다.Use the drop-down list to select an existing storage account, or select Create new. 새 계정을 만드는 경우 이름의 길이가 3~24자여야 하고, 숫자 및 소문자만 포함할 수 있습니다.If you create a new account, the name must be between 3 and 24 characters in length, and can include numbers and lowercase letters only
    컨테이너Container 자동으로 채워진 값을 사용합니다.Use the autopopulated value.

    HDInsight Linux 시작 - 클러스터 스토리지 값 제공HDInsight Linux get started provide cluster storage values

    각 클러스터에는 Azure Storage 계정 또는 Azure Data Lake 계정 종속성이 있습니다.Each cluster has an Azure Storage account or an Azure Data Lake account dependency. 이 스토리지 계정을 기본 스토리지 계정이라고 합니다.It's referred as the default storage account. HDInsight 클러스터와 해당 기본 스토리지 계정은 같은 Azure 지역에 있어야 합니다.HDInsight cluster and its default storage account must be colocated in the same Azure region. 클러스터를 삭제하더라도 스토리지 계정은 삭제되지 않습니다.Deleting clusters doesn't delete the storage account.

    검토 + 만들기 탭을 선택합니다.Select the Review + create tab.

  6. 검토 + 만들기 탭의 이전 단계에서 선택한 값을 확인합니다.From the Review + create tab, verify the values you selected in the earlier steps.

    HDInsight Linux 시작 클러스터 요약HDInsight Linux get started cluster summary

  7. 만들기를 선택합니다.Select Create. 클러스터를 만들려면 20분 정도가 걸립니다.It takes about 20 minutes to create a cluster.

    클러스터가 생성되면 Azure Portal에서 클러스터 개요 페이지가 나타납니다.Once the cluster is created, you see the cluster overview page in the Azure portal.

    HDInsight Linux 시작 클러스터 설정HDInsight Linux get started cluster settings

Apache Hive 쿼리 실행Run Apache Hive queries

Apache Hive 는 HDInsight에서 사용되는 가장 인기 있는 구성 요소입니다.Apache Hive is the most popular component used in HDInsight. HDInsight에서 Hive 작업을 실행하는 방법은 여러 가지가 있습니다.There are many ways to run Hive jobs in HDInsight. 이 빠른 시작에서는 포털의 Ambari Hive 보기를 사용합니다.In this quickstart, you use the Ambari Hive view from the portal. Hive 작업을 제출하는 다른 방법은 HDInsight에서 Hive 사용을 참조하세요.For other methods for submitting Hive jobs, see Use Hive in HDInsight.

참고

HDInsight 4.0에서는 Apache Hive 보기를 사용할 수 없습니다.Apache Hive View is not available in HDInsight 4.0.

  1. 이전 스크린샷에서 Ambari를 열려면 클러스터 대시보드를 선택합니다.To open Ambari, from the previous screenshot, select Cluster Dashboard. https://ClusterName.azurehdinsight.net으로 이동할 수도 있습니다. 여기서 ClusterName은 이전 섹션에서 만든 클러스터입니다.You can also browse to https://ClusterName.azurehdinsight.net where ClusterName is the cluster you created in the previous section.

    HDInsight Linux 시작 클러스터 대시보드HDInsight Linux get started cluster dashboard

  2. 클러스터를 만들 때 지정한 Hadoop 사용자 이름 및 암호를 입력합니다.Enter the Hadoop username and password that you specified while creating the cluster. 기본 사용자 이름은 admin입니다.The default username is admin.

  3. 다음 스크린샷에 표시된 것처럼 Hive 뷰 를 엽니다.Open Hive View as shown in the following screenshot:

    Ambari에서 Hive View 선택Selecting Hive View from Ambari

  4. 쿼리 탭에서 다음 HiveQL 문을 워크시트에 붙여넣습니다.In the QUERY tab, paste the following HiveQL statements into the worksheet:

    SHOW TABLES;
    

    HDInsight Hive View 쿼리 편집기HDInsight Hive View Query Editor

  5. 실행을 선택합니다.Select Execute. 쿼리 탭 아래에 결과 탭이 나타나고 작업에 대한 정보가 표시됩니다.A RESULTS tab appears beneath the QUERY tab and displays information about the job.

    쿼리가 완료되면 쿼리 탭에 작업 결과가 표시됩니다.Once the query has finished, the QUERY tab displays the results of the operation. hivesampletable이라는 테이블이 한 개 표시됩니다.You shall see one table called hivesampletable. 이 샘플 Hive 테이블은 모든 HDInsight 클러스터와 함께 제공됩니다.This sample Hive table comes with all the HDInsight clusters.

    HDInsight Apache Hive 보기 결과HDInsight Apache Hive view results

  6. 4단계 및 5단계를 반복하여 다음 쿼리를 실행합니다.Repeat step 4 and step 5 to run the following query:

    SELECT * FROM hivesampletable;
    
  7. 또한 쿼리 결과를 저장할 수 있습니다.You can also save the results of the query. 오른쪽의 메뉴 단추를 선택하고, 결과를 CSV 파일로 다운로드할 것인지 아니면 클러스터와 연결된 스토리지 계정에 저장할 것인지 지정합니다.Select the menu button on the right, and specify whether you want to download the results as a CSV file or store it to the storage account associated with the cluster.

    Apache Hive 쿼리 결과 저장Save result of Apache Hive query

Hive 작업이 완료되면 결과를 Azure SQL Database 또는 SQL Server 데이터베이스로 내보내고, Excel을 사용하여 결과를 시각화할 수도 있습니다.After you've completed a Hive job, you can export the results to Azure SQL Database or SQL Server database, you can also visualize the results using Excel. HDInsight에서 Hive를 사용하는 방법에 대한 자세한 내용은 샘플 Apache log4j 파일 분석을 위해 HDInsight에서 Apache Hadoop과 함께 Apache Hive 및 HiveQL 사용을 참조하세요.For more information about using Hive in HDInsight, see Use Apache Hive and HiveQL with Apache Hadoop in HDInsight to analyze a sample Apache log4j file.

리소스 정리Clean up resources

빠른 시작을 완료한 후 클러스터를 삭제하는 것이 좋습니다.After you complete the quickstart, you may want to delete the cluster. HDInsight를 사용하면 데이터가 Azure Storage에 저장되기 때문에 클러스터를 사용하지 않을 때 안전하게 삭제할 수 있습니다.With HDInsight, your data is stored in Azure Storage, so you can safely delete a cluster when it isn't in use. HDInsight 클러스터를 사용하지 않는 기간에도 요금이 청구됩니다.You're also charged for an HDInsight cluster, even when it isn't in use. 클러스터에 대한 요금이 스토리지에 대한 요금보다 몇 배 더 많기 때문에, 클러스터를 사용하지 않을 때는 삭제하는 것이 경제적인 면에서 더 합리적입니다.Since the charges for the cluster are many times more than the charges for storage, it makes economic sense to delete clusters when they aren't in use.

참고

HDInsight에서 Hadoop을 사용하여 ETL 작업을 실행하는 방법을 알아보기 위해 다음 문서를 ‘즉시’ 진행하는 경우 클러스터가 실행되도록 유지할 수 있습니다. If you are immediately proceeding to the next article to learn how to run ETL operations using Hadoop on HDInsight, you may want to keep the cluster running. 자습서에서 Hadoop 클러스터를 다시 만들어야 하기 때문입니다.This is because in the tutorial you have to create a Hadoop cluster again. 그러나 다음 문서로 바로 진행하지 않는 경우 이제 클러스터를 삭제해야 합니다.However, if you are not going through the next article right away, you must delete the cluster now.

클러스터와 기본 스토리지 계정을 모두 삭제하거나 또는 그 중에 하나를 삭제하려면To delete the cluster and/or the default storage account

  1. Azure Portal이 있는 브라우저 탭으로 돌아갑니다.Go back to the browser tab where you have the Azure portal. 그러면 클러스터 개요 페이지가 표시됩니다.You shall be on the cluster overview page. 클러스터는 삭제하지만 기본 스토리지 계정은 유지하려는 경우 삭제를 선택합니다.If you only want to delete the cluster but retain the default storage account, select Delete.

    Azure HDInsight 삭제 클러스터Azure HDInsight delete cluster

  2. 클러스터와 기본 스토리지 계정을 삭제하려는 경우 리소스 그룹 이름(이전 스크린샷에서 강조 표시됨)을 선택하여 리소스 그룹 페이지를 엽니다.If you want to delete the cluster as well as the default storage account, select the resource group name (highlighted in the previous screenshot) to open the resource group page.

  3. 리소스 그룹 삭제를 선택하여 클러스터와 기본 스토리지 계정을 포함하는 리소스 그룹을 삭제합니다.Select Delete resource group to delete the resource group, which contains the cluster and the default storage account. 리소스 그룹을 삭제하면 스토리지 계정이 삭제됩니다.Note deleting the resource group deletes the storage account. 스토리지 계정을 유지하려면 클러스터만 삭제하세요.If you want to keep the storage account, choose to delete the cluster only.

다음 단계Next steps

이 빠른 시작에서는 Resource Manager 템플릿을 사용하여 Linux 기반 HDInsight 클러스터를 만들고, 기본 Hive 쿼리를 수행하는 방법을 알아보았습니다.In this quickstart, you learned how to create a Linux-based HDInsight cluster using a Resource Manager template, and how to perform basic Hive queries. 다음 문서에서는 HDInsight의 Hadoop을 사용하여 ETL(추출, 변환 및 로드) 작업을 수행하는 방법을 알아봅니다.In the next article, you learn how to perform an extract, transform, and load (ETL) operation using Hadoop on HDInsight.