데이터 흐름에서 AI 사용AI with dataflows

이 문서에서는 데이터 흐름에서 AI(인공 지능)를 사용하는 방법을 설명합니다.In this article we discuss ways you can use artificial intelligence (AI) with dataflows. 이 문서에서 설명하는 영역은 다음과 같습니다.The areas described in this article are the following:

  • Cognitive ServicesCognitive Services
  • 자동화된 Machine LearningAutomated Machine Learning
  • Azure Machine Learning 통합Azure Machine Learning Integration

Power BI의 Cognitive ServicesCognitive Services in Power BI

Power BI에서 Cognitive Services를 사용하면 Azure Cognitive Services의 다양한 알고리즘을 적용하여 데이터 흐름을 위한 셀프 서비스 데이터 준비에서 데이터를 보강할 수 있습니다.With Cognitive Services in Power BI, you can apply different algorithms from Azure Cognitive Services to enrich your data in the self-service data prep for Dataflows.

현재 지원되는 서비스는 감정 분석, 핵심 구 추출, 언어 감지이미지 태그 지정입니다.The services that are supported today are Sentiment Analysis, Key Phrase Extraction, Language Detection, and Image Tagging. 변환은 Power BI 서비스에서 실행되므로 Azure Cognitive Services 구독이 필요하지 않습니다.The transformations are executed on the Power BI Service and do not require an Azure Cognitive Services subscription. 이 기능을 사용하려면 Power BI Premium이 필요합니다.This feature requires Power BI Premium.

AI 기능 사용Enabling AI features

Cognitive Services는 프리미엄 용량 노드 EM2, A2 또는 P1 이상에 지원됩니다.Cognitive services are supported for Premium capacity nodes EM2, A2, or P1 and above. 용량의 별도 AI 워크로드가 Cognitive Services를 실행하는 데 사용됩니다.A separate AI workload on the capacity is used to run cognitive services. 공개 미리 보기 기간(2019년 6월 이전)에는 기본적으로 이 워크로드가 사용되지 않도록 설정되어 있습니다.During public preview (prior to June 2019), this workload was disabled by default. Power BI에서 Cognitive Services를 사용하려면 먼저 관리 포털의 용량 설정에서 AI 워크로드를 사용하도록 설정해야 합니다.Before using cognitive services in Power BI, the AI workload needs to be enabled in the capacity settings of the admin portal. 워크로드 섹션에서 AI 워크로드를 설정하고 이 워크로드가 사용하도록 할 최대 메모리 양을 정의할 수 있습니다.You can turn on the AI workload in the workloads section, and define the maximum amount of memory you would like this workload to consume. 권장되는 메모리 제한율은 20%입니다.The recommended memory limit is 20%. 이 제한을 초과하면 쿼리 속도가 저하됩니다.Exceeding this limit causes the query to slow down.

Power BI에서 Cognitive Services 사용

Power BI에서 Cognitive Services 시작하기Getting started with Cognitive Services in Power BI

Cognitive Services 변환은 데이터 흐름을 위한 셀프 서비스 데이터 준비의 일부입니다.Cognitive Services transforms are part of the Self-Service Data Prep for dataflows. Cognitive Services를 사용하여 데이터를 보강하려면 데이터 흐름을 편집하여 시작합니다.To enrich your data with Cognitive Services, start by editing a dataflow.

데이터 흐름 편집

파워 쿼리 편집기의 위쪽 리본에서 AI 인사이트 단추를 선택합니다.Select the AI Insights button in the top ribbon of Power Query Editor.

파워 쿼리 편집기의 AI 인사이트

팝업 창에서 사용할 함수 및 변환할 데이터를 선택합니다.In the pop-up window, select the function you want to use and the data you want to transform. 이 예제에서는 리뷰 텍스트가 포함된 열의 감정에 대해 점수를 매기려고 합니다.In this example, I'm scoring the sentiment of a column that contains review text.

함수 선택

Cultureinfo 는 텍스트 언어를 지정하는 선택적 입력입니다.Cultureinfo is an optional input to specify the language of the text. 이 필드에는 ISO 코드를 사용해야 합니다.This field is expecting an ISO code. Cultureinfo 또는 정적 필드에 대한 입력으로 열을 사용할 수 있습니다.You can use a column as input for Cultureinfo, or a static field. 이 예제에서는 전체 열의 언어가 영어(en)로 지정됩니다.In this example, the language is specified as English (en) for the whole column. 이 필드를 비워 두면 Power BI가 함수를 적용하기 전에 자동으로 언어를 감지합니다.If you leave this field blank, Power BI automatically detects the language before applying the function. 그런 다음, 호출 을 선택합니다.Next, select Invoke.

호출 선택

함수를 호출하면 결과가 테이블에 새 열로 추가됩니다.After invoking the function, the result is added as a new column to the table. 변환도 쿼리의 적용 단계로 추가됩니다.The transformation is also added as an applied step in the query.

새 열이 만들어짐

함수가 여러 출력 필드를 반환하는 경우 함수를 호출하면 여러 출력 필드가 포함된 하나의 레코드가 있는 새 열 하나를 추가합니다.If the function returns multiple output fields, invoking the function adds a new column with a record of the multiple output fields.

값을 하나 또는 둘 다 열로 데이터에 추가하려면 확장 옵션을 사용합니다.Use the expand option to add one or both values as columns to your data.

열 확장

사용 가능한 함수Available functions

이 섹션에서는 Power BI에서 사용할 수 있는 Cognitive Services의 함수를 설명합니다.This section describes the available functions in Cognitive Services in Power BI.

언어 감지Detect Language

언어 감지 함수는 텍스트 입력을 평가하고 각 필드의 언어 이름 및 ISO 식별자를 반환합니다.The language detection function evaluates text input, and for each field, returns the language name and ISO identifier. 이 함수는 언어가 알려지지 않은, 임의 텍스트를 수집하는 데이터 열에 유용합니다.This function is useful for data columns that collect arbitrary text, where language is unknown. 이 함수에는 텍스트 형식의 데이터가 입력으로 사용되어야 합니다.The function expects data in text format as input.

Text Analytics에서는 최대 120개의 언어를 인식합니다.Text Analytics recognizes up to 120 languages. 자세한 내용은 지원되는 언어를 참조하세요.For more information, see supported languages.

핵심 구 추출Extract Key Phrases

핵심 구 추출 함수는 비구조적 텍스트를 평가하여 각 텍스트 필드의 핵심 구 목록을 반환합니다.The Key Phrase Extraction function evaluates unstructured text, and for each text field, returns a list of key phrases. 함수는 입력으로 텍스트 필드가 있어야 하며 Cultureinfo 에 대한 선택적 입력을 허용합니다.The function requires a text field as input, and accepts an optional input for Cultureinfo. 이 문서 앞부분에 있는 시작하기 섹션을 참조하세요.(See the Getting Started section earlier in this article).

핵심 구 추출은 작업하도록 제공하는 텍스트 청크의 크기가 더 큰 경우 가장 효과적으로 이루어집니다.Key phrase extraction works best when you give it bigger chunks of text to work on. 이와는 대조적으로 감정 분석은 텍스트 블록 크기가 작을수록 더 잘 수행됩니다.This is opposite from sentiment analysis, which performs better on smaller blocks of text. 두 작업 모두에서 최상의 결과를 얻으려면 적절하게 입력을 재구성하는 것을 고려해보세요.To get the best results from both operations, consider restructuring the inputs accordingly.

감정 점수 매기기Score Sentiment

감정 점수 매기기 함수는 텍스트 입력을 평가하고 각 문서에 대해 0(부정)에서 1(긍정)까지의 감정 점수를 반환합니다.The Score Sentiment function evaluates text input and returns a sentiment score for each document, ranging from 0 (negative) to 1 (positive). 이 함수는 소셜 미디어, 고객 리뷰 및 토론 포럼에서 긍정적 감정과 부정적 감정을 감지하는 데 유용합니다.This function is useful for detecting positive and negative sentiment in social media, customer reviews, and discussion forums.

Text Analytics는 기계 학습 분류 알고리즘을 사용하여 0에서 1 사이의 감정 점수를 생성합니다.Text Analytics uses a machine learning classification algorithm to generate a sentiment score between 0 and 1. 1에 가까운 점수는 긍정적 감정을 나타내고, 0에 가까운 점수는 부정적 감정을 나타냅니다.Scores closer to 1 indicate positive sentiment, scores closer to 0 indicate negative sentiment. 모델은 감정 연결을 사용하여 광범위한 텍스트 본문을 미리 학습한 상태입니다.The model is pre-trained with an extensive body of text with sentiment associations. 현재, 고유한 학습 데이터를 제공하는 것은 불가능합니다.Currently, it's not possible to provide your own training data. 모델은 텍스트 분석 중에 텍스트 처리, 품사 분석, 단어 배치, 단어 연결 등이 조합된 다양한 기술을 사용합니다.The model uses a combination of techniques during text analysis, including text processing, part-of-speech analysis, word placement, and word associations. 알고리즘에 대한 자세한 내용은 Text Analytics 소개를 참조하세요.For more information about the algorithm, see Introducing Text Analytics.

감정 분석은 전체 입력 필드에서 수행되는 반면, 감정 추출은 텍스트의 특정 엔터티에 대해 수행됩니다.Sentiment analysis is performed on the entire input field, as opposed to extracting sentiment for a particular entity in the text. 실제로 문서에 크기가 큰 텍스트 블록이 아닌, 한 개 또는 두 개의 문장이 포함된 경우 점수 매기기 정확도가 향상되는 경향이 있습니다.In practice, there's a tendency for scoring accuracy to improve when documents contain one or two sentences rather than a large block of text. 객관성 평가 단계에서는 하나의 입력 필드 전체가 객관적인지 감정이 포함되어 있는지를 모델이 결정합니다.During an objectivity assessment phase, the model determines whether an input field as a whole is objective or contains sentiment. 대부분 객관적인 입력 필드는 감정 감지 단계로 진행되지 않으며 추가 처리 없이 .50 점수를 받습니다.An input field that is mostly objective does not progress to the sentiment detection phrase, resulting in a .50 score, with no further processing. 파이프라인에서 계속 진행되는 입력 필드는 입력 필드에서 감지된 감정의 정도에 따라 .50을 초과 또는 미달하는 점수를 다음 단계에서 생성합니다.For input fields continuing in the pipeline, the next phase generates a score above or below .50, depending on the degree of sentiment detected in the input field.

현재는 영어, 독일어, 스페인어 및 프랑스어가 감정 분석에서 지원됩니다.Currently, Sentiment Analysis supports English, German, Spanish, and French. 다른 언어는 미리 보기 상태입니다.Other languages are in preview. 자세한 내용은 지원되는 언어를 참조하세요.For more information, see Supported languages.

이미지 태그 지정Tag Images

이미지 태그 지정 함수는 2,000개가 넘는 인식할 수 있는 사물, 생물, 경치 및 동작을 기준으로 태그를 반환합니다.The Tag Images function returns tags based on more than 2,000 recognizable objects, living beings, scenery, and actions. 태그가 모호하거나 누구나 알 수 있는 것이 아닌 경우 출력은 알려진 설정의 컨텍스트에서 태그의 의미를 명확히 설명하는 ‘힌트’를 제공합니다.When tags are ambiguous or not common knowledge, the output provides 'hints' to clarify the meaning of the tag in context of a known setting. 태그는 분류로 구성되지 않으며 상속 계층 구조가 존재하지 않습니다.Tags are not organized as a taxonomy and no inheritance hierarchies exist. 콘텐츠 태그 컬렉션은 완전한 문장으로 작성되고, 사람이 읽을 수 있는 언어로 표시되는 이미지 ‘설명’의 토대가 됩니다.A collection of content tags forms the foundation for an image 'description' displayed as human readable language formatted in complete sentences.

이미지를 업로드하거나 이미지 URL을 지정하면 Computer Vision 알고리즘이 이미지에서 식별된 사물, 생물 및 동작을 기준으로 태그를 출력합니다.After uploading an image or specifying an image URL, Computer Vision algorithms output tags based on the objects, living beings, and actions identified in the image. 태그 지정은 주요 대상(예: 전경에 있는 인물)으로 제한되지 않으며 설정(실내 또는 옥외), 가구, 도구, 식물, 동물, 액세서리, 장치 등도 포함합니다.Tagging is not limited to the main subject, such as a person in the foreground, but also includes the setting (indoor or outdoor), furniture, tools, plants, animals, accessories, gadgets, and so on.

이 함수는 입력으로 이미지 URL 또는 Base 64 필드가 필요합니다.This function requires an image URL or abase-64 field as input. 현재, 이미지 태그 지정에서는 영어, 스페인어, 일본어, 포르투갈어 및 중국어 간체가 지원됩니다.At this time, image tagging supports English, Spanish, Japanese, Portuguese, and Simplified Chinese. 자세한 내용은 지원되는 언어를 참조하세요.For more information, see Supported languages.

Power BI의 자동화된 Machine LearningAutomated Machine Learning in Power BI

데이터 흐름의 AutoML(자동화된 Machine Learning)을 사용하면 비즈니스 분석가가 Power BI에서 직접 ML(Machine Learning) 모델을 학습하고, 유효성을 검사하고, 호출할 수 있습니다.Automated machine learning (AutoML) for dataflows enables business analysts to train, validate, and invoke Machine Learning (ML) models directly in Power BI. 분석가가 데이터 흐름을 사용하여 모델 학습을 위한 입력 데이터를 지정할 수 있는 새로운 ML 모델을 만들기 위한 간단한 환경이 포함되어 있습니다.It includes a simple experience for creating a new ML model where analysts can use their dataflows to specify the input data for training the model. 서비스는 가장 관련성이 높은 기능을 자동으로 추출하고, 적절한 알고리즘을 선택하며, ML 모델의 유효성을 검사합니다.The service automatically extracts the most relevant features, selects an appropriate algorithm, and tunes and validates the ML model. 모델을 학습한 후에는 Power BI에서 유효성 검사 결과가 포함된 성능 보고서를 자동으로 생성합니다.After a model is trained, Power BI automatically generates a performance report that includes the results of the validation. 그런 다음 데이터 흐름 내의 새 데이터 또는 업데이트된 데이터에 대해 모델을 호출할 수 있습니다.The model can then be invoked on any new or updated data within the dataflow.

기계 학습 화면

자동화된 Machine Learning은 Power BI Premium에서 호스트되는 데이터 흐름 및 Embedded 용량에 대해서만 사용할 수 있습니다.Automated machine learning is available for dataflows that are hosted on Power BI Premium and Embedded capacities only.

AutoML 작업Working with AutoML

데이터 흐름은 빅 데이터를 위한 셀프 서비스 데이터 준비를 제공합니다.Dataflows offer self-serve data prep for big data. AutoML은 데이터 흐름에 통합되며, Power BI 내에서 바로 기계 학습 모델을 빌드하기 위해 데이터 준비 작업을 활용할 수 있게 해줍니다.AutoML is integrated into dataflows and enables you to leverage your data prep effort for building machine learning models, right within Power BI.

Power BI의 AutoML을 사용하면 데이터 분석가가 Power BI 기술만 사용하여 간소화된 환경에서 데이터 흐름를 사용해 기계 학습 모델을 빌드할 수 있습니다.AutoML in Power BI enables data analysts to use dataflows to build machine learning models with a simplified experience, using just Power BI skills. ML 모델 생성의 기반이 되는 데이터 과학은 대부분 Power BI를 통해 자동화됩니다.Most of the data science behind the creation of the ML models is automated by Power BI. 우수한 품질의 모델이 생성되도록 하고, ML 모델을 만드는 데 사용되는 프로세스를 확인할 수 있게 해주는 기능이 있습니다.It has guardrails to ensure that the model produced has good quality and provides visibility into the process used to create your ML model.

AutoML은 데이터 흐름에 대한 이진 예측, 분류회귀 모델 생성을 지원합니다.AutoML supports the creation of Binary Prediction, Classification, and Regression Models for dataflows. 이러한 감독된 기계 학습 기술 유형은 이전 관찰에서 알려진 결과를 학습하여 다른 관찰의 결과를 예측할 수 있음을 의미합니다.These are types of supervised machine learning techniques, which means that they learn from the known outcomes of past observations to predict the outcomes of other observations. AutoML 모델 학습을 위한 입력 데이터 세트는 알려진 결과로 레이블이 지정된 레코드 집합입니다.The input dataset for training an AutoML model is a set of records that are labeled with the known outcomes.

Power BI의 AutoML은 Azure Machine Learning자동화된 ML을 통합하여 ML 모델을 만듭니다.AutoML in Power BI integrates automated ML from Azure Machine Learning to create your ML models. 그러나 Power BI에서 AutoML을 사용하기 위해 Azure 구독이 필요하지는 않습니다.However, you don't need an Azure subscription to use AutoML in Power BI. ML 모델을 학습 및 호스팅하는 프로세스는 전적으로 Power BI 서비스에 의해 관리됩니다.The process of training and hosting the ML models is managed entirely by the Power BI service.

ML 모델을 학습한 후 AutoML은 ML 모델의 성능에 대해 설명하는 Power BI 보고서를 자동으로 생성합니다.After an ML model is trained, AutoML automatically generates a Power BI report that explains the likely performance of your ML model. AutoML은 사용자 입력 중 모델에서 반환되는 예측에 영향을 주는 주요 영향 요인을 강조 표시하여 설명 기능을 강조합니다.AutoML emphasizes explainability by highlighting the key influencers among your inputs that influence the predictions returned by your model. 보고서에는 모델의 주요 메트릭도 포함됩니다.The report also includes key metrics for the model.

생성된 보고서의 다른 페이지에는 모델의 통계 요약과 학습 정보가 표시됩니다.Other pages of the generated report show the statistical summary of the model and the training details. 통계 요약은 모델 성능에 대한 표준 데이터 과학 측정값을 보려는 사용자에게 중요합니다.The statistical summary is of interest to users who would like to see the standard data science measures of model performance. 학습 세부 정보에는 모델을 만들기 위해 실행된 모든 반복이 연결된 모델링 매개 변수와 함께 요약되어 있습니다.The training details summarize all the iterations that were run to create your model, with the associated modeling parameters. 또한 각 입력이 ML 모델을 만드는 데 사용된 방법도 설명합니다.It also describes how each input was used to create the ML model.

그런 다음 점수 매기기를 위해 ML 모델을 데이터에 적용할 수 있습니다.You can then apply your ML model to your data for scoring. 데이터 흐름을 새로 고치면 ML 모델의 예측으로 데이터가 업데이트됩니다.When the dataflow is refreshed, your data is updated with predictions from your ML model. Power BI는 ML 모델이 생성하는 각 특정 예측에 대해 개별 설명도 포함합니다.Power BI also includes an individualized explanation for each specific prediction that the ML model produces.

기계 학습 모델 만들기Creating a machine learning model

이 섹션에서는 AutoML 모델을 만드는 방법을 설명합니다.This section describes how to create an AutoML model.

ML 모델을 만들기 위한 데이터 준비Data prep for creating an ML model

Power BI에서 기계 학습 모델을 만들려면 먼저 ML 모델 학습에 사용되는 기록 결과 정보를 포함하는 데이터의 데이터 흐름을 만들어야 합니다.To create a machine learning model in Power BI, you must first create a dataflow for the data containing the historical outcome information, which is used for training the ML model. 또한 예측하려는 결과에 대해 강력한 예측 변수일 수 있는 모든 비즈니스 메트릭에 대해 계산 열을 추가해야 합니다.You should also add calculated columns for any business metrics that may be strong predictors for the outcome you're trying to predict. 데이터 흐름을 구성하는 방법에 관한 자세한 내용은 데이터 흐름 구성 및 사용을 참조하세요.For details on configuring your dataflow, see configure and consume a dataflow.

AutoML에는 기계 학습 모델을 학습하기 위한 특정 데이터 요구 사항이 있습니다.AutoML has specific data requirements for training a machine learning model. 이러한 요구 사항은 아래 섹션에 각 모델 유형에 따라 설명되어 있습니다.These requirements are described in sections below, based on respective model types.

ML 모델 입력 구성Configuring the ML model inputs

AutoML 모델을 만들려면 데이터 흐름 엔터티의 작업 열에서 ML 아이콘을 선택한 다음, 기계 학습 모델 추가 를 선택합니다.To create an AutoML model, select the ML icon in the Actions column of the dataflow entity, and select Add a machine learning model.

기계 학습 모델 추가

ML 모델을 만드는 과정을 안내하는 마법사로 구성된 간소화된 환경이 시작됩니다.A simplified experience is launched, consisting of a wizard that guides you through the process of creating the ML model. 이 마법사는 다음과 같은 간단한 단계를 포함합니다.The wizard includes the following simple steps.

1. 기록 데이터를 포함하는 엔터티와 예측하려는 결과 필드 선택1. Select the entity with the historical data, and the outcome field for which you want a prediction

결과 필드는 다음 이미지와 같이 ML 모델 학습에 사용되는 레이블 특성을 나타냅니다.The outcome field identifies the label attribute for training the ML model, shown in the following image.

기록 결과 데이터 선택

2. 모델 유형 선택2. Choose a model type

결과 필드를 지정하면 AutoML에서 레이블 데이터를 분석하여 가장 학습 가능성이 높은 ML 모델 유형을 제안합니다.When you specify the outcome field, AutoML analyzes the label data to recommend the most likely ML model type that can be trained. “다른 모델 선택”을 클릭하면 아래와 같은 다른 모델 유형을 선택할 수 있습니다.You can pick a different model type as shown below by clicking on “Select a different model”.

모델 선택

참고

일부 모델 유형은 선택한 데이터에 대해 지원되지 않을 수 있으며, 사용하지 않도록 설정됩니다.Some model types may not be supported for the data that you have selected and hence would be disabled. 위 예제에서는 텍스트 열이 결과 필드로 선택되었기 때문에 회귀를 사용할 수 없습니다.In the above example, Regression is disabled, as a text column is selected as outcome field.

3. 모델에서 예측 신호로 사용할 입력 선택3. Select the inputs you want the model to use as predictive signals

AutoML은 선택한 엔터티 샘플을 분석하여 ML 모델 학습에 사용할 수 있는 입력을 제안합니다.AutoML analyzes a sample of the selected entity to suggest the inputs that can be used for training the ML model. 선택하지 않은 필드 옆에는 설명이 제공됩니다.Explanations would be provided next to fields that are not selected. 특정 필드에 고유 값이 너무 많거나, 값이 하나뿐이거나, 출력 필드와 상관 관계가 낮거나 높은 경우에는 제안되지 않습니다.If a particular field has too many distinct values or only one value, or low or high correlation with the output field, it would not be recommended.

결과 필드(또는 레이블 필드)에 따라 달라지는 입력은 성능에 영향을 주므로 ML 모델 학습에 사용하면 안 됩니다.Any inputs that are dependent on the outcome field (or the label field) should not be used for training the ML model, since they will affect its performance. 해당 필드는 “출력 필드와 비정상적으로 높은 상관 관계”가 있는 것으로 플래그가 지정됩니다.Such fields would be flagged as having “suspiciously high correlation with output field”. 이러한 필드를 학습 데이터에 도입하면 레이블이 유출되어, 유효성 검사나 테스트 데이터에서는 모델 성능이 좋지만 채점을 위해 프로덕션에서 사용할 때는 해당 성능을 얻을 수 없습니다.Introducing these fields into the training data causes label leakage, where the model performs well on the validation or test data but cannot match that performance when used in production for scoring. 모델 학습 성능이 믿을 수 없을 정도로 좋을 경우, 레이블 유출은 AutoML 모델에서 문제가 될 수 있습니다.Label leakage could be a possible concern in AutoML models, when training model performance is too good to be true.

이 기능 권장 사항은 데이터 샘플을 기반으로 하므로 사용된 입력을 검토해야 합니다.This feature recommendation is based on a sample of a data, so you should review the inputs used. 모델에서 학습할 필드만 포함되도록 선택 항목을 변경할 수 있습니다.You have the option to change the selections to include only the fields you want the model to study. 엔터티 이름 옆에 있는 확인란을 선택하여 모든 필드를 선택할 수도 있습니다.You can also select all the fields by selecting the checkbox next to the entity name.

입력 필드 사용자 지정

4. 모델 이름 지정 및 구성 저장4. Name your model and save your configuration

최종 단계에서는 모델 이름을 지정하고 저장 및 학습을 선택하여 ML 모델 학습을 시작할 수 있습니다.In the final step, you can name the model and select Save and train which begins training the ML model. 빠른 결과를 확인하기 위해 학습 시간을 줄이거나, 최상의 모델을 얻기 위해 학습 시간을 늘릴 수 있습니다.You can choose to reduce the training time to see quick results or increase the amount of time spent in training to get the best model.

모델 이름 지정

ML 모델 학습ML model training

AutoML 모델 학습은 데이터 흐름 새로 고침의 일부입니다.Training of AutoML models is a part of the dataflow refresh. AutoML은 먼저 학습을 위해 데이터를 준비합니다.AutoML first prepares your data for training. AutoML은 제공된 기록 데이터를 학습 및 테스트 데이터 세트로 분할합니다.AutoML splits the historical data you provide into training and testing datasets. 테스트 데이터 세트는 학습 후 모델 성능의 유효성을 검사하는 데 사용되는 홀드아웃 집합입니다.The test dataset is a holdout set that is used for validating the model performance after training. 이들은 데이터 흐름에서 학습 및 테스트 엔터티로 실현됩니다.These are realized as Training and Testing entities in the dataflow. AutoML은 모델 유효성 검사에 교차 유효성 검사를 사용합니다.AutoML uses cross-validation for the model validation.

그런 다음 각 입력 필드를 분석하고 대체를 적용하여 누락된 값을 대체된 값으로 바꿉니다.Next, each input field is analyzed and imputation is applied, which replaces any missing values with substituted values. AutoML에서는 몇 가지 대체 전략을 사용합니다.A couple of different imputation strategies are used by AutoML. 숫자 기능으로 취급되는 입력 특성의 경우 열 값의 평균이 대체에 사용됩니다.For input attributes treated as numeric features, the mean of the column values is used for imputation. 범주 기능으로 취급되는 입력 특성의 경우 AutoML은 열 값의 모드를 대체에 사용합니다.For input attributes treated as categorical features, AutoML uses the mode of the column values for imputation. 대체에 사용되는 값 평균과 모드는 하위 샘플링된 학습 데이터 세트에서 AutoML 프레임워크를 통해 계산됩니다.The mean and mode of values used for imputation are calculated by the AutoML framework on the subsampled training dataset.

그런 다음, 필요에 따라 샘플링 및 정규화가 데이터에 적용됩니다.Then, sampling and normalization are applied to your data as required. 분류 모델의 경우, AutoML은 층화된 샘플링을 통해 입력 데이터를 실행하고 클래스의 균형을 조정하여 행 수가 모두 같도록 합니다.For classification models, AutoML runs the input data through stratified sampling and balances the classes to ensure the row counts are equal for all.

AutoML은 데이터 형식 및 통계 속성에 따라 선택한 각 입력 필드에 여러 변환을 적용합니다.AutoML applies several transformations on each selected input field based on its data type, and its statistical properties. AutoML은 이러한 변환을 사용하여 ML 모델 학습에 사용할 기능을 추출합니다.AutoML uses these transformations to extract features for use in training your ML model.

AutoML 모델에 대한 학습 프로세스는 최상의 성능을 가진 모델을 찾기 위해 다양한 모델링 알고리즘 및 하이퍼 매개 변수 설정을 사용하는 최대 50회 반복으로 구성됩니다.The training process for AutoML models consists of up to 50 iterations with different modeling algorithms and hyperparameter settings to find the model with the best performance. AutoML에서 관찰된 성능 향상이 없다고 알리면 반복 횟수를 줄여 학습이 조기 종료될 수 있습니다.Training can end early with lesser iterations if AutoML notices that there is no performance improvement being observed. 이러한 각 모델의 성능은 홀드아웃 테스트 데이터 세트를 사용하여 유효성 검사를 통해 평가됩니다.The performance of each of these models is assessed by validation with the holdout test dataset. 이 학습 단계 중 AutoML은 이러한 반복의 학습 및 유효성 검사를 위한 여러 파이프라인을 만듭니다.During this training step, AutoML creates several pipelines for training and validation of these iterations. 모델 성능을 평가하는 프로세스는 데이터 세트 크기 및 사용 가능한 용량 리소스에 따라 몇 분에서 몇 시간 또는 마법사를 통해 구성된 학습 시간까지 걸릴 수 있습니다.The process of assessing the performance of the models can take time, anywhere from several minutes to a couple of hours up-to the training time configured in the wizard, depending on the size of your dataset and the capacity resources available.

경우에 따라 생성되는 최종 모델은 여러 모델을 사용하여 더 나은 예측 성능을 제공하는 앙상블 학습을 사용할 수 있습니다.In some cases, the final model generated may use ensemble learning, where multiple models are used to deliver better predictive performance.

AutoML 모델 설명성AutoML model explainability

모델을 학습한 후 AutoML은 입력 기능과 모델 출력 간의 관계를 분석합니다.After the model has been trained, AutoML analyzes the relationship between the input features and the model output. 각 입력 기능의 홀드아웃 테스트 데이터 세트에 대한 모델 출력의 변화 크기를 평가합니다.It assesses the magnitude of change to the model output for the holdout test dataset for each input feature. 이를 기능 중요도 라고 합니다.This is known as the feature importance. 이 작업은 학습이 완료된 후 새로 고침 중에 수행됩니다.This happens as a part of the refresh once training is complete. 따라서 새로 고침이 마법사에서 구성된 학습 시간보다 더 오래 걸릴 수도 있습니다.Hence your refresh may take longer than the training time configured in the wizard.

기능 중요도

AutoML 모델 보고서AutoML model report

AutoML은 전역 기능 중요도와 함께 유효성 검사 중 모델의 성능을 요약하는 Power BI 보고서를 생성합니다.AutoML generates a Power BI report that summarizes the performance of the model during validation, along with the global feature importance. 이 보고서는 데이터 흐름 새로 고침이 성공한 후에 Machine Learning 모델 탭에서 액세스할 수 있습니다.This report can be accessed from the Machine Learning Model tab once the dataflow refresh is successful. 이 보고서에는 ML 모델을 홀드아웃 테스트 데이터에 적용하고 예측을 알려진 결과 값과 비교한 결과가 요약되어 있습니다.The report summarizes the results from applying the ML model to the holdout test data and comparing the predictions with the known outcome values.

모델 보고서를 검토하여 성능을 파악할 수 있습니다.You can review the model report to understand its performance. 또한 모델의 주요 영향 요인에 대한 유효성을 검사하여 알려진 결과에 대한 비즈니스 인사이트에 맞출 수 있습니다.You can also validate that the key influencers of the model align with the business insights about the known outcomes.

보고서의 모델 성능을 설명하는 데 사용되는 차트와 측정값은 모델 유형에 따라 달라집니다.The charts and measures used to describe the model performance in the report depend on the model type. 이러한 성능 차트와 측정값에 대해서는 다음 섹션에서 설명합니다.These performance charts and measures are described in the following sections.

보고서의 추가 페이지는 데이터 과학 관점에서 모델에 대한 통계 측정값을 설명할 수 있습니다.Additional pages in the report may describe statistical measures about the model from a data science perspective. 예를 들어 이진 예측 보고서에는 모델에 대한 게인 차트와 ROC 곡선이 포함되어 있습니다.For instance, the Binary Prediction report includes a gain chart and the ROC curve for the model.

또한 보고서에는 모델이 학습된 방법에 대한 설명이 포함된 학습 세부 정보 페이지와 실행된 각 반복에 대해 모델 성능을 설명하는 차트가 있습니다.The reports also include a Training Details page that includes a description of how the model was trained, and a chart describing the model performance over each of the iterations run.

학습 세부 정보

이 페이지의 다른 섹션에서는 누락된 값을 채우는 데 사용되는 대체 방법과 입력 필드의 검색된 유형을 설명합니다.Another section on this page describes the detected type of the input field and imputation method used for filling missing values. 또한 최종 모델에 사용되는 매개 변수도 포함합니다.It also includes the parameters used by the final model.

모델에 대한 자세한 정보

생성된 모델에서 앙상블 학습을 사용하는 경우, 학습 세부 정보 페이지에는 앙상블에 포함된 각 구성 모델의 가중치와 해당 매개 변수를 보여 주는 차트도 있습니다.If the model produced uses ensemble learning, then the Training Details page also includes a chart showing the weight of each constituent model in the ensemble, as well as its parameters.

앙상블 가중치

AutoML 모델 적용Applying the AutoML model

만들어진 ML 모델의 성능에 만족하는 경우 데이터 흐름을 새로 고치면 새 데이터 또는 업데이트된 데이터에 적용할 수 있습니다.If you're satisfied with the performance of the ML model created, you can apply it to new or updated data when your dataflow is refreshed. 모델 보고서에서 오른쪽 위에 있는 적용 단추를 선택하거나, Machine Learning 모델 탭에서 작업 아래에 있는 ML 모델 적용 단추를 선택하면 됩니다.You can do this from the model report, by selecting the Apply button in the top-right corner or the Apply ML Model button under actions in the Machine Learning Models tab.

ML 모델을 적용하려면 해당 모델을 적용해야 하는 엔터티의 이름과 모델 출력에서 이 엔터티에 추가될 열에 대한 접두사를 지정해야 합니다.To apply the ML model, you must specify the name of the entity to which it must be applied, and a prefix for the columns that will be added to this entity for the model output. 열 이름에 대한 기본 접두사는 모델 이름입니다.The default prefix for the column names is the model name. 적용 함수는 모델 유형과 관련된 추가 매개 변수를 포함할 수 있습니다.The Apply function may include additional parameters specific to the model type.

ML 모델을 적용하면 출력 엔터티에서 채점되는 각 행에 대한 예측 및 개별적인 설명이 포함된 두 개의 새 데이터 흐름 엔터티가 생성됩니다.Applying the ML model creates two new dataflow entities which contains the predictions and individualized explanations for each row that it scores in the output entity. 예를 들어 OnlineShoppers 엔터티에 PurchaseIntent 모델을 적용하면 출력에 OnlineShoppers enriched PurchaseIntentOnlineShoppers enriched PurchaseIntent explanations 가 생성됩니다.For instance, if you apply the PurchaseIntent model to the OnlineShoppers entity, the output will generate the OnlineShoppers enriched PurchaseIntent and OnlineShoppers enriched PurchaseIntent explanations entities. 보강 엔터티의 각 행에서 Explanations 는 입력 기능에 따라 보강 설명 엔터티의 여러 행으로 분할됩니다.For each row in the enriched entity, The Explanations is broken down into multiple rows in the enriched explanations entity based on the input feature. ExplanationIndex 를 사용하면 보강 설명 엔터티의 행을 보강 엔터티의 행에 매핑할 수 있습니다.An ExplanationIndex helps map the rows from the enriched explanations entity to the row in enriched entity.

쿼리 편집기

PQO 함수 브라우저에서 AI 인사이트를 사용하여 동일한 작업 영역에 있는 모든 데이터 흐름의 엔터티에 Power BI AutoML 모델을 적용할 수도 있습니다.You can also apply any Power BI AutoML model to entities in any dataflow in the same workspace using AI Insights in PQO function browser. 이러한 방식으로 모델을 포함하는 데이터 흐름의 소유자가 아니어도 동일한 작업 영역에서 다른 사용자가 만든 모델을 사용할 수 있습니다.This way, you can use models created by others in the same workspace without necessarily being an owner of the dataflow that has the model. 파워 쿼리는 작업 영역에서 모든 Power BI ML 모델을 검색하고 동적 파워 쿼리 함수로 노출합니다.Power Query discovers all the Power BI ML models in the workspace and exposes them as dynamic Power Query functions.  Power Query 편집기의 리본에서 함수에 액세스하거나 직접 M 함수를 호출하는 방법으로 해당 함수를 호출할 수 있습니다.You can invoke those functions by accessing them from the ribbon in Power Query Editor, or by invoking the M function directly. 이 기능은 현재 Power BI 데이터 흐름과 Power BI 서비스의 파워 쿼리 온라인에서만 지원됩니다.This functionality is currently only supported for Power BI dataflows, and for Power Query Online in the Power BI service. 이는 AutoML 마법사를 사용하여 데이터 흐름 내에서 ML 모델을 적용하는 것과 매우 다릅니다.Note that this is very different from applying ML models within a dataflow using the AutoML wizard. 이 메서드를 사용하여 만든 설명 엔터티가 없으며 데이터 흐름의 소유자가 아닌 경우 모델 학습 보고서에 액세스하거나 모델을 다시 학습할 수 없습니다.There is no explanations entity created using this method and unless you are the owner of the dataflow, you cannot access model training reports or retrain the model. 원본 모델을 편집(입력 필드 추가 또는 제거)하는 경우나 모델 또는 원본 데이터 흐름이 삭제된 경우 이 종속 데이터 흐름은 중단됩니다.If the source model is edited (adding or removing input fields) or, the model or source dataflow is deleted, then this dependent dataflow would break.

PQO 함수 브라우저를 사용하여 모델 적용

모델을 적용한 후에는 데이터 흐름을 새로 고칠 때마다 AutoML에서 예측을 항상 최신 상태로 유지합니다.After you apply the model, AutoML always keeps your predictions up-to-date whenever the dataflow is refreshed.

Power BI 보고서에서 ML 모델의 인사이트 및 예측을 사용하려면 dataflows 커넥터를 사용하여 Power BI Desktop에서 출력 엔터티에 연결할 수 있습니다.To use the insights and predictions from the ML model in a Power BI report, you can connect to the output entity from Power BI Desktop using the dataflows connector.

이진 예측 모델Binary Prediction models

보다 공식적으로는 이진 분류 모델 로 알려진 이진 예측 모델은 데이터 세트를 두 그룹으로 분류하는 데 사용됩니다.Binary Prediction models, more formally known as binary classification models, are used to classify a dataset into two groups. 이진 결과를 가질 수 있는 이벤트를 예측하는 데 사용됩니다.They're used to predict events that can have a binary outcome. 예를 들어 영업 기회의 전환 여부, 계정 이탈 여부, 기간 내 청구서 지불 여부, 거래의 사기 여부 등입니다.For instance, whether a sales opportunity will convert, whether an account will churn, whether an invoice will be paid on time, whether a transaction is fraudulent, and so on.

이진 예측 모델의 출력은 목표 결과가 달성될 가능성을 나타내는 확률 점수입니다.The output of a Binary Prediction model is a probability score, which identifies the likelihood that the target outcome will be achieved.

이진 예측 모델 학습Training a Binary Prediction model

필수 조건:Pre-requisites:

  • 각 결과 클래스에는 최소 20행의 기록 데이터가 필요합니다.A minimum of 20 rows of historical data is required for each class of outcomes

이진 예측 모델에 대한 생성 프로세스는 위의 ML 모델 입력 구성 섹션에 설명된 다른 AutoML 모델과 동일한 단계를 따릅니다.The process of creation for a Binary Prediction model follows the same steps as other AutoML models, described in the section Configuring the ML model inputs above. 유일한 차이점은 가장 관심 있는 목표 결과 값을 선택할 수 있는 “모델 선택” 단계입니다.The only difference is in the “Choose a model” step where you can select the target outcome value that you’re most interested in. 모델 유효성 검사 결과를 요약하는 자동 생성된 보고서에 사용할 친숙한 레이블을 결과에 제공할 수도 있습니다.You can also provide friendly labels for the outcomes to be used in the automatically generated report that will summarize the results of the model validation.

이진 예측 마법사

이진 예측 모델 보고서Binary Prediction model report

이진 예측 모델은 레코드에서 목표 결과를 달성할 확률을 출력으로 생성합니다.The Binary Prediction model produces as an output a probability that a record will achieve the target outcome. 보고서에 확률 임계값 슬라이서가 포함되어 확률 임계값을 상회 또는 하회하는 점수를 해석하는 방법에 영향을 줍니다.The report includes a slicer for the probability threshold, which influences how the scores above and below the probability threshold are interpreted.

이 보고서는 ‘진양성, 가양성, 참 부정 및 거짓 부정’을 기준으로 모델의 성능을 설명합니다.The report describes the performance of the model in terms of True Positives, False Positives, True Negatives, and False Negatives. 참 긍정 및 참 부정이 결과 데이터의 두 클래스에 대해 올바르게 예측된 결과입니다.True Positives and True Negatives are correctly predicted outcomes for the two classes in the outcome data. 가양성은 목표 결과가 있을 것으로 예측되었지만 실제로 없었던 레코드입니다.False Positives are records that were predicted to have Target outcome but actually did not. 반대로, 거짓 부정은 목표 결과가 있었지만 없을 것으로 예측된 레코드입니다.Conversely, False Negatives are records that had Target outcome but were predicted as not having it.

정밀도 및 재현율과 같은 측정값은 예측된 결과에 대한 확률 임계값의 영향을 설명합니다.Measures, such as Precision and Recall, describe the effect of the probability threshold on the predicted outcomes. 확률 임계값 슬라이서를 사용하여 정밀도와 재현율 사이에서 균형 있게 타협한 임계값을 선택할 수 있습니다.You can use the probability threshold slicer to select a threshold that achieves a balanced compromise between Precision and Recall.

정확도 미리 보기

이 보고서에는 가장 높은 수익을 창출하기 위해 타겟팅해야 하는 인구의 하위 집합을 확인하는 데 도움이 되는 비용-수익 분석 도구도 포함되어 있습니다.The report also includes a Cost-Benefit analysis tool to help identify the subset of the population that should be targeted to yield the highest profit. 타겟팅의 예상 단위 비용과 목표 결과 달성에서 발생하는 단위 혜택을 감안하여 비용-수익 분석은 수익을 최대화하려고 합니다.Given an estimated unit cost of targeting and a unit benefit from achieving a target outcome, Cost-Benefit analysis attempts to maximize profit. 이 도구를 사용하여 수익을 최대화하는 그래프의 최대 지점을 기준으로 확률 임계값을 선택할 수 있습니다.You can use this tool to pick your probability threshold based on the maximum point in the graph to maximize profit. 그래프를 사용하여 선택한 확률 임계값의 수익 또는 비용을 계산할 수도 있습니다.You can also use the graph to compute the profit or cost for your choice of probability threshold.

비용 혜택

모델 보고서의 정확도 보고서 페이지에는 모델에 대한 누적 게인 차트와 ROC 곡선이 포함되어 있습니다.The Accuracy Report page of the model report includes the Cumulative Gains chart and the ROC curve for the model. 이들은 모델 성능의 통계 측정값입니다.These are statistical measures of model performance. 보고서에는 표시된 차트에 대한 설명이 포함됩니다.The reports include descriptions of the charts shown.

정확도 보고서 화면

이진 예측 모델 적용Applying a Binary Prediction model

이진 예측 모델을 적용하려면 ML 모델에서 예측을 적용하려는 데이터가 포함된 엔터티를 지정해야 합니다.To apply a Binary Prediction model, you must specify the entity with the data to which you want to apply the predictions from the ML model. 다른 매개 변수에는 예측 결과를 분류하기 위한 출력 열 이름 접두사 및 확률 임계값이 포함됩니다.Other parameters include the output column name prefix and the probability threshold for classifying the predicted outcome.

예측 입력

이진 예측 모델을 적용하면 보강 출력 엔터티에 Outcome, PredictionScore, PredictionExplanation, ExplanationIndex 라는 4개의 출력 열이 추가됩니다.When a Binary Prediction model is applied, it adds four output columns to the enriched output entity: Outcome, PredictionScore, PredictionExplanation, and ExplanationIndex. 모델을 적용할 때 엔터티의 열 이름에 접두사가 지정됩니다.The column names in the entity have the prefix specified when the model is applied.

PredictionScore 는 목표 결과가 달성될 가능성을 나타내는 백분율 확률입니다.PredictionScore is a percentage probability, which identifies the likelihood that the target outcome will be achieved.

Outcome 열에는 예측된 결과 레이블이 포함됩니다.The Outcome column contains the predicted outcome label. 확률이 임계값을 초과하는 레코드는 목표 결과를 달성할 가능성이 있는 것으로 예측되며 True로 레이블이 지정됩니다.Records with probabilities exceeding the threshold are predicted as likely to achieve the target outcome and are labeled as True. 임계값 아래의 레코드는 결과를 달성할 가능성이 없는 것으로 예측되며 False로 레이블이 지정됩니다.Records below the threshold are predicted as unlikely to achieve the outcome and are labeled as False.

PredictionExplanation 열에는 입력 기능이 PredictionScore 에 미치는 특정 영향에 대한 설명이 포함되어 있습니다.The PredictionExplanation column contains an explanation with the specific influence that the input features had on the PredictionScore.

분류 모델Classification models

분류 모델은 데이터 세트를 여러 그룹 또는 클래스로 분류하는 데 사용됩니다.Classification models are used to classify a dataset into multiple groups or classes. 여러 가지 가능한 결과 중 하나를 가질 수 있는 이벤트를 예측하는 데 사용됩니다.They're used to predict events that can have one of the multiple possible outcomes. 예를 들어 고객 생애 가치가 매우 높음, 높음, 중간 또는 낮음인지 여부, 채무 불이행 위험이 높음, 보통, 낮음 또는 매우 낮음인지 여부 등입니다.For instance, whether a customer is likely to have a very high, high, medium, or low Lifetime Value, whether the risk of default is High, Moderate, Low, or Very Low; and so on.

분류 모델의 출력은 레코드가 특정 클래스에 대한 조건을 달성할 가능성을 식별하는 확률 점수입니다.The output of a Classification model is a probability score, which identifies the likelihood that a record will achieve the criteria for a given class.

분류 모델 학습Training a Classification model

분류 모델의 학습 데이터를 포함하는 입력 엔터티에는 이전의 알려진 결과를 나타내는 결과 필드로 문자열 또는 정수 필드가 있어야 합니다.The input entity containing your training data for a Classification model must have a string or whole number field as the outcome field, which identifies the past known outcomes.

필수 조건:Pre-requisites:

  • 각 결과 클래스에는 최소 20행의 기록 데이터가 필요합니다.A minimum of 20 rows of historical data is required for each class of outcomes

분류 모델에 대한 생성 프로세스는 위의 ML 모델 입력 구성 섹션에 설명된 다른 AutoML 모델과 동일한 단계를 따릅니다.The process of creation for a Classification model follows the same steps as other AutoML models, described in the section Configuring the ML model inputs above.

분류 모델 보고서Classification model report

분류 모델 보고서는 홀드아웃 테스트 데이터에 ML 모델을 적용하고 실제 알려진 클래스와 레코드의 예측된 클래스를 비교하여 생성됩니다.The Classification model report is produced by applying the ML model to the holdout test data and comparing the predicted class for a record with the actual known class.

모델 보고서에는 알려진 각 클래스에 대해 정확하게 분류된 레코드와 잘못 분류된 레코드를 구분하는 차트가 포함됩니다.The model report includes a chart that includes the breakdown of the correctly and incorrectly classified records for each known class.

모델 보고서

추가 클래스 관련 드릴 다운을 사용하면 알려진 클래스에 대한 예측을 분산하는 방법을 분석할 수 있습니다.A further class-specific drilldown enables an analysis of how the predictions for a known class are distributed. 알려진 클래스의 레코드가 잘못 분류될 가능성이 있는 다른 클래스를 보여 줍니다.This shows the other classes in which records of that known class are likely to be misclassified.

또한 보고서의 모델 설명에는 각 클래스에 대한 상위 예측 변수도 포함됩니다.The model explanation in the report also includes the top predictors for each class.

분류 모델 보고서에는 이 문서의 앞부분에 나오는 AutoML 모델 보고서 섹션에서 설명한 다른 모델 유형에 대한 페이지와 유사한 학습 세부 정보 페이지도 포함됩니다.The Classification model report also includes a Training Details page similar to the pages for other model types, as described in the section AutoML model report earlier in this article.

분류 모델 적용Applying a classification model

분류 ML 모델을 적용하려면 입력 데이터를 포함하는 엔터티와 출력 열 이름 접두사를 지정해야 합니다.To apply a Classification ML model, you must specify the entity with the input data and the output column name prefix.

분류 모델을 적용하면 보강 출력 엔터티에 ClassificationScore, ClassificationResult, ClassificationExplanation, ClassProbabilities, ExplanationIndex 라는 5개의 출력 열이 추가됩니다.When a Classification model is applied, it adds five output columns to the enriched output entity: ClassificationScore, ClassificationResult, ClassificationExplanation, ClassProbabilities, and ExplanationIndex. 모델을 적용할 때 엔터티의 열 이름에 접두사가 지정됩니다.The column names in the entity have the prefix specified when the model is applied.

ClassProbabilities 열에는 가능한 각 클래스에 대한 레코드의 확률 점수가 포함됩니다.The ClassProbabilities column contains the list of probability scores for the record for each possible class.

ClassificationScore 는 레코드가 지정된 클래스의 조건을 달성할 가능성을 나타내는 백분율 확률입니다.The ClassificationScore is the percentage probability, which identifies the likelihood that a record will achieve the criteria for a given class.

ClassificationResult 열에는 레코드에 대한 가장 가능성이 높은 예측 클래스가 포함됩니다.The ClassificationResult column contains the most likely predicted class for the record.

ClassificationExplanation 열에는 입력 기능이 ClassificationScore 에 미치는 특정 영향에 대한 설명이 포함됩니다.The ClassificationExplanation column contains an explanation with the specific influence that the input features had on the ClassificationScore.

회귀 모델Regression models

회귀 모델은 숫자 값을 예측하는 데 사용됩니다.Regression models are used to predict a numeric value. 예를 들어 판매 거래에서 실현될 가능성이 있는 수익, 계정의 생애 가치, 지불 가능성이 있는 미수금 청구서 금액, 청구서가 지불될 수 있는 날짜 등입니다.For instance: the revenue likely to be realized from a sales deal, the lifetime value of an account, the amount of a receivable invoice that is likely to be paid, the date on which an invoice may be paid, and so on.

회귀 모델의 출력은 예측 값입니다.The output of a Regression model is the predicted value.

회귀 모델 학습Training a Regression model

회귀 모델에 대한 학습 데이터를 포함하는 입력 엔터티는 알려진 결과 값을 나타내는 결과 필드로 숫자 필드를 포함해야 합니다.The input entity containing the training data for a Regression model must have a numeric field as the outcome field, which identifies the known outcome values.

필수 조건:Pre-requisites:

  • 회귀 모델에는 최소 100개 행의 기록 데이터가 필요합니다.A minimum of 100 rows of historical data is required for a Regression model

회귀 모델에 대한 생성 프로세스는 위의 ML 모델 입력 구성 섹션에 설명된 다른 AutoML 모델과 동일한 단계를 따릅니다.The process of creation for a Regression model follows the same steps as other AutoML models, described in the section Configuring the ML model inputs above.

회귀 모델 보고서Regression model report

다른 AutoML 모델 보고서와 마찬가지로 회귀 보고서는 홀드아웃 테스트 데이터에 모델을 적용한 결과를 기반으로 합니다.Like the other AutoML model reports, the Regression report is based on the results from applying the model to the holdout test data.

모델 보고서에는 예측 값을 실제 값과 비교하는 차트가 포함됩니다.The model report includes a chart that compares the predicted values to the actual values. 이 차트에서 대각선 거리는 예측의 오차를 나타냅니다.In this chart, the distance from the diagonal indicates the error in the prediction.

잔여 오차 차트는 홀드아웃 테스트 데이터 세트의 여러 값에 대한 평균 오차 백분율의 분포를 보여 줍니다.The residual error chart shows the distribution of the percentage of average error for different values in the holdout test dataset. 가로 축은 그룹에 대한 실제 값의 평균을 나타내며, 거품 크기는 해당 범위의 값 빈도 또는 횟수를 표시합니다.The horizontal axis represents the mean of the actual value for the group, with the size of the bubble showing the frequency or count of values in that range. 세로 축은 평균 잔여 오차입니다.The vertical axis is the average residual error.

잔여 오차 차트

회귀 모델 보고서에는 위의 AutoML 모델 보고서 섹션에서 설명한 다른 모델 유형에 대한 보고서와 같은 학습 세부 정보 페이지도 포함됩니다.The Regression model report also includes a Training Details page like the reports for other model types, as described in the section AutoML model report above.

회귀 모델 적용Applying a regression model

회귀 ML 모델을 적용하려면 입력 데이터를 포함하는 엔터티와 출력 열 이름 접두사를 지정해야 합니다.To apply a Regression ML model, you must specify the entity with the input data and the output column name prefix.

회귀 적용

회귀 모델을 적용하면 보강 출력 엔터티에 RegressionResult, RegressionExplanation, ExplanationIndex 라는 3개의 출력 열이 추가됩니다.When a Regression model is applied, it adds three output columns to the enriched output entity: RegressionResult, RegressionExplanation, and ExplanationIndex. 모델을 적용할 때 엔터티의 열 이름에 접두사가 지정됩니다.The column names in the entity have the prefix specified when the model is applied.

RegressionResult 열에는 입력 필드를 기반으로 하는 레코드의 예측 값이 포함됩니다.The RegressionResult column contains the predicted value for the record based on the input fields. RegressionExplanation 열에는 입력 기능이 RegressionResult 에 미치는 특정 영향에 대한 설명이 포함됩니다.The RegressionExplanation column contains an explanation with the specific influence that the input features had on the RegressionResult.

Power BI에서 Azure Machine Learning 통합Azure Machine Learning integration in Power BI

수많은 조직이 비즈니스에 대한 더 나은 인사이트와 예측을 얻기 위해 Machine Learning 모델을 사용합니다.Numerous organizations use Machine Learning models for better insights and predictions about their business. 보고서, 대시보드 및 기타 분석에서 이러한 모델의 인사이트를 시각화하고 호출하는 기능은 인사이트를 가장 필요로 하는 비즈니스 사용자에게 인사이트를 전달하는 데 도움이 될 수 있습니다.The ability to visualize and invoke insights from these models, in your reports and dashboards and other analytics, can help disseminate these insights to the business users who need it the most. 이제 Power BI를 사용하여 가리킨 다음 클릭하는 단순한 제스처로 Azure Machine Learning에 호스팅 된 모델의 인사이트를 간편하게 통합할 수 있습니다.Power BI now makes it simple to incorporate the insights from models hosted on Azure Machine Learning, using straightforward point-and-click gestures.

이 기능을 사용하려면 데이터 과학자가 간단히 Azure Portal을 사용하여 BI 분석가에게 Azure ML 모델에 대한 액세스 권한을 부여합니다.To use this capability, a data scientist can simply grant access to the Azure ML model to the BI analyst using the Azure portal. 그러면 각 세션이 시작할 때 파워 쿼리가 사용자에게 액세스 권한이 있는 모든 Azure ML 모델을 검색하여 동적 파워 쿼리 함수로 표시합니다.Then, at the start of each session, Power Query discovers all the Azure ML models to which the user has access and exposes them as dynamic Power Query functions. 사용자는 파워 쿼리 편집기의 리본에서 함수에 액세스하거나 직접 M 함수를 호출하는 방법으로 해당 함수를 호출할 수 있습니다.The user can then invoke those functions by accessing them from the ribbon in Power Query Editor, or by invoking the M function directly. Power BI도 성능 향상을 위해 일련의 행에 대한 Azure ML 모델을 호출할 때 자동으로 액세스 요청을 일괄 처리합니다.Power BI also automatically batches the access requests when invoking the Azure ML model for a set of rows to achieve better performance.

이 기능은 현재 Power BI 데이터 흐름과 Power BI 서비스의 파워 쿼리 온라인에서만 지원됩니다.This functionality is currently only supported for Power BI dataflows, and for Power Query online in the Power BI service.

데이터 흐름에 관한 자세한 내용은 데이터 흐름 및 셀프 서비스 데이터 준비 소개를 참조하세요.To learn more about dataflows, see Introduction to dataflows and self-service data prep.

Azure Machine Learning에 대해 자세히 알아보려면 다음을 참조하세요.To learn more about Azure Machine Learning, please see:

참고

Azure Machine Learning 통합을 사용하려면 Power BI Premium 구독이 필요합니다.A Power BI Premium subscription is required to use Azure Machine learning integration.

Power BI 사용자에게 Azure ML 모델에 대한 액세스 권한 부여Granting access to the Azure ML model to a Power BI user

Power BI에서 Azure ML 모델에 액세스하려면 사용자에게 Azure 구독에 대한 읽기 액세스 권한이 있어야 합니다.To access an Azure ML model from Power BI, the user must have Read access to the Azure subscription. 다음 액세스 권한도 필요합니다.In addition:

  • Machine Learning Studio(클래식) 모델의 경우 Machine Learning Studio(클래식) 웹 서비스에 대한 읽기 권한For Machine Learning Studio (classic) models, Read access to Machine Learning Studio (classic) web service
  • Machine Learning 모델의 경우 Machine Learning 작업 영역에 대한 읽기 권한For Machine Learning models, Read access to the Machine Learning workspace

이 문서에서는 Power BI 사용자에게 Azure ML Service에 호스트된 모델에 대한 액세스 권한을 부여하는 방법을 설명합니다. 설명된 단계를 수행하면 Power BI 사용자가 파워 쿼리 함수로 이러한 모델에 액세스할 수 있습니다.The steps in this article describe how to grant a Power BI user access to a model hosted on the Azure ML service, so they can access this model as a Power Query function. 자세한 내용은 RBAC 및 Azure Portal을 사용하여 액세스 관리를 참조하세요.For further details, please see Manage access using RBAC and the Azure portal.

  1. Azure Portal에 로그인합니다.Sign in to the Azure portal.

  2. 구독 페이지로 이동합니다.Go to the Subscriptions page. 구독 페이지는 Microsoft Azure Portal의 탐색 창 메뉴에 있는 모든 서비스 목록에서 찾을 수 있습니다.You can find the Subscriptions page through the All Services list in the nav pane menu of the Azure portal.

    Azure 구독 페이지 Azure subscriptions page

  3. 구독을 선택합니다.Select your subscription.

    구독 선택 Select your subscription

  4. 액세스 제어(IAM) 를 선택하고 추가 단추를 선택합니다.Select Access Control (IAM), and then select the Add button.

    액세스 제어 AIM Access control AIM

  5. 읽기 권한자 를 역할로 선택합니다.Select Reader as the Role. Azure ML 모델에 대한 액세스 권한을 부여할 Power BI 사용자를 선택합니다.Select the Power BI user to whom you wish to grant access to the Azure ML model.

    읽기 권한자를 역할로 선택 Select Reader as the role

  6. 저장 을 선택합니다.Select Save.

  7. 3단계부터 6단계까지 반복하여 특정 Machine Learning Studio(클래식) 웹 서비스 ‘또는’ 모델을 호스팅하는 Machine Learning 작업 영역 사용자에게 읽기 권한자 권한을 부여합니다.Repeat steps three through six to grant Reader access to the user for the specific Machine Learning Studio (classic) web service, or the Machine Learning workspace hosting the model.

Machine Learning 모델의 스키마 검색Schema discovery for Machine Learning models

데이터 과학자는 주로 Python을 사용하여 Machine Learning의 기계 학습 모델을 개발하고 배포합니다.Data scientists primarily use Python to develop, and even deploy, their machine learning models for Machine Learning. 모델의 스키마 파일을 만드는 작업을 자동화하는 데 도움이 되는 Machine Learning Studio(클래식)와 달리, Machine Learning의 경우 데이터 과학자가 Python을 사용하여 스키마 파일을 명시적으로 생성해야 합니다.Unlike the Machine Learning Studio (classic), which helps automate the task of creating a schema file for the model, in the case of Machine Learning, the data scientist must explicitly generate the schema file using Python.

이 스키마 파일은 Machine Learning 모델용으로 배포된 웹 서비스에 포함되어야 합니다.This schema file must be included in the deployed web service for Machine Learning models. 웹 서비스용 스키마를 자동으로 생성하려면 배포된 모델의 항목 스크립트에 입/출력 샘플을 제공해야 합니다.To automatically generate the schema for web service, you must provide a sample of the input/output in the entry script for the deployed model. Azure Machine Learning Service 설명서를 사용하여 배포 모델의 (선택 사항) 자동 Swagger 스키마 생성 하위 섹션을 참조하세요.Please see the subsection on (Optional) Automatic Swagger schema generation in the Deploy models with the Azure Machine Learning service documentation. 이 링크에는 스키마 생성을 위한 명령문이 있는 예제 항목 스크립트가 포함됩니다.The link includes the example entry script with the statements for the schema generation.

특히 항목 스크립트의 @input_schema@output_schema 함수는 input_sampleoutput_sample 변수에서 입력 및 출력 샘플 형식을 참조하고, 이러한 샘플을 사용하여 배포 중에 웹 서비스에 대한 OpenAPI(Swagger) 사양을 생성합니다.Specifically, the @input_schema and @output_schema functions in the entry script reference the input and output sample formats in the input_sample and output_sample variables, and use these samples to generate an OpenAPI (Swagger) specification for the web service during deployment.

항목 스크립트를 업데이트하여 스키마 생성을 위한 이러한 지침은 Azure Machine Learning SDK를 사용하여 자동화된 기계 학습 실험을 통해 만든 모델에도 적용해야 합니다.These instructions for schema generation by updating the entry script must also be applied to models created using automated machine learning experiments using the Azure Machine Learning SDK.

참고

Azure Machine Learning 시각적 개체 인터페이스를 사용하여 만든 모델은 현재 스키마 생성을 지원하지 않지만 후속 릴리스에서는 지원할 예정입니다.Models created using the Azure Machine Learning visual interface do not currently support schema generation, but will in subsequent releases.

Power BI에서 Azure ML 모델 호출Invoking the Azure ML model in Power BI

액세스 권한이 부여된 Azure ML 모델을 데이터 흐름의 파워 쿼리 편집기에서 직접 호출할 수 있습니다.You can invoke any Azure ML model to which you have been granted access, directly from the Power Query Editor in your dataflow. Azure ML 모델에 액세스하려면 다음 이미지에 표시된 것처럼 Azure ML 모델의 인사이트로 보강하려는 엔터티의 편집 단추를 선택합니다.To access the Azure ML models, select the Edit button for the entity that you want to enrich with insights from your Azure ML model, as shown in the following image.

Power BI 서비스 - 엔터티 편집 Power BI service - edit the entity

편집 단추를 선택하면 데이터 흐름의 엔터티에 대한 파워 쿼리 편집기가 열립니다.Selecting the Edit button opens the Power Query Editor for the entities in your dataflow.

Power Query 편집기 Power Query Editor

리본에서 AI 인사이트 단추를 선택하고 탐색 창 메뉴의 Azure Machine Learning 모델 폴더를 선택합니다.Select the AI Insights button in the ribbon, and then select the Azure Machine Learning Models folder from the nav pane menu. 액세스 권한이 있는 모든 Azure ML 모델이 여기에 파워 쿼리 함수로 나열됩니다.All the Azure ML models to which you have access are listed here as Power Query functions. Azure ML 모델에 대한 입력 매개 변수도 자동으로 해당 파워 쿼리 함수의 매개 변수로 매핑됩니다.Also, the input parameters for the Azure ML model are automatically mapped as parameters of the corresponding Power Query function.

Azure ML 모델을 호출하려면 선택한 엔터티의 열을 드롭다운에서 입력으로 지정합니다.To invoke an Azure ML model, you can specify any of the selected entity's columns as an input from the drop-down. 입력 대화 상자 왼쪽으로 열 아이콘을 전환하여 입력으로 사용할 상수 값을 지정할 수도 있습니다.You can also specify a constant value to be used as an input by toggling the column icon to the left of the input dialog.

열 선택 select the column

Azure ML 모델 출력 미리 보기를 엔터티 테이블에 새 열로 표시하려면 호출 을 선택합니다.Select Invoke to view the preview of the Azure ML model's output as a new column in the entity table. 모델 호출을 쿼리의 적용 단계로 표시할 수도 있습니다.You will also see the model invocation as an applied step for the query.

호출 선택 Select invoke

모델이 여러 출력 매개 변수를 반환하는 경우 해당 매개 변수가 출력 열에서 레코드로 그룹화됩니다.If the model returns multiple output parameters, they are grouped together as a record in the output column. 이 열을 확장하여 별도의 열에 개별 출력 매개 변수를 생성할 수 있습니다.You can expand the column to produce individual output parameters in separate columns.

열 확장 expand the column

데이터 흐름을 저장하면 엔터티 테이블의 모든 새 행 또는 업데이트된 행에 대해 데이터 흐름을 새로 고치는 경우 자동으로 모델이 호출됩니다.Once you save your dataflow, the model is automatically invoked when the dataflow is refreshed, for any new or updated rows in the entity table.

다음 단계Next steps

이 문서에서는 Power BI 서비스의 데이터 흐름에 대한 자동화된 Machine Learning의 개요를 제공했습니다.This article provided an overview of Automated Machine Learning for Dataflows in the Power BI service. 다음 문서도 유용할 수 있습니다.The following articles may also be useful.

다음 문서에서는 데이터 흐름 및 Power BI에 관한 자세한 정보를 제공합니다.The following articles provide more information about dataflows and Power BI: