Azure HDInsight Spark クラスターを使用したローン償却予測

R Server for HDInsight
Power BI

ソリューションのアイデア Solution Idea

さらなる情報、実装の詳細、価格ガイダンス、コード例を追加してこの記事を拡張することをお望みの場合は、GitHub のフィードバックでご連絡ください。If you'd like to see us expand this article with more information, implementation details, pricing guidance, or code examples, let us know with GitHub Feedback!

償却ローンとは、通常、債務者によるローンの返済が大幅に滞っている場合に、負債を回収できない可能性が高いことを債権者 (通常は貸出機関) が宣言したローンです。A charged off loan is a loan that is declared by a creditor (usually a lending institution) that an amount of debt is unlikely to be collected, usually when the loan repayment is severely delinquent by the debtor. 高額の償却は貸出機関の年度末の財政に悪影響を及ぼすため、多くの場合、貸出機関はローンの償却を防ぐためにローン償却のリスクを入念に監視しています。Given that high chargeoff has negative impact on lending institutions' year end financials, lending institutions often monitor loan chargeoff risk very closely to prevent loans from getting charged-off. Azure HDInsight で ML Services を使用すると、貸出機関は機械学習の予測分析を利用して、ローンが償却される可能性を予測し、HDFS や Hive テーブルに保存された分析結果に関するレポートを実行できます。Using ML Services on Azure HDInsight, a lending institution can use machine learning predictive analytics to predict the likelihood of loans getting charged off and run a report on the analytics result stored in HDFS and hive tables.



このアーキテクチャの SVG をダウンロードします。Download an SVG of this architecture.

Data FlowData Flow

  1. データを作成し、ML 予測用のデータ ソースを定義しますCreate some data and define data sources for the ML prediction
  2. ローカル コンピューティング (または Spark) コンテキストを使用してデータに対してロジスティック回帰を実行し、ローン償却の変動を予測しますRun a logistic regression over the data using the local compute (or spark) context to predict loan charge off variable
  3. Azure HDInsights Spark コネクタを使用してテーブルに接続しますUse Azure HDInsights spark connector to connect to the table
  4. Power BI を使用してこのデータを解釈し、新しい視覚エフェクトを作成しますUse Power BI to interpret this data and create new visualizations
  5. (省略可能) PC やモバイルなどの一般的なデバイスで使用できる Web サービスとしてモデルをデプロイします(Optional) Deploy the model as as web service which can be consumed on popular devices such as PC, and mobile


このソリューションにより、Azure HDInsight 上に種類が ML Services のクラスターが作成されます。This solution will create a cluster of type ML Services on Azure HDInsight. このクラスターには、2 つのヘッド ノード、2 つのワーカー ノード、1 つのエッジ ノードが含まれ、合計 32 個のコアがあります。This cluster will contain 2 head nodes, 2 worker nodes, and 1 edge node with a total of 32 cores. この HDInsight Spark クラスターの概算コストは、1 時間あたり 8.29 ドルです。The approximate cost for this HDInsight Spark cluster is $8.29/hour. 課金は、クラスターが作成されると開始され、クラスターが削除されると停止されます。Billing starts once a cluster is created and stops when the cluster is deleted. 課金は分単位なので、クラスターを使わなくなったら必ず削除してください。Billing is pro-rated per minute, so you should always delete your cluster when it is no longer in use. 完了したら、[デプロイ] ページを使用してソリューション全体を削除します。Use the Deployments page to delete the entire solution once you are done.


貸出機関がローン償却予測データを備えている場合、複数のメリットがあります。There are multiple benefits for lending institutions to equip with loan chargeoff prediction data. ローンの償却は、銀行が深刻な延滞債権に対して行う最後の手段です。予測データがあれば、ローン担当者は金利の引き下げや返済期間の延長などのパーソナライズされたインセンティブを提供して、顧客がローンの返済を続けられるよう支援できるため、ローンの償却を防ぐことができます。Charging off a loan is the last resort that the bank will do on a severely delinquent loan, with the prediction data at hand, the loan officer could offer personalized incentives like lower interest rate or longer repayment period to help customers to keep making loan payments and thus prevent the loan of getting charged off. この種の予測データを取得するために、多くの場合、信用組合や銀行では、顧客の過去の返済履歴と実行した単純な統計回帰分析に基づいてデータを手動で作成しています。To get to this type of prediction data, often credit unions or banks manually handcraft the data based on customers' past payment history and performed simple statistical regression analysis. この方法はデータ編集の誤りが生じやすく、統計的に有効ではありません。This method is highly subject to data compilation error and not statistically sound.

このソリューション テンプレートは、ローン データに対して予測分析を実行し、償却の可能性に関するスコアリングを作成するソリューションをエンド ツー エンドで示します。This solution template demonstrates a solution end to end to run predictive analytics on loan data and produce scoring on chargeoff probability. また、PowerBI レポートにより、信用貸付の分析と傾向、および償却の可能性の予測も示されます。A PowerBI report will also walk through the analysis and trend of credit loans and prediction of chargeoff probability.

ビジネスの観点Business Perspective

このローン償却予測では、シミュレートされたローン履歴データを使用して、近い将来 (次の 3 か月) のローン償却の可能性を予測します。This loan chargeoff prediction uses a simulated loan history data to predict probability of loan chargeoff in the immediate future (next three months). スコアが高いほど、将来、ローンが償却される可能性が高くなります。The higher the score, the higher is the probability of the loan getting charged-off in the future.

分析データを使用して、支店の場所ごとの償却ローンの傾向と分析もローン管理者に示されます。With the analytics data, loan manager is also presented with the trends and analytics of the chargeoff loans by branch locations. 償却リスクの高いローンの特性は、ローン管理者がその特定の地域でのローン提供のビジネス プランを作成する際に役立ちます。Characteristics of the high chargeoff risk loans will help loan managers to make business plan for loan offering in that specific geographical area.

HDInsight Spark クラスターの Microsoft R Server では、R Server と Apache Spark の能力の組み合わせを使用して、ビッグ データに対応するスケーラブルな分散型機械学習機能が提供されます。Microsoft R Server on HDInsight Spark clusters provides distributed and scalable machine learning capabilities for big data, using the combined power of R Server and Apache Spark. このソリューションでは、ローン償却を予測するための機械学習モデル (データ処理、特徴エンジニアリング、トレーニング、評価の各モデルを含む) を開発して、モデルを Web サービスとして (エッジ ノードに) デプロイし、Azure HDInsight 上の ML Services でリモートから Web サービスを使用する方法を示します。This solution demonstrates how to develop machine learning models for predicting loan chargeoff (including data processing, feature engineering, training and evaluating models), deploy the models as a web service (on the edge node) and consume the web service remotely with ML Services on Azure HDInsight. 最終的な予測は、Power BI で視覚化できる Hive テーブルに保存されます。The final predictions is saved to a Hive table which could be visualized in Power BI.

また、Power BI では、ローンの返済と償却予測の概要が視覚的に示されます (ここでは、シミュレートされたデータで示されます)。Power BI also presents visual summaries of the loan payments and chargeoff predictions (shown here with simulated data). 右側の [今すぐ試す] ボタンをクリックすると、このダッシュボードを試すことができます。You can try out this dashboard by clicking the "Try it Now" button to the right.

データ サイエンティストの観点Data Scientist Perspective

このソリューション テンプレートでは、シミュレートされた一連のローン履歴データを使用してローン償却のリスクを予測する予測分析を開発する方法について、エンド ツー エンドのプロセスを示します。This solution template walks through the end-to-end process of how to develop predict analytics using a set of simulated loan history data to predict loan chargeoff risk. データには、ローン保有者の人口統計データ、ローン額、契約上のローン期間、ローン返済履歴などの情報が含まれます。The data contains information like loan holder demographic data, loan amount, contractual loan duration and loan payment history. ソリューション テンプレートには、データ処理、特徴エンジニアリング、データをトレーニングする複数の異なるアルゴリズムを実行し、最終的にデータをスコアリングする最もパフォーマンスに優れたモデルを選択して、各ローンの可能性スコアを生成する一連の R スクリプトも含まれています。The solution template also includes a set of R scripts that perform data processing, feature engineering, and several different algorithms to train the data, and finally select the best performant model to score the data to produce probability score for each loan. また、ソリューションには、モデルを Web サービスとして (エッジ ノードに) デプロイし、Azure HDInsight Spark クラスターの Microsoft R Server を使用してリモートで Web サービスを使用するためのスクリプトも含まれています。The solution also include scripts to deploy the model as a web service (on the edge node) and consuming the web service remotely with Microsoft R Server on Azure HDInsight Spark clusters.

このソリューションをテストするデータ サイエンティストは、Azure HDInsight クラスター上の ML Services のエッジ ノードで実行されるブラウザーベースのオープンソース エディションの RStudio Server から提供された R コードを操作できます。Data scientists who are testing this solution can work with the provided R code from the browser-based Open Source Edition of RStudio Server that runs on the Edge Node of the ML Services on Azure HDInsight cluster. コンピューティング コンテキストを設定することにより、ユーザーは計算を実行する場所 (エッジ ノードでローカル実行するか、Spark クラスター内のノード間で分散実行するか) を決定できます。By setting the compute context the user can decide where the computation will be performed: locally on the edge node, or distributed across the nodes in the Spark cluster. すべての R コードは、パブリック GitHub リポジトリにもあります。All the R code can also be found in public GitHub repository. お楽しみください!Have fun!


  • Azure HDInsight:Azure HDInsight は、マネージドの、全範囲に対応した、クラウド上のオープンソースのエンタープライズ向け分析サービスです。Azure HDInsights: Azure HDInsight is a managed, full-spectrum, open-source analytics service in the cloud for enterprises. Hadoop、Apache Spark、Apache Hive、LLAP、Apache Kafka、Apache Storm、R などのオープンソース フレームワークを使用できます。You can use open-source frameworks such as Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R, and more.
  • Power BI には、SQL Server に格納されているデータを使用して予測に関する意思決定を促進する視覚化を備えた対話型ダッシュボードが用意されています。Power BI provides an interactive dashboard with visualization that uses data stored in SQL Server to drive decisions on the predictions.

参照See Also