Azure HDInsight Spark kümeleriyle kredi ödeme kredisi tahmini

HDInsight için R Server
Power BI

Çözüm fikri Solution Idea

Daha fazla bilgi, uygulama ayrıntıları, fiyatlandırma Kılavuzu veya kod örneği ile bu makaleyi genişletmemizi istiyorsanız GitHub geri bildirimlerindenhaberdar olalım!If you'd like to see us expand this article with more information, implementation details, pricing guidance, or code examples, let us know with GitHub Feedback!

Ücretlendirildiği bir kredi, genellikle kredi ödeme ödemesinin büyük bir süre içinde toplanmasının düşük olduğu bir kredi (genellikle bir ödünç verme kurumu) ile tahsil edilen bir borçtadır.A charged off loan is a loan that is declared by a creditor (usually a lending institution) that an amount of debt is unlikely to be collected, usually when the loan repayment is severely delinquent by the debtor. Bu yüksek fatura, kredi kurumlarının yıl sonu mali işlemleri üzerinde olumsuz etkiye sahip olduğu için, ödünç verme kurumları genellikle kredilerin ücretlendirildiği bir şekilde tahakkuk etmelerini önlemeye kadar yakından takip etme riskini izler.Given that high chargeoff has negative impact on lending institutions' year end financials, lending institutions often monitor loan chargeoff risk very closely to prevent loans from getting charged-off. Azure HDInsight 'ta ML Hizmetleri 'ni kullanarak, bir ödünç verme kurumu, kredilerin ücretlendirildiği olasılığını tahmin etmek ve Istem ve Hive tablolarında depolanan analiz sonucu üzerinde bir rapor çalıştırmak için makine öğrenimi tahmini analizini kullanabilir.Using ML Services on Azure HDInsight, a lending institution can use machine learning predictive analytics to predict the likelihood of loans getting charged off and run a report on the analytics result stored in HDFS and hive tables.

MimariArchitecture

Mimari diyagramı

Bu mimarinin bir SVG indirin.Download an SVG of this architecture.

Veri akışıData flow

  1. ML tahmini için bazı veriler oluşturma ve veri kaynaklarını tanımlamaCreate some data and define data sources for the ML prediction
  2. Kredi ücreti değişkenini tahmin etmek için yerel işlem (veya Spark) bağlamını kullanarak veriler üzerinde lojistik regresyon çalıştırınRun a logistic regression over the data using the local compute (or spark) context to predict loan charge off variable
  3. Tabloya bağlanmak için Azure Hdınsights Spark bağlayıcısını kullanmaUse Azure HDInsights spark connector to connect to the table
  4. Bu verileri yorumlamak ve yeni görselleştirmeler oluşturmak için Power BI kullanınUse Power BI to interpret this data and create new visualizations
  5. Seçim Modeli, bılgısayar ve mobil gibi popüler cihazlarda tüketilen Web hizmeti olarak dağıtın(Optional) Deploy the model as as web service which can be consumed on popular devices such as PC, and mobile

AçıklamaDescription

Bu çözüm, Azure HDInsight üzerinde ML Hizmetleri türünde bir küme oluşturur.This solution will create a cluster of type ML Services on Azure HDInsight. Bu küme 2 baş düğüm, 2 çalışan düğümü ve toplam 32 çekirdekle 1 Edge düğümü içerecektir.This cluster will contain 2 head nodes, 2 worker nodes, and 1 edge node with a total of 32 cores. Bu HDInsight Spark kümesinin yaklaşık maliyeti $8.29/saat ' dir.The approximate cost for this HDInsight Spark cluster is $8.29/hour. Faturalandırma, küme oluşturulduğunda başlar ve küme silindiğinde duraklar.Billing starts once a cluster is created and stops when the cluster is deleted. Fatura dakikalara eşit olarak dağıtıldığından, kullanılmayan kümelerinizi mutlaka silmelisiniz.Billing is pro-rated per minute, so you should always delete your cluster when it is no longer in use. Yapıldıktan sonra tüm çözümü silmek için dağıtımlar sayfasını kullanın.Use the Deployments page to delete the entire solution once you are done.

Genel BakışOverview

Ödünç verme kurumlarının kredi ödeme verileri kredisi için sunduğu birçok avantaj vardır.There are multiple benefits for lending institutions to equip with loan chargeoff prediction data. Krediyi doldurma, bankanın tahmin verileriyle ilgili önemli bir kredi üzerinde yaptığı son çare, kredi Müdürü müşterilerin kredi ödemeleri yapmaya ve dolayısıyla ücretlendirmeye devam etmesini önlemeye yardımcı olmak için, daha düşük faiz oranı veya daha uzun ödeme dönemi gibi kişiselleştirilmiş teşvikleri sunabilir.Charging off a loan is the last resort that the bank will do on a severely delinquent loan, with the prediction data at hand, the loan officer could offer personalized incentives like lower interest rate or longer repayment period to help customers to keep making loan payments and thus prevent the loan of getting charged off. Bu tür bir tahmin verisi almak için, genellikle kredi birleşimleri veya bankaları, verileri müşterinin geçmiş ödeme geçmişine göre el ile ve basit istatistiksel regresyon analizi gerçekleştirdi.To get to this type of prediction data, often credit unions or banks manually handcraft the data based on customers' past payment history and performed simple statistical regression analysis. Bu yöntem, büyük ölçüde veri derleme hatasına tabidir ve istatistiksel olarak ses vermez.This method is highly subject to data compilation error and not statistically sound.

Bu çözüm şablonu, kredi verileri üzerinde tahmine dayalı analizler çalıştırmak ve ödeme olasılığa karşı Puanlama sağlamak için bir çözümü uçtan uca gösterir.This solution template demonstrates a solution end to end to run predictive analytics on loan data and produce scoring on chargeoff probability. Bir PowerBI raporu Ayrıca kredi kredileri ve geri ödeme olasılığının tahminine ilişkin analiz ve eğilim boyunca size yol gösterir.A PowerBI report will also walk through the analysis and trend of credit loans and prediction of chargeoff probability.

İş perspektifiBusiness perspective

Bu kredi ödeme tahmini, yakın gelecekte (sonraki üç ay) kredi ödeme olasılığını tahmin etmek için benzetimli bir kredi geçmişi verileri kullanır.This loan chargeoff prediction uses a simulated loan history data to predict probability of loan chargeoff in the immediate future (next three months). Puan arttıkça, daha yüksek olan kredi, geleceğe göre ücretlendirildiği bir olasılıktır.The higher the score, the higher is the probability of the loan getting charged-off in the future.

Analiz verileri sayesinde, kredi Müdürü Ayrıca, dal konumlarına göre geri ödeme kredileri eğilimlerini ve analizlerini de sunulur.With the analytics data, loan manager is also presented with the trends and analytics of the chargeoff loans by branch locations. Yüksek kaliteli risk kredilerin özellikleri, kredi yöneticilerinin ilgili coğrafi alanda kredi teklifi için iş planı yapmasını sağlar.Characteristics of the high chargeoff risk loans will help loan managers to make business plan for loan offering in that specific geographical area.

HDInsight Spark kümelerinde Microsoft R Server, R Server ve Apache Spark 'ın birleştirilmiş gücünden yararlanarak büyük veriler için dağıtılmış ve ölçeklenebilir makine öğrenimi özellikleri sağlar.Microsoft R Server on HDInsight Spark clusters provides distributed and scalable machine learning capabilities for big data, using the combined power of R Server and Apache Spark. Bu çözüm, kredi kredisi Tahmini (veri işleme, özellik Mühendisliği, eğitim ve değerlendirme modelleri dahil), modelleri bir Web hizmeti olarak dağıtma (Edge düğümünde) ve Web hizmetini Azure HDInsight üzerinde ML Hizmetleri ile uzaktan tüketmek için makine öğrenimi modellerinin nasıl geliştirileceğini gösterir.This solution demonstrates how to develop machine learning models for predicting loan chargeoff (including data processing, feature engineering, training and evaluating models), deploy the models as a web service (on the edge node) and consume the web service remotely with ML Services on Azure HDInsight. Son tahminler, Power BI görselleştirildiği bir Hive tablosuna kaydedilir.The final predictions is saved to a Hive table which could be visualized in Power BI.

Power BI Ayrıca, kredi ödemeleri ve geri ödeme tahminleri (burada benzetimli verilerle gösterilir) hakkındaki görsel özetleri de sunmaktadır.Power BI also presents visual summaries of the loan payments and chargeoff predictions (shown here with simulated data). Sağdaki "Şimdi deneyin" düğmesine tıklayarak bu panoyu deneyebilirsiniz.You can try out this dashboard by clicking the "Try it Now" button to the right.

Veri bilimcisi perspektifiData scientist perspective

Bu çözüm şablonu, ödünç verme riskini tahmin etmek için bir benzetimli kredi geçmişi verisi kümesi kullanarak tahmin analizinin nasıl geliştirileceği ile, uçtan uca işlem sürecinde gösterilmektedir.This solution template walks through the end-to-end process of how to develop predict analytics using a set of simulated loan history data to predict loan chargeoff risk. Veriler, kredi sahibi demografik verileri, kredi tutarı, sözleşmeli kredi süresi ve kredi ödeme geçmişi gibi bilgileri içerir.The data contains information like loan holder demographic data, loan amount, contractual loan duration and loan payment history. Çözüm şablonu, verileri eğitmek için veri işleme, özellik Mühendisliği ve çeşitli farklı algoritmalar gerçekleştiren bir R betikleri kümesi de içerir ve son olarak her kredi için olasılık puanı üretmek üzere verileri almak üzere en iyi performanslı modeli seçer.The solution template also includes a set of R scripts that perform data processing, feature engineering, and several different algorithms to train the data, and finally select the best performant model to score the data to produce probability score for each loan. Çözüm Ayrıca, modeli bir Web hizmeti olarak (Edge düğümünde) dağıtmak için komut dosyalarını ve Azure HDInsight Spark kümelerindeki Microsoft R Server Web hizmetini uzaktan kullanmayı içerir.The solution also include scripts to deploy the model as a web service (on the edge node) and consuming the web service remotely with Microsoft R Server on Azure HDInsight Spark clusters.

Bu çözümü test eden veri bilimcileri, Azure HDInsight kümesi üzerinde ML hizmetlerinin Edge düğümünde çalışan RStudio Server 'ın tarayıcı tabanlı açık kaynak sürümünden sunulan R koduyla çalışabilir.Data scientists who are testing this solution can work with the provided R code from the browser-based Open Source Edition of RStudio Server that runs on the Edge Node of the ML Services on Azure HDInsight cluster. Kullanıcı hesaplama bağlamını ayarlayarak hesaplamanın nerede gerçekleştirileceğine karar verebilir: yerel olarak Edge düğümünde veya Spark kümesindeki düğümlere dağıtılır.By setting the compute context the user can decide where the computation will be performed: locally on the edge node, or distributed across the nodes in the Spark cluster. Tüm R kodları genel GitHub deposunda da bulunabilir.All the R code can also be found in public GitHub repository. İyi eğlenceler!Have fun!

BileşenlerComponents

  • AzureHDInsight: Azure HDInsight, kuruluşlar için bulutta yönetilen, tam bir açık kaynaklı analiz hizmetidir.Azure HDInsight: Azure HDInsight is a managed, full-spectrum, open-source analytics service in the cloud for enterprises. Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R ve daha fazlası gibi açık kaynaklı çerçeveleri de kullanabilirsiniz.You can use open-source frameworks such as Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R, and more.
  • Power BI , tahmine dayalı kararları almak için SQL Server depolanan verileri kullanan görselleştirmede etkileşimli bir pano sağlar.Power BI provides an interactive dashboard with visualization that uses data stored in SQL Server to drive decisions on the predictions.

Ayrıca bkz.See also