Predikce odepisování půjček s využitím SQL Serveru

Data Science Virtual Machine
Power BI
SQL Server

Nápad řešení Solution Idea

Pokud se chcete podívat, jak nás rozšířit tento článek o další informace, podrobnosti implementace, doprovodné materiály nebo příklady kódu, dejte nám vědět s názory na GitHubu.If you'd like to see us expand this article with more information, implementation details, pricing guidance, or code examples, let us know with GitHub Feedback!

Toto řešení ukazuje, jak sestavit a nasadit model strojového učení s SQL Server 2016 s R Services a předpovídat si, jestli se v příštích 3 měsících bude muset účtovat půjčka v bance.This solution demonstrates how to build and deploy a machine learning model with SQL Server 2016 with R Services to predict if a Bank loan will need to be charged off within next 3 months.

ArchitekturaArchitecture

Diagram architektury Stáhnout SVG této architektury.Architecture Diagram Download an SVG of this architecture.

PřehledOverview

Instituce pro poskytování půjček mají k dispozici více výhod pro vyvýšení odepisováních dat předpovědi.There are multiple benefits for lending institutions to equip with loan chargeoff prediction data. Zpoplatnění úvěru je poslední možnost, kterou banka provede na vážně problematické půjčku, s využitím dat předpovědi, úředník pro úvěrování by mohl nabízet individuální pobídky, jako je nižší úroková sazba nebo delší doba splatnosti, aby zákazníci mohli průběžně zajišťovat platby, a tak zabránit tomu, aby se úvěr vyrovnal.Charging off a loan is the last resort that the bank will do on a severely delinquent loan, with the prediction data at hand, the loan officer could offer personalized incentives like lower interest rate or longer repayment period to help customers to keep making loan payments and thus prevent the loan of getting charged off. Chcete-li získat tento typ dat předpovědi, často úvěrové svazy nebo banky zpracovávají data na základě historie plateb zákazníků a prováděli jednoduchou statistickou regresní analýzu.To get to this type of prediction data, often credit unions or banks manually handcraft the data based on customers' past payment history and performed simple statistical regression analysis. Tato metoda je vysoce předmětem chyby při kompilaci dat a není statisticky zdravá.This method is highly subject to data compilation error and not statistically sound.

Tato šablona řešení demonstruje řešení na konci ke spouštění prediktivních analýz na základě dat půjček a vyprodukuje bodování odepisování pravděpodobnosti.This solution template demonstrates a solution end to end to run predictive analytics on loan data and produce scoring on chargeoff probability. Sestava PowerBI také projde analýzou a trendem úvěrových půjček a předpovědi odepisování pravděpodobnosti.A PowerBI report will also walk through the analysis and trend of credit loans and prediction of chargeoff probability.

Perspektiva pro obchodní manažeryBusiness Manager Perspective

Tato předpověď půjček odepisování využívá Simulovaná data o historii půjček k předpovědi pravděpodobnosti půjček půjček v bezprostřední budoucnosti (další tři měsíce).This loan chargeoff prediction uses a simulated loan history data to predict probability of loan chargeoff in the immediate future (next three months). Čím vyšší je skóre, tím vyšší je pravděpodobnost, že se úvěr účtuje v budoucnu.The higher the score, the higher is the probability of the loan getting charged-off in the future.

Pomocí analytických dat se správce půjček zobrazuje také s trendy a analýzou odepisování půjček podle umístění poboček.With the analytics data, loan manager is also presented with the trends and analytics of the chargeoff loans by branch locations. Charakteristiky rizikových půjček s vysokou odepisováníou pomohou manažerům půjček v rámci této konkrétní zeměpisné oblasti vytvořit obchodní plán pro nabídku půjček.Characteristics of the high chargeoff risk loans will help loan managers to make business plan for loan offering in that specific geographical area.

SQL Server R Services přináší výpočetní výkon pro data tím, že umožňuje spuštění R na stejném počítači jako databáze.SQL Server R Services brings the compute to the data by allowing R to run on the same computer as the database. Zahrnuje databázovou službu, která běží mimo proces SQL Server a bezpečně komunikuje s modulem runtime R.It includes a database service that runs outside the SQL Server process and communicates securely with the R runtime.

Tato šablona řešení vás seznámí s postupem vytvoření a vyčištění sady simulovaných dat, použití různých algoritmů ke školení modelů R, výběru nejlepšího modelu a provedení odepisování předpovědi a uložení výsledků předpovědi zpět do SQL Server.This solution template walks through how to create and clean up a set of simulated data, use various algorithms to train the R models, select the best performant model and perform chargeoff predictions and save the prediction results back to SQL Server. Sestava PowerBI se připojí k tabulce výsledků předpovědi a zobrazí interaktivní sestavy s uživatelem na prediktivní analýze.A PowerBI report connects to the prediction result table and show interactive reports with the user on the predictive analytics.

Perspektiva pro data – vědeckýData Scientist Perspective

SQL Server R Services v počítači, který je hostitelem databáze, převede výpočetní prostředky na data spuštěním jazyka R.SQL Server R Services brings the compute to the data by running R on the computer that hosts the database. Zahrnuje databázovou službu, která běží mimo proces SQL Server a bezpečně komunikuje s modulem runtime R.It includes a database service that runs outside the SQL Server process and communicates securely with the R runtime.

Toto řešení vás provede kroky k vytvoření a upřesnění dat, výukových modelů R a k vyhodnocování SQL Server počítače.This solution walks through the steps to create and refine data, train R models, and perform scoring on the SQL Server machine. Konečné výsledky předpovědi budou uloženy v SQL Server.The final prediction results will be stored in SQL Server . Tato data se pak vizuálně provizuálů v PowerBI, která také obsahují Shrnutí analýzy půjček odepisování a předpovědi odepisování pro následující tři měsíce.This data is then visualized in PowerBI, which also contains a summary of the loan chargeoff analysis and chargeoff prediction for the next three months. (K ilustraci této funkce se v této šabloně zobrazují Simulovaná data.)(Simulated data is shown in this template to illustrate the feature)

Odborníci na data, kteří testují a vyvíjejí řešení, mohou pracovat z pohodlí prostředí IDE jazyka R na svém klientském počítači a při vložení výpočetní kapacity do SQL Server počítače.Data scientists who are testing and developing solutions can work from the convenience of their R IDE on their client machine, while pushing the compute to the SQL Server machine. Dokončená řešení jsou nasazena do SQL Server 2016 vložením volání R v uložených procedurách.The completed solutions are deployed to SQL Server 2016 by embedding calls to R in stored procedures. Tato řešení je pak možné dále automatizovat pomocí služba SSIS (SQL Server Integration Services) a SQL Serverho agenta.These solutions can then be further automated with SQL Server Integration Services and SQL Server agent.

Kliknutím na tlačítko nasadit otestujete automatizaci a v předplatném Azure bude k dispozici celé řešení.Click on the Deploy button to test the automation and the entire solution will be made available in your Azure subscription.

CenyPricing

K vašemu předplatnému Azure, které se používá pro nasazení, se účtují poplatky za využití služeb používaných v tomto řešení, přibližně za $1.15/hod pro výchozí virtuální počítač.Your Azure subscription used for the deployment will incur consumption charges on the services used in this solution, approximately $1.15/hour for the default VM.

Ujistěte se prosím, že jste instanci virtuálního počítače zastavili, když toto řešení aktivně nepoužíváte.Please ensure that you stop your VM instance when not actively using the solution. Spuštění virtuálního počítače bude mít za následek vyšší náklady.Running the VM will incur higher costs.

Odstraňte prosím řešení, pokud ho nepoužíváte.Please delete the solution if you are not using it.