Przewidywanie obciążenia pożyczek za pomocą Azure HDInsight Spark klastrów

HDInsight
Power BI

Pomysł na rozwiązanie

Jeśli chcesz, abyśmy rozszerzyli ten artykuł o więcej informacji, takich jak potencjalne przypadki użycia, alternatywne usługi, zagadnienia dotyczące implementacji lub wskazówki dotyczące cen, daj nam znać, GitHub opinie!

Pożyczka rozliczana to pożyczka zadeklarowana przez instytucję finansową, w przypadku której kwota długu jest mało prawdopodobna, zwykle gdy spłata pożyczki jest poważnie obciążana przez kredyt. Ze względu na to, że wysokie obciążenie ma negatywny wpływ na finanse na koniec roku instytucji, instytucje te często bardzo ściśle monitorują ryzyko obciążenia pożyczkami, aby zapobiec naliczaniu pożyczek. Korzystając z usług ML Services na platformie Azure HDInsight, lokalna instytucja może używać analizy predykcyjnej uczenia maszynowego do przewidywania prawdopodobieństwa naliczania pożyczek i uruchamiania raportu na podstawie wyników analizy przechowywanych w tabelach HDFS i hive.

Architektura

Diagram architektury

Pobierz format SVG tej architektury.

Przepływ danych

  1. Tworzenie danych i definiowanie źródeł danych na ML danych
  2. Uruchamianie regresji logistycznej na danych przy użyciu lokalnego kontekstu obliczeniowego (lub spark) w celu przewidywania zmiennej obciążenia pożyczek
  3. Łączenie się z tabelą za pomocą łącznika spark usługi Azure HDInsights
  4. Używanie Power BI do interpretowania tych danych i tworzenia nowych wizualizacji
  5. (Opcjonalnie) Wdrażanie modelu jako usługi internetowej, z której można korzystać na popularnych urządzeniach, takich jak komputery i urządzenia przenośne

Opis

To rozwiązanie spowoduje utworzenie klastra typu ML Services w Azure HDInsight. Ten klaster będzie zawierać 2 węzły główne, 2 węzły procesu roboczego i 1 węzeł brzegowy z łącznie 32 rdzeniami. Przybliżony koszt dla tego klastra HDInsight Spark wynosi 8,29 USD/godzinę. Rozliczanie rozpoczyna się po utworzeniu klastra i zatrzymuje się po usunięciu klastra. Opłaty są naliczane za minutę, więc jeśli klaster nie jest używany, należy go usunąć. Użyj strony Wdrożenia, aby usunąć całe rozwiązanie po zakończeniu.

Omówienie

Istnieje wiele korzyści dla instytucji kredytowych, które mogą przygotować się na dane przewidywania obciążenia pożyczek. Naliczanie pożyczki to ostateczna możliwość, która bank zrobi w przypadku poważnie nieliniowej pożyczki. Przy użyciu posiadanych danych przewidywania inspektor kredytowy może zaoferować spersonalizowane zachęty, takie jak niższa stopa procentowa lub dłuższy okres spłaty, aby pomóc klientom w podejmowaniu spłat pożyczek i w ten sposób zapobiec spłatom pożyczki. Aby uzyskać dostęp do tego typu danych przewidywania, często instytucje kredytowe lub banki ręcznie ręcznie przygotowywały dane na podstawie historii płatności klientów i wykonywały prostą statystyczną analizę regresji. Ta metoda w dużym stopniu podlega błędowi kompilacji danych i nie jest statystycznie skuteczna.

Ten szablon rozwiązania przedstawia rozwiązanie, które pozwala uruchomić analizę predykcyjną danych pożyczek i uzyskać wyniki na podstawie prawdopodobieństwa obciążenia. Raport usługi PowerBI będzie również zawierał analizę i trend pożyczek kredytowych oraz przewidywanie prawdopodobieństwa obciążenia.

Perspektywa biznesowa

To przewidywanie obciążenia pożyczkami wykorzystuje symulowane dane historii pożyczki do przewidywania prawdopodobieństwa obciążenia pożyczek w najbliższej przyszłości (w ciągu następnych trzech miesięcy). Im wyższa ocena, tym wyższe jest prawdopodobieństwo, że pożyczka zostanie obciążona w przyszłości.

Dzięki danych analitycznych menedżer pożyczek przedstawia również trendy i analizę pożyczek na obciążenie dla lokalizacji oddziałów. Charakterystyka pożyczek o wysokim ryzyku obciążenia pomoże menedżerom pożyczek w planowaniu biznesowym oferty pożyczek w tym konkretnym obszarze geograficznym.

Power BI przedstawia również wizualne podsumowania spłat pożyczek i przewidywań obciążenia (pokazane tutaj z symulowane dane). Możesz wypróbować ten pulpit nawigacyjny, klikając przycisk "Wypróbuj teraz" po prawej stronie.

Perspektywa analityka danych

Ten szablon rozwiązania zawiera omówny proces tworzenia przewidywań analizy przy użyciu zestawu symulowanych danych historii pożyczek w celu przewidywania ryzyka obciążenia pożyczkami. Dane te zawierają takie informacje jak dane demograficzne właściciela pożyczki, kwota pożyczki, czas trwania pożyczki umownej i historia płatności pożyczek. Szablon rozwiązania zawiera również zestaw skryptów języka R, które wykonują przetwarzanie danych, inżynierię cech i kilka różnych algorytmów do trenowania danych, a na koniec wybiera najlepszy model, aby uzyskać ocenę danych w celu uzyskania wyniku prawdopodobieństwa dla każdej pożyczki.

Naukowcy zajmujący się danymi testując to rozwiązanie mogą pracować z dostarczonym kodem R z przeglądarkowej wersji open source programu RStudio Server, która działa w węźle krawędzi usługi ML Services w klastrze Azure HDInsight klastra. Ustawiając kontekst obliczeniowy, użytkownik może zdecydować, gdzie obliczenia będą wykonywane: lokalnie w węźle krawędzi lub rozproszone między węzłami w klastrze Spark. Cały kod R można również znaleźć w publicznym GitHub repozytorium. Baw się dobrze!

Składniki

  • Azure HDInsight:Azure HDInsight to zarządzana usługa analizy typu open source o pełnym spektrum w chmurze dla przedsiębiorstw. Można jej używać z platformami typu „open source”, takimi jak Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R i nie tylko.
  • Power BI udostępnia interaktywny pulpit nawigacyjny z wizualizacją, która używa danych przechowywanych w SQL Server do podejmowania decyzji dotyczących przewidywań.

Zobacz też

  • Przewodnik dewelopera języka Rpo platformie Azure: ten artykuł zawiera omówienie różnych sposobów wykorzystania przez naukowców danych istniejących umiejętności z językiem programowania R na platformie Azure.
  • Analizowanie Apache Spark danych przy użyciu Power BI w umacie HDInsight:jak używać usługi Microsoft Power BI do wizualizacji danych w klastrze Apache Spark w Azure HDInsight.
  • Operationalize ML Services cluster on Azure HDInsight: Operationalize the model to make predictions using an ML Services cluster on Azure HDInsight (Operationalize the model to make predictions using an ML Services cluster on Azure HDInsight (Z operationalize ML Services cluster on Azure HDInsight(