Optimalizace kampaně s Azure HDInsight Sparkmi clustery

HDInsight

Nápad řešení Solution Idea

Pokud se chcete podívat, jak nás rozšířit tento článek o další informace, podrobnosti implementace, doprovodné materiály nebo příklady kódu, dejte nám vědět s názory na GitHubu.If you'd like to see us expand this article with more information, implementation details, pricing guidance, or code examples, let us know with GitHub Feedback!

Toto řešení ukazuje, jak sestavit a nasadit model strojového učení s Microsoft R Server v clusterech Azure HDInsight Spark a doporučí akce pro maximalizaci nákupních objednávek potenciálních zákazníků, na které cílí kampaň.This solution demonstrates how to build and deploy a machine learning model with Microsoft R Server on Azure HDInsight Spark clusters to recommend actions to maximize the purchase rate of leads targeted by a campaign. Toto řešení umožňuje efektivní zpracování velkých objemů dat ve Sparku s Microsoft R Server.This solution enables efficient handling of big data on Spark with Microsoft R Server.

ArchitekturaArchitecture

Diagram architektury Stáhnout SVG této architektury.Architecture diagram Download an SVG of this architecture.

PopisDescription

Toto řešení vytvoří cluster HDInsight Spark s Microsoft R Server.This solution will create an HDInisght Spark cluster with Microsoft R Server. Tento cluster bude obsahovat dva hlavní uzly, dva pracovní uzly a jeden hraniční uzel s celkem 32 jader.This cluster will contain two head nodes, two worker nodes, and one edge node with a total of 32 cores. Přibližné náklady na tento cluster HDInsight Spark jsou $8.29/Hour.The approximate cost for this HDInsight Spark cluster is $8.29/hour. Po vytvoření clusteru a jeho zastavení se začne účtovat.Billing starts once a cluster is created and stops when the cluster is deleted. Účtuje se poměrnou částí po minutách, takže byste cluster měli odstranit vždy, když už se nepoužívá.Billing is pro-rated per minute, so you should always delete your cluster when it is no longer in use. Po dokončení můžete odstranit celé řešení pomocí stránky nasazení.Use the Deployments page to delete the entire solution once you are done.

PřehledOverview

Když podnik spustí marketingovou kampaň pro zákazníky, kteří mají zájem o nové nebo existující produkty, často používají sadu obchodních pravidel k výběru potenciálních zákazníků, na které se má jejich kampaň zaměřit.When a business launches a marketing campaign to interest customers in new or existing product(s), they often use a set of business rules to select leads for their campaign to target. Machine Learning se dá použít k zvýšení míry odezvy těchto potenciálních zákazníků.Machine learning can be used to help increase the response rate from these leads. Toto řešení ukazuje, jak použít model k předpovědi akcí, které se očekávají k maximalizaci nákupních sazeb potenciálních zákazníků, na které cílí kampaň.This solution demonstrates how to use a model to predict actions that are expected to maximize the purchase rate of leads targeted by the campaign. Tyto předpovědi slouží jako základ pro doporučení pro použití obnovené kampaně na tom, jak kontaktovat (například e-mail, SMS nebo zavolat) a kdy kontaktovat (den v týdnu a denní dobu) cílené zájemce.These predictions serve as the basis for recommendations to be used by a renewed campaign on how to contact (for example, e-mail, SMS, or cold call) and when to contact (day of week and time of day) the targeted leads. Zde uvedené řešení využívá Simulovaná data z pojišťovacího odvětví a modeluje odpovědi vedoucí na kampaň.The solution presented here uses simulated data from the insurance industry to model responses of the leads to the campaign. Předpovídání modelu zahrnují demografické údaje o potenciálních zákaznících, historii historických kampaní a podrobnostech specifických pro daný produkt.The model predictors include demographic details of the leads, historical campaign performance, and product-specific details. Model předpovídá pravděpodobnost, že každý zájemce v databázi provede nákup z kanálu, a to každý den v týdnu v různou denní dobu.The model predicts the probability that each lead in the database makes a purchase from a channel, on each day of the week at various times of day. Doporučení, na kterých kanálu, den v týdnu a denní dobu, která se mají použít při cílení na uživatele, jsou založena na kombinaci kanálu a časování, kterou odhad modelu bude mít nejvyšší pravděpodobnost při nákupu.Recommendations on which channel, day of week and time of day to use when targeting users are based then on the channel and timing combination that the model predicts will have the highest probability a purchase being made.

Obchodní perspektivaBusiness Perspective

Toto řešení využívá strojové učení s využitím historických dat o kampaních k předpovědi reakcí zákazníků a doporučuje, kdy a jak se s vašimi zájemci spojit.This solution employs machine learning leveraging historical campaign data to predict customer responses and recommend when and how to connect with your leads. Doporučení zahrnují nejlepší kanál pro kontaktování zájemce (v našem příkladu e-mail, SMS nebo hovor), nejlepší den v týdnu a nejlepší denní dobu, kdy se má kontakt uskutečnit.The recommendations include the best channel to contact a lead (in our example, email, SMS, or cold call), the best day of the week and the best time of day in which to make the contact.

Microsoft R Server v clusterech HDInsight Spark poskytují distribuované a škálovatelné možnosti strojového učení pro velké objemy dat, které využívají kombinaci síly R Server a Apache Spark.Microsoft R Server on HDInsight Spark clusters provides distributed and scalable machine learning capabilities for big data, leveraging the combined power of R Server and Apache Spark. Toto řešení ukazuje, jak vyvíjet modely strojového učení pro optimalizaci marketingových kampaní (včetně zpracování dat, vytváření funkcí, školení a vyhodnocování modelů), nasazení modelů jako webové služby (na hraničním uzlu) a vzdálené využívání webové služby s Microsoft R Server v Azure HDInsight Sparkch clusterech.This solution demonstrates how to develop machine learning models for marketing campaign optimization (including data processing, feature engineering, training and evaluating models), deploy the models as a web service (on the edge node) and consume the web service remotely with Microsoft R Server on Azure HDInsight Spark clusters. Konečná tabulka předpovědi a doporučení se uloží do tabulky podregistru obsahující doporučení, jak a kdy kontaktovat jednotlivé zájemce.The final predictions and recommendation table are saved to a Hive table containing recommendations for how and when to contact each lead. Tato data se pak vizuálně vyPower BI.This data is then visualized in Power BI.

Power BI taky prezentují vizuální souhrny účinnosti doporučení pro kampaň (tady se zobrazují se simulovanými daty).Power BI also presents visual summaries of the effectiveness of the campaign recommendations (shown here with simulated data). Tento řídicí panel si můžete vyzkoušet kliknutím na tlačítko vyzkoušet hned vpravo.You can try out this dashboard by clicking the Try it Now button to the right.

Na kartě Recommendations (doporučení) tohoto řídicího panelu se zobrazují předpokládaná doporučení.The Recommendations tab of this dashboard shows the predicted recommendations. V horní části je tabulka jednotlivých potenciálních zákazníků pro naše nové nasazení.At the top is a table of individual leads for our new deployment. Patří sem pole pro ID zájemce, kampaň a produkt, které se naplní zájemci, na kterých se budou používat naše obchodní pravidla.This includes fields for the lead ID, campaign, and product, populated with leads on which our business rules are to be applied. Za tím následuje model předpovědi pro potenciální zákazníky, který dává optimální kanál a čas pro jejich kontaktování, a odhad pravděpodobnosti, kterou si zákazníci koupí náš produkt pomocí těchto doporučení.This is followed by the model predictions for the leads, giving the optimal channel and time to contact each one, along with the estimated probabilities that the leads will buy our product using these recommendations. Tyto pravděpodobnosti je možné využít ke zvýšení efektivity kampaně tím, že omezíte počet potenciálních zákazníků, které jsou kontaktovány s největší pravděpodobností nákupu.These probabilities can be used to increase the efficiency of the campaign by limiting the number of leads contacted to the subset most likely to buy.

Na kartě Recommendations (doporučení) jsou také různé přehledy doporučení a demografických informací o potenciálních zákaznících.Also on the Recommendations tab are various summaries of recommendations and demographic information on the leads. Karta souhrn kampaně na řídicím panelu zobrazuje souhrny historických dat použitých k vytvoření předpokládaných doporučení.The Campaign Summary tab of the dashboard shows summaries of the historical data used to create the predicted recommendations. I když na této kartě se zobrazují také hodnoty pro den v týdnu, denní dobu a kanál, jsou tyto hodnoty skutečnými připomínkami, nemusíte je zaměňovat s doporučeními z modelu zobrazenými na kartě doporučení.While this tab also shows values of Day of Week, Time of Day, and Channel, these values are actual past observations, not to be confused with the recommendations from the model, shown on the Recommendations tab.

Perspektiva pro data – vědeckýData Scientist Perspective

Toto řešení předvádí kompletní proces vývoje a nasazení modelů strojového učení pro optimalizaci marketingových kampaní.This solution demonstrates the end-to-end process of how to develop and deploy machine learning models for marketing campaign optimization. Obsahuje ukázková data, kód R pro každý krok sestavování modelu (včetně zpracování dat, vytváření funkcí, školení a vyhodnocení modelů spolu s ukázkovými daty), nasazení modelu jako webové služby (na hraničním uzlu) a vzdálené využívání webové služby s Microsoft R Server v clusterech Azure HDInsight Spark.It contains sample data, R code for each step of building the model (including data processing, feature engineering, training and evaluating models along with sample data), deploying the model as a web service (on the edge node) and consuming the web service remotely with Microsoft R Server on Azure HDInsight Spark clusters.

Odborníci na data, kteří testují toto řešení, můžou pracovat se zadaným kódem R z open source edice RStudio serveru, která běží na hraničním uzlu clusteru Azure HDInsight Spark.Data scientists who are testing this solution can work with the provided R code from the browser-based Open Source Edition of RStudio Server that runs on the Edge Node of the Azure HDInsight Spark cluster. Nastavením výpočetního kontextu může uživatel rozhodnout, kde bude proveden výpočet: místně na hraničním uzlu nebo distribuován napříč uzly v clusteru Spark.By setting the compute context the user can decide where the computation will be performed: locally on the edge node, or distributed across the nodes in the Spark cluster. Veškerý kód R se taky dá najít ve veřejném úložišti GitHubu.All the R code can also be found in public GitHub repository. Bav se!Have fun!