Kurz 1: předpověď úvěrového rizika – Azure Machine Learning Studio (Classic)Tutorial 1: Predict credit risk - Azure Machine Learning Studio (classic)

platí pro:  Toto je značka zaškrtnutí, což znamená, že se tento článek týká Machine Learning Studio (Classic).  APPLIES TO: This is a check mark, which means that this article applies to Machine Learning Studio (classic). Machine Learning Studio (Classic)  Toto je X, což znamená, že se tento článek týká Azure Machine Learning. Azure Machine LearningMachine Learning Studio (classic) This is an X, which means that this article applies to Azure Machine Learning.Azure Machine Learning

Tip

Zákazníci, kteří používají nebo vyhodnocují Machine Learning Studio (Classic), se doporučuje vyzkoušet Azure Machine Learning Studio, které poskytuje moduly přetažení a škálovatelnost , správu verzí a zabezpečení podniku.Customers using or evaluating Machine Learning Studio (classic) are encouraged to try Azure Machine Learning studio, which provides drag and drop ML modules plus scalability, version control, and enterprise security.

V tomto kurzu se podíváme na proces vývoje řešení prediktivní analýzy.In this tutorial, you take an extended look at the process of developing a predictive analytics solution. V Machine Learning Studio (Classic) vyvíjíte jednoduchý model.You develop a simple model in Machine Learning Studio (classic). Model pak nasadíte jako Azure Machine Learning webovou službu.You then deploy the model as an Azure Machine Learning web service. Tento nasazený model může vytvářet předpovědi s využitím nových dat.This deployed model can make predictions using new data. Tento kurz je první částí série kurzů se třemi částmi.This tutorial is part one of a three-part tutorial series.

Předpokládejme, že potřebujete předpovědět úvěrové riziko u jednotlivých zákazníků na základě údajů, které uvedli v žádosti o úvěr.Suppose you need to predict an individual's credit risk based on the information they gave on a credit application.

Posouzení úvěrového rizika je složitý problém, ale v tomto kurzu se tento kurz zjednodušuje.Credit risk assessment is a complex problem, but this tutorial will simplify it a bit. Použijete ho jako příklad, jak můžete vytvořit řešení prediktivní analýzy pomocí Microsoft Azure Machine Learning Studio (Classic).You'll use it as an example of how you can create a predictive analytics solution using Microsoft Azure Machine Learning Studio (classic). Pro toto řešení použijete Azure Machine Learning Studio (Classic) a Machine Learning webovou službu.You'll use Azure Machine Learning Studio (classic) and a Machine Learning web service for this solution.

V tomto kurzu se třemi částmi začínáte veřejně dostupnými daty o úvěrovém riziku.In this three-part tutorial, you start with publicly available credit risk data. Pak vyvíjíte a naučíte prediktivní model.You then develop and train a predictive model. Nakonec model nasadíte jako webovou službu.Finally you deploy the model as a web service.

V této části kurzu:In this part of the tutorial you:

  • Vytvořit pracovní prostor Machine Learning Studio (Classic)Create a Machine Learning Studio (classic) workspace
  • Nahrání existujících datUpload existing data
  • Vytvoření experimentuCreate an experiment

Pak můžete tento experiment použít k proškolování modelů v části 2 a pak je nasadit v části 3.You can then use this experiment to train models in part 2 and then deploy them in part 3.

PožadavkyPrerequisites

V tomto kurzu se předpokládá, že jste předtím používali Machine Learning Studio (Classic) alespoň jednou a že máte zkušenosti s koncepty machine learningu.This tutorial assumes that you've used Machine Learning Studio (classic) at least once before, and that you have some understanding of machine learning concepts. Bere ale v úvahu, že nejste odborníkem ani na jedno.But it doesn't assume you're an expert in either.

Pokud jste ještě nikdy nepoužívali Azure Machine Learning Studio (Classic) , můžete začít s rychlým startem, vytvořit první experiment pro datové vědy v Azure Machine Learning Studio (Classic).If you've never used Azure Machine Learning Studio (classic) before, you might want to start with the quickstart, Create your first data science experiment in Azure Machine Learning Studio (classic). Rychlý Start vás provede procesem Machine Learning Studio (klasický) poprvé.The quickstart takes you through Machine Learning Studio (classic) for the first time. Ukáže vám základy toho, jak pomocí myši přetáhnout moduly do experimentu, vzájemně je propojit, spustit experiment a prohlédnout si výsledky.It shows you the basics of how to drag-and-drop modules onto your experiment, connect them together, run the experiment, and look at the results.

Tip

Pracovní kopii experimentu, který vyvíjíte v tomto kurzu, můžete najít v Azure AI Gallery.You can find a working copy of the experiment that you develop in this tutorial in the Azure AI Gallery. Přejděte na kurz – předpověď úvěrového rizika a kliknutím na otevřít v studiu Stáhněte kopii experimentu do pracovního prostoru Machine Learning Studio (Classic).Go to Tutorial - Predict credit risk and click Open in Studio to download a copy of the experiment into your Machine Learning Studio (classic) workspace.

Vytvořit pracovní prostor Machine Learning Studio (Classic)Create a Machine Learning Studio (classic) workspace

Pokud chcete použít Machine Learning Studio (Classic), musíte mít pracovní prostor Microsoft Azure Machine Learning Studio (Classic).To use Machine Learning Studio (classic), you need to have a Microsoft Azure Machine Learning Studio (classic) workspace. Tento pracovní prostor obsahuje nástroje potřebné k vytváření, správě a publikování experimentů.This workspace contains the tools you need to create, manage, and publish experiments.

Pokud chcete vytvořit pracovní prostor, přečtěte si téma Vytvoření a sdílení pracovního prostoru Azure Machine Learning Studio (Classic).To create a workspace, see Create and share an Azure Machine Learning Studio (classic) workspace.

Po vytvoření pracovního prostoru otevřete Machine Learning Studio (Classic) ( https://studio.azureml.net/Home ).After your workspace is created, open Machine Learning Studio (classic) (https://studio.azureml.net/Home). Pokud máte více než jeden pracovní prostor, můžete pracovní prostor vybrat na panelu nástrojů v pravém horním rohu okna.If you have more than one workspace, you can select the workspace in the toolbar in the upper-right corner of the window.

Výběr pracovního prostoru v nástroji Studio (klasický)

Tip

Pokud jste vlastníkem pracovního prostoru, můžete nasdílet experimenty, na kterých právě pracujete, a to tak, že v pracovním prostoru vyzvete ostatní.If you are owner of the workspace, you can share the experiments you're working on by inviting others to the workspace. To můžete provést v Machine Learning Studio (Classic) na stránce Nastavení .You can do this in Machine Learning Studio (classic) on the SETTINGS page. Pro každého uživatele potřebujete pouze účet účet Microsoft nebo organizace.You just need the Microsoft account or organizational account for each user.

Na stránce Nastavení klikněte na Uživatelé a potom v dolní části okna klikněte na pozvat další uživatele .On the SETTINGS page, click USERS, then click INVITE MORE USERS at the bottom of the window.

Nahrání existujících datUpload existing data

Pro vývoj prediktivního modelu pro úvěrové riziko budete potřebovat data, která můžete použít ke školení a testování modelu.To develop a predictive model for credit risk, you need data that you can use to train and then test the model. V tomto kurzu použijete datovou sadu "UCI Statlog (německá úvěrová data)" z úložiště UC Irvine Machine Learning.For this tutorial, You'll use the "UCI Statlog (German Credit Data) Data Set" from the UC Irvine Machine Learning repository. Můžete ji najít tady:You can find it here:
https://archive.ics.uci.edu/ml/datasets/Statlog+(German+Credit+Data)

Použijete soubor s názvem němčina. data.You'll use the file named german.data. Stáhněte si tento soubor na svůj místní pevný disk.Download this file to your local hard drive.

Němčina. data DataSet obsahuje řádky 20 proměnných pro 1000 minulých žadatelů pro kredit.The german.data dataset contains rows of 20 variables for 1000 past applicants for credit. Tyto 20 proměnných představují sadu funkcí datové sady ( vektor funkce), která poskytuje identifikovatelné charakteristiky pro jednotlivé kandidáty na kredit.These 20 variables represent the dataset's set of features (the feature vector), which provides identifying characteristics for each credit applicant. Další sloupec v každém řádku představuje vypočtené úvěrové riziko žadatele s 700 žadateli, kteří se identifikovali jako nízké úvěrové riziko a 300 jako vysoké riziko.An additional column in each row represents the applicant's calculated credit risk, with 700 applicants identified as a low credit risk and 300 as a high risk.

Web UCI poskytuje popis atributů vektoru funkce pro tato data.The UCI website provides a description of the attributes of the feature vector for this data. Tato data zahrnují finanční informace, historii kreditů, stav zaměstnanosti a osobní údaje.This data includes financial information, credit history, employment status, and personal information. Pro každého žadatele bylo uvedeno binární hodnocení, které označuje, zda se jedná o nízké nebo vysoké úvěrové riziko.For each applicant, a binary rating has been given indicating whether they are a low or high credit risk.

Tato data použijete k vytvoření výukového modelu prediktivní analýzy.You'll use this data to train a predictive analytics model. Až budete hotovi, váš model by měl být schopný přijmout vektor funkce pro novou osobu a odhadnout, jestli se jedná o nízké nebo vysoké úvěrové riziko.When you're done, your model should be able to accept a feature vector for a new individual and predict whether they are a low or high credit risk.

Tady je zajímavou značku.Here's an interesting twist.

Popis datové sady na webu UCI uvádí, k čemu v případě netřídění úvěrového rizika u osoby nebudete zařadit.The description of the dataset on the UCI website mentions what it costs if you misclassify a person's credit risk. Pokud model předpovídá vysoké úvěrové riziko pro někoho, kdo je ve skutečnosti nízké úvěrové riziko, model provedl chybnou klasifikaci.If the model predicts a high credit risk for someone who is actually a low credit risk, the model has made a misclassification.

Ale reverzní nevratná klasifikace je pro finanční instituce pětkrát levnější: Pokud model předpovídá nízké úvěrové riziko pro někoho, kdo je skutečně vysokým úvěrovým rizikem.But the reverse misclassification is five times more costly to the financial institution: if the model predicts a low credit risk for someone who is actually a high credit risk.

Proto chcete svůj model naučit, aby náklady na tento druhý typ chybných klasifikací byly pětkrát vyšší než nezpůsobující netřídění jiným způsobem.So, you want to train your model so that the cost of this latter type of misclassification is five times higher than misclassifying the other way.

Jedním z jednoduchých způsobů, jak to provést při výuce modelu v experimentu, je duplikování (pětkrát) záznamů, které reprezentují někoho s vysokým úvěrovým rizikem.One simple way to do this when training the model in your experiment is by duplicating (five times) those entries that represent someone with a high credit risk.

V případě, že model chybně klasifikuje osobu jako nízké úvěrové riziko, když jsou ve skutečnosti vysoké riziko, model to znamená, že stejná nechybná klasifikace je pětkrát, jednou pro každou duplicitu.Then, if the model misclassifies someone as a low credit risk when they're actually a high risk, the model does that same misclassification five times, once for each duplicate. Tím se zvýší náklady na tuto chybu ve výsledcích školení.This will increase the cost of this error in the training results.

Převod formátu datové sadyConvert the dataset format

Původní datová sada používá formát oddělený prázdným znakem.The original dataset uses a blank-separated format. Machine Learning Studio (Classic) funguje lépe pomocí souboru s hodnotami oddělenými čárkami (CSV), takže tuto datovou sadu převedete tak, že nahradíte mezery čárkami.Machine Learning Studio (classic) works better with a comma-separated value (CSV) file, so you'll convert the dataset by replacing spaces with commas.

Existuje mnoho způsobů, jak tato data převést.There are many ways to convert this data. Jedním ze způsobů je použít následující příkaz Windows PowerShellu:One way is by using the following Windows PowerShell command:

cat german.data | %{$_ -replace " ",","} | sc german.csv  

Dalším způsobem je použití příkazu UNIX sed:Another way is by using the Unix sed command:

sed 's/ /,/g' german.data > german.csv

V obou případech jste vytvořili data oddělená čárkami v souboru s názvem german.csv , který můžete použít v experimentu.In either case, you have created a comma-separated version of the data in a file named german.csv that you can use in your experiment.

Nahrajte datovou sadu do Machine Learning Studio (Classic).Upload the dataset to Machine Learning Studio (classic)

Jakmile budou data převedena do formátu CSV, je nutné ji odeslat do Machine Learning Studio (Classic).Once the data has been converted to CSV format, you need to upload it into Machine Learning Studio (classic).

  1. Otevřete domovskou stránku Machine Learning Studio (Classic) ( https://studio.azureml.net ).Open the Machine Learning Studio (classic) home page (https://studio.azureml.net).

  2. Klikněte na nabídku s  ikonou nabídky – tři skládané čáry.Click the menu This is the menu icon - three stacked lines. v levém horním rohu okna klikněte na Azure Machine Learning, vyberte Studio a přihlaste se.in the upper-left corner of the window, click Azure Machine Learning, select Studio, and sign in.

  3. V dolní části okna klikněte na + Nový .Click +NEW at the bottom of the window.

  4. Vyberte datovou sadu.Select DATASET.

  5. Vyberte z místního souboru.Select FROM LOCAL FILE.

    Přidat datovou sadu z místního souboru

  6. V dialogovém okně nahrát novou datovou sadu klikněte na tlačítko Procházet a vyhledejte soubor german.csv , který jste vytvořili.In the Upload a new dataset dialog, click Browse, and find the german.csv file you created.

  7. Zadejte název datové sady.Enter a name for the dataset. Pro tento kurz zavolejte IT data o kreditních kartách "UCI němčina".For this tutorial, call it "UCI German Credit Card Data".

  8. Jako typ dat vyberte obecný soubor CSV bez záhlaví (.nh.csv).For data type, select Generic CSV File With no header (.nh.csv).

  9. Pokud chcete, přidejte popis.Add a description if you'd like.

  10. Klikněte na značku zaškrtnutí OK .Click the OK check mark.

    Nahrát datovou sadu

Tím se data nahrávají do modulu DataSet, který můžete použít v experimentu.This uploads the data into a dataset module that you can use in an experiment.

Datové sady, které jste nahráli do studia (Classic), můžete spravovat kliknutím na kartu datové sady vlevo v okně Studio (Classic).You can manage datasets that you've uploaded to Studio (classic) by clicking the DATASETS tab to the left of the Studio (classic) window.

Správa datových sad

Další informace o importování dalších typů dat do experimentu najdete v tématu Import školicích dat do Azure Machine Learning Studio (Classic).For more information about importing other types of data into an experiment, see Import your training data into Azure Machine Learning Studio (classic).

Vytvoření experimentuCreate an experiment

Dalším krokem v tomto kurzu je vytvořit experiment v Machine Learning Studio (Classic), který používá datovou sadu, kterou jste nahráli.The next step in this tutorial is to create an experiment in Machine Learning Studio (classic) that uses the dataset you uploaded.

  1. V nástroji Studio (Classic) klikněte v dolní části okna na + Nový .In Studio (classic), click +NEW at the bottom of the window.

  2. Vyberte experiment a potom vyberte "prázdný experiment".Select EXPERIMENT, and then select "Blank Experiment".

    Vytvoření nového experimentu

  3. V horní části plátna vyberte výchozí název experimentu a přejmenujte ho na něco smysluplného.Select the default experiment name at the top of the canvas and rename it to something meaningful.

    Přejmenovat experiment

    Tip

    Je dobrým zvykem vyplnit Souhrn a Popis experimentu v podokně vlastnosti .It's a good practice to fill in Summary and Description for the experiment in the Properties pane. Tyto vlastnosti poskytují možnost zdokumentovat experiment, aby každý, kdo ho uvidí později, porozuměl vašim cílům a metodologii.These properties give you the chance to document the experiment so that anyone who looks at it later will understand your goals and methodology.

    Vlastnosti experimentu

  4. V paletě modulu nalevo od plátna experimentu rozbalte uložené datové sady.In the module palette to the left of the experiment canvas, expand Saved Datasets.

  5. Najděte datovou sadu, kterou jste vytvořili v části Moje datové sady , a přetáhněte ji na plátno.Find the dataset you created under My Datasets and drag it onto the canvas. Datovou sadu můžete také vyhledat zadáním názvu do vyhledávacího pole nad paletou.You can also find the dataset by entering the name in the Search box above the palette.

    Přidat datovou sadu do experimentu

Příprava datPrepare the data

Můžete zobrazit prvních 100 řádků dat a některé statistické informace pro celou datovou sadu: klikněte na výstupní port datové sady (malý kroužek v dolní části) a vyberte vizualizovat.You can view the first 100 rows of the data and some statistical information for the whole dataset: Click the output port of the dataset (the small circle at the bottom) and select Visualize.

Vzhledem k tomu, že datový soubor nepřišel se záhlavími sloupců, Studio (Classic) poskytuje obecné nadpisy (Sloupec1, col2 atd.).Because the data file didn't come with column headings, Studio (classic) has provided generic headings (Col1, Col2, etc.). Dobré nadpisy nejsou nezbytné pro vytváření modelu, ale usnadňují práci s daty v experimentu.Good headings aren't essential to creating a model, but they make it easier to work with the data in the experiment. I když nakonec tento model publikujete ve webové službě, budou hlavičky identifikovat sloupce pro uživatele služby.Also, when you eventually publish this model in a web service, the headings help identify the columns to the user of the service.

Záhlaví sloupců můžete přidat pomocí modulu Upravit metadata .You can add column headings using the Edit Metadata module.

Pomocí modulu Upravit metadata můžete změnit metadata přidružená k datové sadě.You use the Edit Metadata module to change metadata associated with a dataset. V takovém případě ji použijete k poskytnutí výstižnější názvy pro záhlaví sloupců.In this case, you use it to provide more friendly names for column headings.

Chcete-li použít úpravu metadat, určete nejprve, které sloupce chcete upravit (v tomto případě všechny). Dále zadáte akci, která má být provedena na těchto sloupcích (v tomto případě Změna záhlaví sloupců).To use Edit Metadata, you first specify which columns to modify (in this case, all of them.) Next, you specify the action to be performed on those columns (in this case, changing column headings.)

  1. V paletě modulu zadejte do vyhledávacího pole "metadata".In the module palette, type "metadata" in the Search box. V seznamu modulů se zobrazí metadata pro úpravy .The Edit Metadata appears in the module list.

  2. Klikněte na plátno a přetáhněte na něj modul Upravit metadata a přetáhněte ho pod datovou sadu, kterou jste přidali dříve.Click and drag the Edit Metadata module onto the canvas and drop it below the dataset you added earlier.

  3. Připojte datovou sadu k metadatům pro úpravy: klikněte na výstupní port datové sady (malý kroužek v dolní části datové sady), přetáhněte na vstupní port Upravit metadata (malý kroužek v horní části modulu) a pak uvolněte tlačítko myši.Connect the dataset to the Edit Metadata: click the output port of the dataset (the small circle at the bottom of the dataset), drag to the input port of Edit Metadata (the small circle at the top of the module), then release the mouse button. Datová sada a modul zůstávají propojené i v případě, že se přesunete podél plátna.The dataset and module remain connected even if you move either around on the canvas.

    Experiment by teď měl vypadat nějak takto:The experiment should now look something like this:

    Přidávání metadat pro úpravy

    Červený vykřičník označuje, že ještě nemáte nastavené vlastnosti pro tento modul.The red exclamation mark indicates that you haven't set the properties for this module yet. Uděláte to za chvíli.You'll do that next.

    Tip

    Kliknutím dvakrát na modul a zadáním textu je možné přidat k modulu komentář.You can add a comment to a module by double-clicking the module and entering text. To vám může pomoci rychle poznat, jaký je účel modulu v experimentu.This can help you see at a glance what the module is doing in your experiment. V takovém případě poklikejte na modul Upravit metadata a zadejte komentář "Přidání záhlaví sloupců".In this case, double-click the Edit Metadata module and type the comment "Add column headings". Textové pole zavřete kliknutím kamkoli jinde na plátně.Click anywhere else on the canvas to close the text box. Chcete-li zobrazit komentář, klikněte na šipku dolů v modulu.To display the comment, click the down-arrow on the module.

    Upravit modul metadat s přidaným komentářem

  4. Vyberte Upravit metadataa v podokně vlastnosti napravo od plátna klikněte na Spustit selektor sloupců.Select Edit Metadata, and in the Properties pane to the right of the canvas, click Launch column selector.

  5. V dialogovém okně Vybrat sloupce vyberte všechny řádky v dostupných sloupcích a kliknutím na > je přesuňte do vybraných sloupců.In the Select columns dialog, select all the rows in Available Columns and click > to move them to Selected Columns. Dialogové okno by mělo vypadat takto:The dialog should look like this:

    Selektor sloupců se zvolenými vybranými sloupci

  6. Klikněte na značku zaškrtnutí OK .Click the OK check mark.

  7. Zpátky v podokně vlastnosti vyhledejte Nový parametr názvů sloupců .Back in the Properties pane, look for the New column names parameter. Do tohoto pole zadejte seznam názvů pro 21 sloupců v datové sadě oddělené čárkami a v pořadí sloupců.In this field, enter a list of names for the 21 columns in the dataset, separated by commas and in column order. Názvy sloupců můžete získat z dokumentace datové sady na webu UCI nebo pro usnadnění můžete zkopírovat a vložit následující seznam:You can obtain the columns names from the dataset documentation on the UCI website, or for convenience you can copy and paste the following list:

    Status of checking account, Duration in months, Credit history, Purpose, Credit amount, Savings account/bond, Present employment since, Installment rate in percentage of disposable income, Personal status and sex, Other debtors, Present residence since, Property, Age in years, Other installment plans, Housing, Number of existing credits, Job, Number of people providing maintenance for, Telephone, Foreign worker, Credit risk  
    

    Podokno Vlastnosti vypadá takto:The Properties pane looks like this:

    Vlastnosti pro úpravu metadat

    Tip

    Pokud chcete ověřit záhlaví sloupců, spusťte experiment (klikněte na tlačítko Spustit pod plátnem experimentu).If you want to verify the column headings, run the experiment (click RUN below the experiment canvas). Po dokončení běhu (pro úpravy metadatse zobrazí zelený znak zaškrtnutí), klikněte na výstupní port modulu úprav metadat a vyberte vizualizovat.When it finishes running (a green check mark appears on Edit Metadata), click the output port of the Edit Metadata module, and select Visualize. Výstup libovolného modulu můžete zobrazit stejným způsobem, jak zobrazit průběh dat v experimentu.You can view the output of any module in the same way to view the progress of the data through the experiment.

Vytváření školicích a testovacích datových sadCreate training and test datasets

K tomu, abyste mohli model vyškolit, budete potřebovat nějaká data a otestujete ho.You need some data to train the model and some to test it. V dalším kroku experimentu budete mít datovou sadu rozdělenou do dvou samostatných datových sad: jednu pro školení našeho modelu a jednu pro testování.So in the next step of the experiment, you split the dataset into two separate datasets: one for training our model and one for testing it.

K tomu použijte modul rozdělit data .To do this, you use the Split Data module.

  1. Najděte modul rozdělit data , přetáhněte ho na plátno a připojte ho k modulu Upravit metadata .Find the Split Data module, drag it onto the canvas, and connect it to the Edit Metadata module.

  2. Ve výchozím nastavení je poměr rozdělení 0,5 a je nastaven parametr náhodného rozdělení .By default, the split ratio is 0.5 and the Randomized split parameter is set. To znamená, že náhodná polovina dat je výstupem přes jeden port modulu rozdělených dat a polovina až po druhé.This means that a random half of the data is output through one port of the Split Data module, and half through the other. Tyto parametry můžete upravit, stejně jako parametr náhodného osazení , chcete-li změnit rozdělení mezi školicími a testovacími daty.You can adjust these parameters, as well as the Random seed parameter, to change the split between training and testing data. V tomto příkladu je ponecháte tak, jak je.For this example, you leave them as-is.

    Tip

    Zlomky vlastností řádků v první výstupní datové sadě určují, kolik dat je výstupem na levém výstupním portu.The property Fraction of rows in the first output dataset determines how much of the data is output through the left output port. Pokud například nastavíte poměr na 0,7, pak 70% dat je výstupem přes levý port a 30% přes správný port.For instance, if you set the ratio to 0.7, then 70% of the data is output through the left port and 30% through the right port.

  3. Dvakrát klikněte na modul rozdělení dat a zadejte komentář "data o školeních a testováních 50%".Double-click the Split Data module and enter the comment, "Training/testing data split 50%".

Můžete použít výstupy modulu rozdělených dat , ale můžete se rozhodnout použít levý výstup jako školicí data a správný výstup jako testovací data.You can use the outputs of the Split Data module however you like, but let's choose to use the left output as training data and the right output as testing data.

Jak je uvedeno v předchozím kroku, náklady na chybnou klasifikaci vysokého úvěrového rizika v nízkém rozsahu jsou pětkrát vyšší než náklady na neklasifikaci nízkého úvěrového rizika jako vysoké.As mentioned in the previous step, the cost of misclassifying a high credit risk as low is five times higher than the cost of misclassifying a low credit risk as high. K tomuto účtu vygenerujete novou datovou sadu, která odráží tuto nákladovou funkci.To account for this, you generate a new dataset that reflects this cost function. V nové datové sadě se každý příklad s vysokým rizikem replikuje pětkrát, zatímco každý příklad s nízkým rizikem není replikovaný.In the new dataset, each high risk example is replicated five times, while each low risk example is not replicated.

Tuto replikaci můžete provést pomocí kódu R:You can do this replication using R code:

  1. Najděte a přetáhněte modul spuštění skriptu jazyka R na plátno experimentu.Find and drag the Execute R Script module onto the experiment canvas.

  2. Připojte levý výstupní port modulu rozdělit data k prvnímu vstupnímu portu ("DataSet1.") modulu spuštění skriptu jazyka R .Connect the left output port of the Split Data module to the first input port ("Dataset1") of the Execute R Script module.

  3. Dvakrát klikněte na modul spuštění skriptu jazyka R a zadejte komentář. "nastavit adjustaci nákladů".Double-click the Execute R Script module and enter the comment, "Set cost adjustment".

  4. V podokně vlastnosti odstraňte výchozí text v parametru skriptu jazyka R a zadejte tento skript:In the Properties pane, delete the default text in the R Script parameter and enter this script:

    dataset1 <- maml.mapInputPort(1)
    data.set<-dataset1[dataset1[,21]==1,]
    pos<-dataset1[dataset1[,21]==2,]
    for (i in 1:5) data.set<-rbind(data.set,pos)
    maml.mapOutputPort("data.set")
    

    Skript r v modulu spouštění skriptu jazyka R

Tato operace replikace je potřeba provést pro každý výstup modulu rozdělení dat , aby data školení a testování měla stejnou adjustaci nákladů.You need to do this same replication operation for each output of the Split Data module so that the training and testing data have the same cost adjustment. Nejsnadnější způsob, jak to provést, je duplikace modulu skriptu Execute-R , který jste právě provedli, a jeho připojením k druhému výstupnímu portu modulu Split data .The easiest way to do this is by duplicating the Execute R Script module you just made and connecting it to the other output port of the Split Data module.

  1. Klikněte pravým tlačítkem na modul spuštění skriptu jazyka R a vyberte možnost Kopírovat.Right-click the Execute R Script module and select Copy.

  2. Klikněte pravým tlačítkem na plátno experimentu a vyberte Vložit.Right-click the experiment canvas and select Paste.

  3. Přetáhněte nový modul na pozici a pak připojte pravý výstupní port modulu Split data k prvnímu vstupnímu portu tohoto nového modulu skriptu pro spuštění R .Drag the new module into position, and then connect the right output port of the Split Data module to the first input port of this new Execute R Script module.

  4. V dolní části plátna klikněte na Spustit.At the bottom of the canvas, click Run.

Tip

Kopie modulu spuštění skriptu jazyka R obsahuje stejný skript jako původní modul.The copy of the Execute R Script module contains the same script as the original module. Když zkopírujete a vložíte modul na plátno, kopie zachová všechny vlastnosti originálu.When you copy and paste a module on the canvas, the copy retains all the properties of the original.

Náš experiment teď vypadá nějak takto:Our experiment now looks something like this:

Přidání rozděleného modulu a skriptů R

Další informace o použití skriptů R v experimentech najdete v tématu o prodloužení experimentu pomocí jazyka r.For more information on using R scripts in your experiments, see Extend your experiment with R.

Vyčištění prostředkůClean up resources

Pokud už nepotřebujete prostředky, které jste vytvořili pomocí tohoto článku, odstraňte je, abyste se vyhnuli poplatkům.If you no longer need the resources you created using this article, delete them to avoid incurring any charges. Naučte se, jak v článku exportovat a odstranit data uživatelů v produktu.Learn how in the article, Export and delete in-product user data.

Další krokyNext steps

V tomto kurzu jste dokončili tyto kroky:In this tutorial you completed these steps:

  • Vytvořit pracovní prostor Machine Learning Studio (Classic)Create a Machine Learning Studio (classic) workspace
  • Nahrání stávajících dat do pracovního prostoruUpload existing data into the workspace
  • Vytvoření experimentuCreate an experiment

Nyní jste připraveni vyškolit a vyhodnocovat modely pro tato data.You are now ready to train and evaluate models for this data.