1. Oktatóanyag: hitelkockázat előrejelzése – Azure Machine Learning Studio (klasszikus)Tutorial 1: Predict credit risk - Azure Machine Learning Studio (classic)

a következőkre vonatkozik:  Ez egy pipa, ami azt jelenti, hogy ez a cikk a Machine Learning Studio (klasszikus) elemre vonatkozik.  APPLIES TO: This is a check mark, which means that this article applies to Machine Learning Studio (classic). Machine Learning Studio (klasszikus)  Ez egy X, ami azt jelenti, hogy ez a cikk Azure Machine learningre vonatkozik. Azure Machine LearningMachine Learning Studio (classic) This is an X, which means that this article applies to Azure Machine Learning.Azure Machine Learning

Tipp

A Machine Learning Studiót (klasszikus) használó vagy értékelő ügyfeleknek ajánlott a Azure Machine Learning stúdió,amely húzással használható ML-modulokat, valamint méretezhetőséget, verzióvezérlést és vállalati biztonságot nyújt.Customers using or evaluating Machine Learning Studio (classic) are encouraged to try Azure Machine Learning studio, which provides drag and drop ML modules plus scalability, version control, and enterprise security. A jelenlegi Studio- (klasszikus) ügyfelek megtudhatják, hogyan minklálhat a Azure Machine Learning.Current Studio (classic) customers can learn how to migrate to Azure Machine Learning.

Ez az oktatóanyag részletesen bemutatja a prediktív elemzési megoldások fejlesztésének folyamatát.In this tutorial, you take an extended look at the process of developing a predictive analytics solution. Egy egyszerű modellt fejleszt Machine Learning Studio (klasszikus).You develop a simple model in Machine Learning Studio (classic). Ezután Azure Machine Learning webszolgáltatásként helyezheti üzembe a modellt.You then deploy the model as an Azure Machine Learning web service. Ez a központilag telepített modell új adatelemzést végezhet az előrejelzésekhez.This deployed model can make predictions using new data. Ez az oktatóanyag egy háromrészes oktatóanyag-sorozat első része.This tutorial is part one of a three-part tutorial series.

Tegyük fel, hogy előrejelzést kell készíteni egy személy hitelkockázatáról az általa kitöltött hitelkérelemben megadott adatok alapján.Suppose you need to predict an individual's credit risk based on the information they gave on a credit application.

A hitelkockázat-értékelés összetett probléma, de ez az oktatóanyag egy kicsit egyszerűbbé válik.Credit risk assessment is a complex problem, but this tutorial will simplify it a bit. Példaként fogja használni, hogyan hozhat létre prediktív elemzési megoldást Microsoft Azure Machine Learning Studio (klasszikus) használatával.You'll use it as an example of how you can create a predictive analytics solution using Microsoft Azure Machine Learning Studio (classic). Ehhez a megoldáshoz Azure Machine Learning Studio (klasszikus) és egy Machine Learning webszolgáltatást fog használni.You'll use Azure Machine Learning Studio (classic) and a Machine Learning web service for this solution.

Ebben a három részből álló oktatóanyagban nyilvánosan elérhető hitelkockázat-adatforrásokkal kezdheti meg.In this three-part tutorial, you start with publicly available credit risk data. Ezután fejlesztheti és betaníthatja a prediktív modellt.You then develop and train a predictive model. Végül üzembe helyezi a modellt webszolgáltatásként.Finally you deploy the model as a web service.

Az oktatóanyag ezen részében:In this part of the tutorial you:

  • Machine Learning Studio (klasszikus) munkaterület létrehozásaCreate a Machine Learning Studio (classic) workspace
  • Meglévő adatok feltöltéseUpload existing data
  • Kísérlet létrehozásaCreate an experiment

Ezután ezt a kísérletet a 2. részben szereplő modellek betanítására , majd a 3. részbe történő telepítésérehasználhatja.You can then use this experiment to train models in part 2 and then deploy them in part 3.

ElőfeltételekPrerequisites

Ez az oktatóanyag azt feltételezi, hogy legalább egyszer már használta Machine Learning Studio (klasszikus), és hogy a gépi tanulási fogalmakat is megértette.This tutorial assumes that you've used Machine Learning Studio (classic) at least once before, and that you have some understanding of machine learning concepts. Az útmutató azonban nem feltételezi, hogy a fent említett területeken szakértő lenne.But it doesn't assume you're an expert in either.

Ha még soha nem használta a Azure Machine learning Studio (klasszikus) alkalmazást, érdemes elindítania az első adatelemzési kísérletet Azure Machine learning Studio (klasszikus).If you've never used Azure Machine Learning Studio (classic) before, you might want to start with the quickstart, Create your first data science experiment in Azure Machine Learning Studio (classic). A rövid útmutató végigvezeti Machine Learning Studio (klasszikus) az első alkalommal.The quickstart takes you through Machine Learning Studio (classic) for the first time. Bemutatja az alapokat, azt, hogy hogyan húzhat be modulokat a kísérletbe és kapcsolhatja össze azokat, és hogyan futtathatja a kísérletet és tekintheti meg az eredményeket.It shows you the basics of how to drag-and-drop modules onto your experiment, connect them together, run the experiment, and look at the results.

Tipp

A jelen oktatóanyagban a Azure AI Gallerybankifejlesztett kísérlet egy működő példányát is megtalálhatja.You can find a working copy of the experiment that you develop in this tutorial in the Azure AI Gallery. Ugrás az oktatóanyagra – a hitelkockázat előrejelzése , és a kísérlet egy példányának letöltéséhez kattintson az Open in Studio (Megnyitás a Studióban ) lehetőségre a Machine learning Studio (klasszikus) munkaterületreGo to Tutorial - Predict credit risk and click Open in Studio to download a copy of the experiment into your Machine Learning Studio (classic) workspace.

Machine Learning Studio (klasszikus) munkaterület létrehozásaCreate a Machine Learning Studio (classic) workspace

Machine Learning Studio (klasszikus) használatához Microsoft Azure Machine Learning Studio (klasszikus) munkaterületre van szükség.To use Machine Learning Studio (classic), you need to have a Microsoft Azure Machine Learning Studio (classic) workspace. Ez a munkaterület tartalmazza a kísérletek létrehozásához, kezeléséhez és közzétételéhez szükséges eszközöket.This workspace contains the tools you need to create, manage, and publish experiments.

Munkaterület létrehozásához lásd: Azure Machine learning Studio (klasszikus) munkaterület létrehozása és megosztása.To create a workspace, see Create and share an Azure Machine Learning Studio (classic) workspace.

A munkaterület létrehozása után nyissa meg Machine Learning Studio (klasszikus) ( https://studio.azureml.net/Home ).After your workspace is created, open Machine Learning Studio (classic) (https://studio.azureml.net/Home). Ha több munkaterülettel rendelkezik, a munkaterületet az ablak jobb felső sarkában található eszköztárban választhatja ki.If you have more than one workspace, you can select the workspace in the toolbar in the upper-right corner of the window.

Munkaterület kiválasztása a Studióban (klasszikus)

Tipp

Ha Ön a munkaterület tulajdonosa, megoszthatja azokat a kísérleteket, amelyekkel a munkaterületet másokkal meghívja.If you are owner of the workspace, you can share the experiments you're working on by inviting others to the workspace. Ezt megteheti Machine Learning Studio (klasszikus) a Beállítások lapon.You can do this in Machine Learning Studio (classic) on the SETTINGS page. Az egyes felhasználókhoz csak Microsoft-fiók vagy szervezeti fiókra van szükség.You just need the Microsoft account or organizational account for each user.

A Beállítások lapon kattintson a felhasználók elemre, majd kattintson az ablak ALJÁn található további felhasználók meghívása elemre.On the SETTINGS page, click USERS, then click INVITE MORE USERS at the bottom of the window.

Meglévő adatok feltöltéseUpload existing data

A hitelkockázat-előrejelző modell kifejlesztéséhez olyan adatforrásokra van szükség, amelyeket a modell betanítására és tesztelésére használhat.To develop a predictive model for credit risk, you need data that you can use to train and then test the model. Ebben az oktatóanyagban az "UCI statlog (német kredit adatok)" adatkészletet fogja használni az UC Irvine Machine Learning adattárból.For this tutorial, You'll use the "UCI Statlog (German Credit Data) Data Set" from the UC Irvine Machine Learning repository. Itt találja a következőt:You can find it here:
https://archive.ics.uci.edu/ml/datasets/Statlog+(German+Credit+Data)

A német. az adatfájlt fogja használni.You'll use the file named german.data. Töltse le ezt a fájlt a helyi merevlemez-meghajtóra.Download this file to your local hard drive.

A német. adatadatkészlet 20 változóból álló sorokat tartalmaz a 1000-es múltbeli pályázók számára.The german.data dataset contains rows of 20 variables for 1000 past applicants for credit. Ez a 20 változó az adatkészlet azon funkcióinak készletét jelöli (a szolgáltatás vektora), amely az egyes kreditek azonosítására szolgáló jellemzőket biztosít.These 20 variables represent the dataset's set of features (the feature vector), which provides identifying characteristics for each credit applicant. Az egyes sorokban egy további oszlop jelenti a kérelmező számított hitelkockázat-kockázatát, amelynek 700 kérelmezője alacsony hitelkockázat és 300 magas kockázatnak minősül.An additional column in each row represents the applicant's calculated credit risk, with 700 applicants identified as a low credit risk and 300 as a high risk.

Az UCI webhely ismerteti az ehhez az adatszolgáltatási vektorhoz tartozó attribútumok leírását.The UCI website provides a description of the attributes of the feature vector for this data. Ezek az adatok a pénzügyi adatokat, a kreditek előzményeit, a foglalkoztatás állapotát és a személyes adatokat tartalmazzák.This data includes financial information, credit history, employment status, and personal information. Minden egyes kérelmező esetében egy bináris minősítés lett megadva, amely azt jelzi, hogy alacsony vagy magas a hitelkockázat.For each applicant, a binary rating has been given indicating whether they are a low or high credit risk.

Ezeket az adatkészleteket fogja használni a prediktív elemzési modellek betanításához.You'll use this data to train a predictive analytics model. Ha elkészült, a modellnek képesnek kell lennie arra, hogy fogadja el a funkció-vektort egy új személy számára, és Tippelje meg, hogy alacsony vagy magas a kredit kockázata.When you're done, your model should be able to accept a feature vector for a new individual and predict whether they are a low or high credit risk.

Íme egy érdekes csavar.Here's an interesting twist.

Az UCI-webhelyen található adatkészlet leírása megemlíti, hogy milyen költségekkel jár, ha a személy hitelkeretét nem osztályozza.The description of the dataset on the UCI website mentions what it costs if you misclassify a person's credit risk. Ha a modell magas hitelkockázat-kockázatot jelez, hogy valaki, aki valójában alacsony hitelkockázat, a modell téves besorolást kapott.If the model predicts a high credit risk for someone who is actually a low credit risk, the model has made a misclassification.

A fordított téves besorolás azonban ötször drágább a pénzügyi intézménynél: Ha a modell előre jelez egy alacsony hitelkockázat-kockázatot a gyakorlatban.But the reverse misclassification is five times more costly to the financial institution: if the model predicts a low credit risk for someone who is actually a high credit risk.

Tehát szeretné betanítani a modellt úgy, hogy az utóbbi típusú téves besorolások díja ötször nagyobb legyen, mint a másik módszer téves besorolása.So, you want to train your model so that the cost of this latter type of misclassification is five times higher than misclassifying the other way.

Ennek egyik egyszerű módja, ha a kísérlet során a modell betanítása során egy olyan bejegyzést duplikál (ötször), amely a magas hitelkockázati kockázattal rendelkező személyt jelöli.One simple way to do this when training the model in your experiment is by duplicating (five times) those entries that represent someone with a high credit risk.

Ezt követően, ha a modell a nagy kockázatnak kitetten alacsony hitelkockázat-besorolást végez valakinek, a modell ugyanazt a téves osztályozást ötször, egyszer az egyes duplikált elemek esetében.Then, if the model misclassifies someone as a low credit risk when they're actually a high risk, the model does that same misclassification five times, once for each duplicate. Ezzel a művelettel növelheti a hiba költségeit a betanítási eredményekben.This will increase the cost of this error in the training results.

Az adatkészlet formátumának konvertálásaConvert the dataset format

Az eredeti adatkészlet üres, elválasztott formátumot használ.The original dataset uses a blank-separated format. A Machine Learning Studio (klasszikus) a vesszővel tagolt (CSV) fájlokkal jobban működik, ezért az adathalmazt vesszővel kell helyettesíteni.Machine Learning Studio (classic) works better with a comma-separated value (CSV) file, so you'll convert the dataset by replacing spaces with commas.

Az ilyen típusú adatkonvertálás számos módon lehetséges.There are many ways to convert this data. Az egyik módszer a következő Windows PowerShell-parancs használata:One way is by using the following Windows PowerShell command:

cat german.data | %{$_ -replace " ",","} | sc german.csv  

Egy másik módszer a UNIX sed parancs használatával:Another way is by using the Unix sed command:

sed 's/ /,/g' german.data > german.csv

Mindkét esetben létrehozta az adatok vesszővel tagolt verzióját egy german.csv nevű fájlban, amelyet használhat a kísérletben.In either case, you have created a comma-separated version of the data in a file named german.csv that you can use in your experiment.

Az adatkészlet feltöltése Machine Learning Studio (klasszikus)Upload the dataset to Machine Learning Studio (classic)

Miután az adatok CSV formátumra lettek konvertálva, fel kell töltenie Machine Learning Studioba (klasszikus).Once the data has been converted to CSV format, you need to upload it into Machine Learning Studio (classic).

  1. Nyissa meg a Machine Learning Studio (klasszikus) kezdőlapját ( https://studio.azureml.net ).Open the Machine Learning Studio (classic) home page (https://studio.azureml.net).

  2. Kattintson a menüre  – Ez a menü ikon – három halmozott vonal.Click the menu This is the menu icon - three stacked lines. az ablak bal felső sarkában kattintson a Azure Machine learning elemre, válassza a Studio lehetőséget, és jelentkezzen be.in the upper-left corner of the window, click Azure Machine Learning, select Studio, and sign in.

  3. Az ablak alján kattintson az + új elemre.Click +NEW at the bottom of the window.

  4. Válassza az adatkészlet lehetőséget.Select DATASET.

  5. Válasszon a helyi fájlból.Select FROM LOCAL FILE.

    Adatkészlet hozzáadása helyi fájlból

  6. Az új adatkészlet feltöltése párbeszédpanelen kattintson a Tallózás gombra, és keresse meg a létrehozott german.csv fájlt.In the Upload a new dataset dialog, click Browse, and find the german.csv file you created.

  7. Adja meg az adatkészlet nevét.Enter a name for the dataset. Ebben az oktatóanyagban hívja meg az "UCI German Credit Card-adatforrást".For this tutorial, call it "UCI German Credit Card Data".

  8. Az adattípus mezőben válassza ki az általános CSV-fájlt fejléc nélkül (.nh.csv).For data type, select Generic CSV File With no header (.nh.csv).

  9. Ha szeretné, adja meg a leírást.Add a description if you'd like.

  10. Kattintson az OK pipa jelre.Click the OK check mark.

    Az adatkészlet feltöltése

Ezzel feltölti az adatokat egy olyan adatkészlet-modulba, amelyet egy kísérletben használhat.This uploads the data into a dataset module that you can use in an experiment.

A Studio (klasszikus) ablak bal oldalán található adatkészletek lapra kattintva kezelheti a studióba feltöltött adatkészleteket.You can manage datasets that you've uploaded to Studio (classic) by clicking the DATASETS tab to the left of the Studio (classic) window.

Adatkészletek kezelése

A más típusú adatok kísérletbe való importálásával kapcsolatos további információkért lásd a betanítási adatok importálása Azure Machine learning Studioba (klasszikus)című témakört.For more information about importing other types of data into an experiment, see Import your training data into Azure Machine Learning Studio (classic).

Kísérlet létrehozásaCreate an experiment

Az oktatóanyag következő lépése egy olyan Machine Learning Studio (klasszikus) kísérlet létrehozása, amely a feltöltött adatkészletet használja.The next step in this tutorial is to create an experiment in Machine Learning Studio (classic) that uses the dataset you uploaded.

  1. A Studio (klasszikus) területen kattintson az + új elemre az ablak alján.In Studio (classic), click +NEW at the bottom of the window.

  2. Válassza a kísérlet, majd az "üres kísérlet" lehetőséget.Select EXPERIMENT, and then select "Blank Experiment".

    Új kísérlet létrehozása

  3. Válassza ki az alapértelmezett kísérlet nevét a vászon tetején, és nevezze át valami értelmesre.Select the default experiment name at the top of the canvas and rename it to something meaningful.

    Kísérlet átnevezése

    Tipp

    Célszerű kitölteni a kísérlet összegzését és leírását a Tulajdonságok ablaktáblán.It's a good practice to fill in Summary and Description for the experiment in the Properties pane. Ezek a tulajdonságok lehetővé teszik, hogy dokumentálja a kísérletet, hogy a későbbiekben bárki megértse a célokat és a módszertant.These properties give you the chance to document the experiment so that anyone who looks at it later will understand your goals and methodology.

    Kísérlet tulajdonságai

  4. A kísérleti vászon bal oldalán található modul palettán bontsa ki a mentett adatkészletek elemet.In the module palette to the left of the experiment canvas, expand Saved Datasets.

  5. Keresse meg a saját adatkészletek alatt létrehozott adatkészletet, és húzza a vászonra.Find the dataset you created under My Datasets and drag it onto the canvas. Az adatkészletet úgy is megtalálhatja, hogy a paletta fölötti keresőmezőbe írja be a nevet.You can also find the dataset by entering the name in the Search box above the palette.

    Adatkészlet hozzáadása a kísérlethez

Az adatok előkészítésePrepare the data

Megtekintheti az adatok első 100 sorát és a teljes adathalmazra vonatkozó statisztikai adatokat: kattintson az adatkészlet kimeneti portjára (alul lévő kis kör), majd válassza a Megjelenítés lehetőséget.You can view the first 100 rows of the data and some statistical information for the whole dataset: Click the output port of the dataset (the small circle at the bottom) and select Visualize.

Mivel az adatfájl nem tartalmaz oszlopfejléceket, a Studio (klasszikus) általános fejléceket (Col1, Col2 stb.) adott meg.Because the data file didn't come with column headings, Studio (classic) has provided generic headings (Col1, Col2, etc.). A megfelelő fejlécek nem elengedhetetlenek a modell létrehozásához, de megkönnyítik a kísérlet során felhasználható adatfeldolgozást.Good headings aren't essential to creating a model, but they make it easier to work with the data in the experiment. Emellett, amikor végül közzéteszi ezt a modellt egy webszolgáltatásban, a fejlécek segítenek azonosítani az oszlopokat a szolgáltatás felhasználójának.Also, when you eventually publish this model in a web service, the headings help identify the columns to the user of the service.

Oszlopfejlécek hozzáadásához használhatja a metaadatok szerkesztése modult.You can add column headings using the Edit Metadata module.

A metaadatok szerkesztése modul használatával módosíthatja az adatkészlethez társított metaadatokat.You use the Edit Metadata module to change metadata associated with a dataset. Ebben az esetben a használatával több felhasználóbarát nevet adhat meg az oszlopfejlécek számára.In this case, you use it to provide more friendly names for column headings.

A metaadatok szerkesztésénekhasználatához először meg kell adnia a módosítandó oszlopokat (ebben az esetben mindegyiket). Ezután meg kell adnia az ezen oszlopokon végrehajtandó műveletet (ebben az esetben az oszlopfejlécek módosítását).To use Edit Metadata, you first specify which columns to modify (in this case, all of them.) Next, you specify the action to be performed on those columns (in this case, changing column headings.)

  1. A modul palettáján írja be a "metadata" kifejezést a keresőmezőbe .In the module palette, type "metadata" in the Search box. A metaadatok szerkesztése a modulok listájában jelenik meg.The Edit Metadata appears in the module list.

  2. Kattintson és húzza a metaadatok szerkesztése modult a vászonra, és dobja el a korábban hozzáadott adatkészlet alá.Click and drag the Edit Metadata module onto the canvas and drop it below the dataset you added earlier.

  3. Az adatkészlet csatlakoztatása a metaadatok szerkesztése: kattintson az adatkészlet kimeneti portjára (az adatkészlet alján található kis kör), húzza a metaadatok szerkesztése (a modul tetején lévő kis kör) bemeneti portjára, majd szabadítsa fel az egérgombot.Connect the dataset to the Edit Metadata: click the output port of the dataset (the small circle at the bottom of the dataset), drag to the input port of Edit Metadata (the small circle at the top of the module), then release the mouse button. Az adatkészlet és a modul akkor is csatlakoztatva marad, ha a vászon körül mozog.The dataset and module remain connected even if you move either around on the canvas.

    A kísérletnek ekkor az alábbihoz hasonlóan kell kinéznie:The experiment should now look something like this:

    Szerkesztési metaadatok hozzáadása

    A piros felkiáltójel azt jelzi, hogy még nem állította be a modul tulajdonságait.The red exclamation mark indicates that you haven't set the properties for this module yet. Ezt a következő lépésben teheti meg.You'll do that next.

    Tipp

    A modulokhoz megjegyzéseket adhat. Ehhez kattintson duplán a kívánt modulra, majd gépelje be a megjegyzés szövegét.You can add a comment to a module by double-clicking the module and entering text. Így egyetlen pillantással felmérheti, hogy mire szolgál az adott modul a kísérletben.This can help you see at a glance what the module is doing in your experiment. Ebben az esetben kattintson duplán a metaadatok szerkesztése modulra, és írja be az "oszlopfejlécek hozzáadása" megjegyzést.In this case, double-click the Edit Metadata module and type the comment "Add column headings". A szövegmező bezárásához kattintson a vászonon bárhová máshol.Click anywhere else on the canvas to close the text box. A Megjegyzés megjelenítéséhez kattintson a modulban a lefelé mutató nyílra.To display the comment, click the down-arrow on the module.

    Metaadat-modul szerkesztése megjegyzéssel hozzáadva

  4. Válassza a metaadatok szerkesztéselehetőséget, és a vászontól jobbra található Tulajdonságok ablaktáblán kattintson az oszlop választójának indítása lehetőségre.Select Edit Metadata, and in the Properties pane to the right of the canvas, click Launch column selector.

  5. Az Oszlopok kiválasztása párbeszédpanelen válassza ki a rendelkezésre álló oszlopok összes sorát, és kattintson a > elemre a kijelölt oszlopokra való áthelyezéshez.In the Select columns dialog, select all the rows in Available Columns and click > to move them to Selected Columns. A párbeszédpanelnek így kell kinéznie:The dialog should look like this:

    Oszlop-választó az összes kijelölt oszloppal

  6. Kattintson az OK pipa jelre.Click the OK check mark.

  7. A Tulajdonságok ablaktáblában keresse meg az új oszlopnevek paramétert.Back in the Properties pane, look for the New column names parameter. Ebben a mezőben adja meg az adatkészlet 21 oszlopának neveit, vesszővel elválasztva és oszlopos sorrendben.In this field, enter a list of names for the 21 columns in the dataset, separated by commas and in column order. Az oszlopok nevét az UCI webhelyén található adatkészlet dokumentációjában szerezheti be, vagy az alábbi lista másolásához és beillesztéséhez használhatja az adatokat:You can obtain the columns names from the dataset documentation on the UCI website, or for convenience you can copy and paste the following list:

    Status of checking account, Duration in months, Credit history, Purpose, Credit amount, Savings account/bond, Present employment since, Installment rate in percentage of disposable income, Personal status and sex, Other debtors, Present residence since, Property, Age in years, Other installment plans, Housing, Number of existing credits, Job, Number of people providing maintenance for, Telephone, Foreign worker, Credit risk  
    

    A Tulajdonságok ablaktábla így néz ki:The Properties pane looks like this:

    A metaadatok szerkesztésének tulajdonságai

    Tipp

    Ha ellenőrizni szeretné az oszlopfejlécek fejléceit, futtassa a kísérletet (kattintson a kísérlet vászon alatt lévő Futtatás elemre).If you want to verify the column headings, run the experiment (click RUN below the experiment canvas). Ha a futása befejeződött (egy zöld pipa jelenik meg a metaadatok szerkesztéseelemnél), kattintson a metaadatok szerkesztése modul kimeneti portjára, majd válassza a Megjelenítés lehetőséget.When it finishes running (a green check mark appears on Edit Metadata), click the output port of the Edit Metadata module, and select Visualize. Bármelyik modul kimenetét ugyanúgy megtekintheti, hogy megtekintse az adatokat a kísérlet során.You can view the output of any module in the same way to view the progress of the data through the experiment.

Képzési és tesztelési adatkészletek létrehozásaCreate training and test datasets

A modell betanításához és a teszteléshez néhány adattal kell rendelkeznie.You need some data to train the model and some to test it. A kísérlet következő lépéseként az adatkészletet két külön adatkészletre osztja szét: egyet a modell betanításához, egyet pedig a teszteléshez.So in the next step of the experiment, you split the dataset into two separate datasets: one for training our model and one for testing it.

Ehhez az Adatfelosztási modult kell használnia.To do this, you use the Split Data module.

  1. Keresse meg az adatok felosztása modult, húzza a vászonra, és kapcsolódjon a metaadatok szerkesztése modulhoz.Find the Split Data module, drag it onto the canvas, and connect it to the Edit Metadata module.

  2. Alapértelmezés szerint a felosztott arány 0,5, a véletlenszerű felosztási paraméter pedig be van állítva.By default, the split ratio is 0.5 and the Randomized split parameter is set. Ez azt jelenti, hogy az adatmennyiség véletlenszerű felének kimenete a felosztott adatmodul egy portjára, a másik felé pedig a másikra mutat.This means that a random half of the data is output through one port of the Split Data module, and half through the other. Ezeket a paramétereket, valamint a véletlenszerű mag paramétert is módosíthatja a képzés és a tesztelési adatok közötti felosztás módosításához.You can adjust these parameters, as well as the Random seed parameter, to change the split between training and testing data. Ebben a példában a következőt hagyja:.For this example, you leave them as-is.

    Tipp

    Az első kimeneti adatkészletben szereplő sorok tulajdonságának töredéke határozza meg, hogy a bal oldali kimeneti porton milyen mennyiségű adat kimenete látható.The property Fraction of rows in the first output dataset determines how much of the data is output through the left output port. Ha például a 0,7 értékre állítja az arányt, akkor az adatmennyiség 70%-a a bal oldali porton, a jobb oldali porton pedig 30%-os kimeneten keresztül történik.For instance, if you set the ratio to 0.7, then 70% of the data is output through the left port and 30% through the right port.

  3. Kattintson duplán az Adatfelosztási modulra, és írja be a következő megjegyzést: "képzés/tesztelési célú adatbontás 50%".Double-click the Split Data module and enter the comment, "Training/testing data split 50%".

Használhatja azonban a felosztott adatmodul kimeneteit, de úgy is dönthet, hogy a bal oldali kimenetet betanítási adatként, a jobb kimenetet pedig tesztelési adatként használja.You can use the outputs of the Split Data module however you like, but let's choose to use the left output as training data and the right output as testing data.

Ahogy azt az előző lépésbenis említettük, az alacsony értékű magas hitelkockázat-besorolási díj ötszöröse magasabb, mint az alacsony hitelkockázat-kockázat magas szintű besorolása.As mentioned in the previous step, the cost of misclassifying a high credit risk as low is five times higher than the cost of misclassifying a low credit risk as high. Ennek érdekében létrehoz egy új adatkészletet, amely tükrözi ezt a Cost függvényt.To account for this, you generate a new dataset that reflects this cost function. Az új adatkészletben az egyes magas kockázatú példák öt alkalommal replikálódnak, míg az egyes alacsony kockázatú példák nem replikálódnak.In the new dataset, each high risk example is replicated five times, while each low risk example is not replicated.

Ezt a replikálást az R-kóddal végezheti el:You can do this replication using R code:

  1. Keresse meg és húzza az R szkript végrehajtása modult a kísérleti vászonra.Find and drag the Execute R Script module onto the experiment canvas.

  2. Az R-szkript végrehajtása modul első bemeneti portjához ("DataSet1 elemet") kapcsolja össze az adatfelosztási modul bal oldali kimeneti portját.Connect the left output port of the Split Data module to the first input port ("Dataset1") of the Execute R Script module.

  3. Kattintson duplán az R-parancsfájl végrehajtása modulra, és írja be a következő megjegyzést: "Cost-beállítás beállítása".Double-click the Execute R Script module and enter the comment, "Set cost adjustment".

  4. A Tulajdonságok ablaktáblán törölje az R-parancsfájl paraméter alapértelmezett szövegét, és adja meg a következő parancsfájlt:In the Properties pane, delete the default text in the R Script parameter and enter this script:

    dataset1 <- maml.mapInputPort(1)
    data.set<-dataset1[dataset1[,21]==1,]
    pos<-dataset1[dataset1[,21]==2,]
    for (i in 1:5) data.set<-rbind(data.set,pos)
    maml.mapOutputPort("data.set")
    

    R-szkript az R-szkript végrehajtása modulban

Ugyanezt a replikálási műveletet kell végrehajtania az Adatfelosztó modul minden egyes kimenetéhez, hogy a betanítási és tesztelési adatokat ugyanazzal a költséghatékonysággal lehessen elvégezni.You need to do this same replication operation for each output of the Split Data module so that the training and testing data have the same cost adjustment. Ezt a legegyszerűbben úgy teheti meg, ha duplikálja az imént létrehozott R-szkript modult, és csatlakoztatja a felosztott adatmodul másik kimeneti portjához.The easiest way to do this is by duplicating the Execute R Script module you just made and connecting it to the other output port of the Split Data module.

  1. Kattintson a jobb gombbal az R-parancsfájl végrehajtása elemre, majd válassza a Másolás lehetőséget.Right-click the Execute R Script module and select Copy.

  2. Kattintson a jobb gombbal a kísérlet vászonra, majd válassza a Beillesztés lehetőséget.Right-click the experiment canvas and select Paste.

  3. Húzza az új modult a pozícióba, majd az új végrehajtási R script modul első bemeneti portjához kapcsolja össze az adatbontó modul jobb kimeneti portját.Drag the new module into position, and then connect the right output port of the Split Data module to the first input port of this new Execute R Script module.

  4. A vászon alján kattintson a Futtatás elemre.At the bottom of the canvas, click Run.

Tipp

Az R-szkript végrehajtása modul másolata ugyanazt a parancsfájlt tartalmazza, mint az eredeti modul.The copy of the Execute R Script module contains the same script as the original module. Amikor egy modult másol és illeszt be a vásznon, a másolat megőrzi az eredeti összes tulajdonságát.When you copy and paste a module on the canvas, the copy retains all the properties of the original.

A kísérlet most a következőhöz hasonlóan néz ki:Our experiment now looks something like this:

Felosztott modul és R-szkriptek hozzáadása

További információ az R-szkriptek kísérletekben való használatáról: a kísérlet kiterjesztése az rhasználatával.For more information on using R scripts in your experiments, see Extend your experiment with R.

Az erőforrások eltávolításaClean up resources

Ha már nincs szüksége az ebben a cikkben létrehozott erőforrásokra, törölje őket, hogy elkerülje a költségek viselését.If you no longer need the resources you created using this article, delete them to avoid incurring any charges. A cikkből megtudhatja, hogyan exportálhatja és törölheti a terméken belüli felhasználói információkat.Learn how in the article, Export and delete in-product user data.

Következő lépésekNext steps

Ebben az oktatóanyagban a következő lépéseket végezte el:In this tutorial you completed these steps:

  • Machine Learning Studio (klasszikus) munkaterület létrehozásaCreate a Machine Learning Studio (classic) workspace
  • Meglévő adatok feltöltése a munkaterületreUpload existing data into the workspace
  • Kísérlet létrehozásaCreate an experiment

Most már készen áll az adatmodellek betanítására és kiértékelésére.You are now ready to train and evaluate models for this data.