R nyelvi modulok

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Ez a cikk felsorolja a Machine Learning Studio (klasszikus) azon moduljait, amelyek támogatják az R-kód futtatását. Ezek a modulok megkönnyítik az R-modellek éles környezetben való közzétételét, valamint az R nyelvi közösség élményének használatát a valós problémák megoldásához.

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

Ez a cikk az R (klasszikus) Machine Language Studióban való használatának néhány általános követelményét is ismerteti, valamint felsorolja az ismert problémákat és tippeket.

Modulok listája

Az R Nyelvi modulok kategória a következő modulokat tartalmazza:

Az R használatának követelményei

Mielőtt R-szkriptet használ a Machine Learning Studióban (klasszikus), kövesse az alábbi követelményeket:

  • Ha CSV-t vagy más formátumot használó adatokat importált, nem olvashatja be az adatokat közvetlenül CSV formátumban az R-kódból. Ehelyett használja a Convert to Dataset (Konvertálás adatkészletké) adatokat az adatok előkészítéséhez, mielőtt egy R-modul bemeneteként használjuk őket.

  • Amikor egy Machine Learning egy R-modul bemeneteként csatol egy adatkészletet, a rendszer automatikusan betölti az adatkészletet az R-munkaterületre adatkeretként, a változó nevével pedig adatkészletként.

    Azonban további adatkereteket is meghatározhat, vagy módosíthatja az alapértelmezett adatkészlet-változó nevét az R-szkriptben.

  • Az R-modulok védett és elszigetelt környezetben futnak a privát munkaterületen belül. A munkaterületen létrehozhat több modul által használható adatkereteket és változókat.

    Az R-adatkeretek azonban nem tölthetőek be másik munkaterületről, és nem olvashatók be más munkaterületen létrehozott változók, még akkor sem, ha a munkaterület meg van nyitva egy Azure-munkamenetben. Emellett nem használhat olyan modulokat, amelyek Java-függőséggel vagy közvetlen hálózati hozzáférést igényelnek.

Optimalizálás R-pontozási feladatokhoz

Az R implementációja a Machine Learning Studio (klasszikus) és munkaterületi környezetben két fő összetevőt tartalmaz. Az egyik összetevő koordinálja a szkript végrehajtását, a másik pedig nagy sebességű adatelérést és -pontozást biztosít. A pontozási összetevő a méretezhetőség és a teljesítmény javítása érdekében van optimalizálva.

Ezért a Machine Learning Studio (klasszikus) R-munkaterületei két különböző pontozási feladatot is támogatnak, amelyek mindegyikét különböző követelményekhez optimalizálták. A pontozást általában fájlról fájlra használhatja egy kísérlet létrehozása során. A kérés-válasz szolgáltatást (RRS) általában nagyon gyors pontozáshoz használják, amikor egy webszolgáltatás részeként pontoz.

R-csomagok és -verziók támogatása

Machine Learning Studio (klasszikus) több mint 500 legnépszerűbb R-csomagot tartalmaz. A választható R-csomagok a kísérlethez kiválasztott R-verziótól függnek:

  • CRAN R
  • Microsoft R Open (MRO 3.2.2 vagy MRO 3.4.4)

Amikor létrehoz egy kísérletet, egyetlen R-verziót kell választania a futtatáshoz a kísérlet összes modulja számára.

Csomagok listája verziónként

A Machine Learning által jelenleg támogatott csomagok listáját a Machine Learning.

A kísérletben a következő kódot is hozzáadhatja egy R-szkript végrehajtása modulhoz, és futtathatja a csomagneveket és -verziókat tartalmazó adatkészlet lekért futtatásához. Győződjön meg arról, hogy az R-verziót a modul tulajdonságai között úgy állítsa be, hogy a megfelelő listát hozza létre a kívánt környezethez.

data.set <- data.frame(installed.packages())
maml.mapOutputPort("data.set")

Fontos

A Machine Language Studio (klasszikus) által támogatott csomagok gyakran változnak. Ha bármilyen kétségei vannak az R-csomagok támogatásával kapcsolatban, használja a megadott R-kódmintát az aktuális környezetben elérhető csomagok teljes listájának lekértéhez.

Kísérletek kiterjesztése az R nyelvvel

Számos módon bővítheti kísérletét egyéni R-szkriptekkel vagy R-csomagok hozzáadásával. Íme néhány ötlet az első lépésekhez:

  • R-kód használata egyéni matematikai műveletek végrehajtásához. Például vannak R-csomagok, amelyek a különbségi egyenleteket oldják meg, véletlenszerű számokat hoznak létre, vagy Monte Carlo-szimulációkat futtatnak.

  • Egyéni adatátalakítások alkalmazása. Egy R-csomag használatával például interpolációt végezhet az idősorozat-adatokon, vagy nyelvi elemzéseket végezhet.

  • Különböző adatforrásokkal dolgozhat. Az R-szkriptmodulok további bemeneteket támogatnak, amelyek tartalmazhatnak adatfájlokat tömörített formátumban. Tömörített adatfájlokat és az ilyen adatforrások számára tervezett R-csomagokat is használhat a hierarchikus adatok egy egytáblás adattáblába való simításához. Ezekkel adatokat is beolvashat a Excel más fájlformátumból.

  • Egyéni metrikák használata a kiértékeléshez. Az Evaluate függvények használata helyett például importálhat egy R-csomagot, majd alkalmazhatja a metrikákat.

Az alábbi példa bemutatja az új csomagok telepítésének és az egyéni R-kód használatának teljes folyamatát a kísérletben.

Oszlopok felosztása az R használatával

Az adatok olykor jelentős manipulációt követelnek meg a jellemzők kinyeréhez. Tegyük fel, hogy van egy szövegfájlja, amely egy azonosítót, majd értékeket és megjegyzéseket tartalmaz, szóközökkel elválasztva. Vagy tegyük fel, hogy a szövegfájl olyan karaktereket tartalmaz, amelyek a Machine Language Studio (klasszikus) által nem támogatottak.

Az ilyen feladatokhoz számos R-csomag biztosít speciális funkciókat. A splitstackshape kódtárcsomag számos hasznos függvényt tartalmaz több oszlop felosztásához, még akkor is, ha minden oszlop eltérő elválasztóval rendelkezik.

Az alábbi minta bemutatja, hogyan telepítheti a szükséges csomagokat, és hogyan választhatja szét az oszlopokat. Ezt a kódot az R-szkript végrehajtása modulhoz kell hozzáadni .

#install dependent packages  
install.packages("src/concat.split.multiple/data.table_1.9.2.zip", lib=".", repos = NULL, verbose = TRUE)  
(success.data.table <- library("data.table", lib.loc = ".", logical.return = TRUE, verbose = TRUE))  
  
install.packages("src/concat.split.multiple/plyr_1.8.1.zip", lib=".", repos = NULL, verbose = TRUE)  
(success.plyr <- library("plyr", lib.loc = ".", logical.return = TRUE, verbose = TRUE))  
  
install.packages("src/concat.split.multiple/Rcpp_0.11.2.zip", lib=".", repos = NULL, verbose = TRUE)  
(success.Rcpp <- library("Rcpp", lib.loc = ".", logical.return = TRUE, verbose = TRUE))  
  
install.packages("src/concat.split.multiple/reshape2_1.4.zip", lib=".", repos = NULL, verbose = TRUE)  
(success.reshape2 <- library("reshape2", lib.loc = ".", logical.return = TRUE, verbose = TRUE))  
  
#install actual packages  
install.packages("src/concat.split.multiple/splitstackshape_1.2.0.zip", lib=".", repos = NULL, verbose = TRUE)  
(success.splitstackshape <- library("splitstackshape", lib.loc = ".", logical.return = TRUE, verbose = TRUE))  
  
#Load installed library  
library(splitstackshape)  
  
#Use library method to split & concat  
data <- concat.split.multiple(maml.mapInputPort(1), c("TermsAcceptedUserClientIPAddress", "EmailAddress"), c(".", "@"))  
  
#Print column names to console  
colnames(data)  
  
#Redirect data to output port  
maml.mapOutputPort("data")  

További források

Kezdje ezzel az oktatóanyagkal, amely egy egyéni R-modul felépítését ismerteti:

Ez a cikk részletesen ismerteti a két pontozási motor közötti különbségeket, és elmagyarázza, hogyan választhat pontozási módszert a kísérlet webszolgáltatásként való üzembe helyezésekor:

Ez a Azure AI Gallery bemutatja, hogyan hozhat létre betanítására, pontozásra és értékelésre képes egyéni R-modult:

Ez az R-Blogs oldalon közzétett cikk bemutatja, hogyan hozhat létre saját kiértékelési módszert a Machine Learning:

További segítség az R-hez

Ez a webhely a kulcsszavak alapján kereshető csomagok kategorizált listáját tartalmazza:

További R-kódmintákat, valamint az R-hez és annak alkalmazásait segítő forrásokért tekintse meg az alábbi forrásokat:

Lásd még