Co jsou služby ML Services v Azure HDInsight
Důležité
Tento obsah je vyřazený a v budoucnu se nebude aktualizovat. Typ clusteru služeb Azure HDInsight 3,6 ML (Machine Learning Server) byl vyřazen od 31. prosince 2020.
Microsoft Machine Learning Server je k dispozici jako možnost nasazení při vytváření clusterů HDInsight v Azure. Typ clusteru, který tuto možnost poskytuje, se nazývá ML Services. Tato funkce poskytuje na vyžádání přístup k přizpůsobitelným distribuovaných metodám analýzy ve službě HDInsight.
Služba ML Services ve službě HDInsight poskytuje nejnovější možnosti pro analýzy založené na sadě dat r prakticky libovolné velikosti. Datové sady je možné načíst do azure blob nebo do úložiště Data Lake. Vaše aplikace založené na R mohou využívat více než 8 000 open source balíčků R. K dispozici jsou také rutiny v balíčku Pro analýzu velkých dat od Microsoftu ve službě ScaleR.
Hraniční uzel poskytuje vhodné místo pro připojení ke clusteru a spouštění skriptů jazyka R. Hraniční uzel umožňuje spouštění paralelizovaných distribuovaných funkcí ScaleR napříč jádry serveru. Můžete je také spouštět napříč uzly clusteru pomocí funkce Hadoop Map Reduce od ScaleR. Můžete také použít Apache Spark výpočetní kontexty.
Modely nebo předpovědi, které jsou výsledkem analýzy, je možné stáhnout pro místní použití. Mohou být také operationalized jinde v Azure. Konkrétně prostřednictvím Azure Machine Learning Studio (Classic)a webové služby.
Začínáme se službou ML Services ve službě HDInsight
Pokud chcete vytvořit cluster služby ML Services ve službě HDInsight, vyberte typ clusteru ML Services. Typ clusteru ML Services zahrnuje ML Server na datových uzlech a hraničním uzlu. Hraniční uzel slouží jako cílové zóny pro analýzy založené na službě ML Services. Návod k Apache Hadoop clusteru najdete v tématu Azure Portal clusterů s podporou clusterů.
Proč zvolit službu ML Services ve službě HDInsight?
Služby ML Services ve službě HDInsight poskytují následující výhody:
Inovace AI od Microsoftu a open source
Služba ML Services zahrnuje vysoce přizpůsobitelnou distribuovanou sadu algoritmů, jako jsou RevoscaleR, revoscalepya microsoftML. Tyto algoritmy mohou pracovat s daty, která jsou větší než velikost fyzické paměti. Běží také na široké škále platforem distribuovaných způsobem. Přečtěte si další informace o kolekci vlastních balíčků R a pythonových balíčků microsoftu, které jsou součástí produktu.
Služby ML Services překostěním těchto inovací a příspěvků Microsoftu přicházející z open source komunity (sady nástrojů pro R, Python a AI). Vše nad jednou podnikovou platformou. Jakýkoli open source balíček strojového učení v jazyce R nebo Python může fungovat vedle jakýchkoli vlastních inovací od Microsoftu.
Jednoduchá, zabezpečená a vysoce škálovatá operationalizace a správa
Podniky, které se spoléhají na tradiční paradigmata a prostředí, investují hodně času a úsilí do zprovoznění. Výsledkem této akce jsou nafouknutí nákladů a zpoždění, včetně doby překladu pro: modely, iterace, aby byly platné a aktuální, schválení zákonnými předpisy a správa oprávnění.
ML Services nabízí zprovoznění na podnikové úrovni. Po dokončení modelu strojového učení stačí několika kliknutími vygenerovat rozhraní API webových služeb. Tyto webové služby jsou hostované v serverové mřížce v cloudu a je možné je integrovat s obchodními aplikacemi. Možnost nasazení do elastické mřížky umožňuje bezproblémové škálování podle potřeb vaší firmy, a to jak pro dávkové vyhodnocování, tak pro bodování v reálném čase. Pokyny najdete v tématu zprovoznit služby ML Services ve službě HDInsight.
Poznámka
Typ clusteru ML Services ve službě HDInsight je podporován pouze ve službě HDInsight 3.6. Služba HDInsight 3.6 má naplánované vyřazení z 31. prosince 2020.
Klíčové funkce služby ML Services ve službě HDInsight
Ve službě ML Services ve službě HDInsight jsou zahrnuté následující funkce.
| Kategorie funkce | Description |
|---|---|
| R-enabled | Balíčky R pro řešení napsaná v R s open source distribucí jazyka R a infrastrukturou za běhu pro spouštění skriptů. |
| S podporou Pythonu | Moduly Pythonu pro řešení napsaná v Pythonu s open source distribucí Pythonu a infrastrukturou modulu run-time pro spouštění skriptů. |
| Předem natrénované modely | Pro vizuální analýzu a analýzu mínění v textu je připravená k hodnocení dat, která poskytnete. |
| Nasazení a používání | Operationalize a nasaďte řešení jako webovou službu. |
| Vzdálené spuštění | Spusťte vzdálené relace v clusteru služby ML Services ve vaší síti z klientské pracovní stanice. |
Možnosti úložiště dat pro službu ML Services ve službě HDInsight
Výchozím úložištěm systému souborů HDFS může být účet Azure Storage nebo Azure Data Lake Storage. Nahraná data do úložiště clusteru během analýzy jsou trvalá. Data jsou dostupná i po odstranění clusteru. Přenos dat do úložiště mohou zpracovávat různé nástroje. Mezi tyto nástroje patří nahrání účtu úložiště na základě portálu a nástroj AzCopy.
Během vytváření clusteru můžete povolit přístup k dalším úložišti objektů blob a datových jezer. Nejste omezeni možností primárního úložiště, kterou používáte. Další Azure Storage o používání více účtů úložiště najdete v článku o možnostech služby ML Services ve službě HDInsight.
Můžete také použít Azure Files jako možnost úložiště pro použití na hraničním uzlu. Azure Files povolí sdílené složky vytvořené v Azure Storage systému souborů Linux. Další informace najdete v tématu Azure Storage služby ML Services ve službě HDInsight.
Přístup k hraničnímu uzlu služby ML Services
K Microsoftu se ML Server na hraničním uzlu pomocí prohlížeče nebo SSH/PuTTY. Konzola R se ve výchozím nastavení instaluje při vytváření clusteru.
Vývoj a spouštění skriptů jazyka R
Skripty jazyka R mohou používat libovolný z více než 8 000 open source balíčků R. Můžete také použít paralelizované a distribuované rutiny z knihovny ScaleR. Skripty běží na hraničním uzlu běží v rámci interpretu jazyka R na tomto uzlu. S výjimkou kroků, které volají funkce ScaleR s výpočetním kontextem RxHadoopMR (Map Reduce) nebo Spark (RxSpark). Funkce běží distribuovaný způsobem napříč datovými uzly, které jsou přidruženy k datům. Další informace o možnostech kontextu najdete v tématu Možnosti výpočetního kontextu pro službu ML Services ve službě HDInsight.
Operationalize Model
Po dokončení modelování dat model předpovídá nová data z Azure nebo operationalize místně. Tento proces se označuje jako bodování. Bodování je možné provést ve službě HDInsight, Azure Machine Learning nebo místně.
Skóre ve službě HDInsight
Pokud chcete skóre ve službě HDInsight, napište funkci R. Funkce volá váš model, aby předpověděl nový datový soubor, který jste načetl do účtu úložiště. Pak předpovědi uložte zpět do účtu úložiště. Tuto rutinu můžete spustit na vyžádání na hraničním uzlu clusteru nebo pomocí naplánované úlohy.
Skóre v Azure Machine Learning (AML)
Pokud chcete skóre Azure Machine Learning, pomocí open source balíčku Azure Machine Learning R označované jako AzureML publikujte model jako webovou službu Azure. Pro usnadnění je tento balíček předem nainstalovaný na hraničním uzlu. Dále pomocí zařízení v Azure Machine Learning vytvořte uživatelské rozhraní pro webovou službu a pak podle potřeby zavolejte webovou službu pro bodování. Pak převeďte objekty modelu ScaleR na ekvivalentní open source objekty modelu pro použití s webovou službou. Pro tento převod použijte funkce převodu ScaleR, například pro modely založené as.randomForest() na souboru.
Skóre v místním prostředí
Pokud chcete po vytvoření modelu bodovat místně: serializovat model v R, stáhnout ho, deserializovat a pak ho použít k bodování nových dat. K hodnocení nových dat můžete použít přístup popsaný výše v části Skóre ve službě HDInsight nebo pomocí webových služeb.
Údržba clusteru
Instalace a údržba balíčků R
Většina balíčků R, které používáte, se vyžaduje na hraničním uzlu, protože většina kroků skriptů jazyka R se v tomto uzlu spustí. K instalaci dalších balíčků R na hraničním uzlu můžete použít install.packages() metodu v uzlu R.
Pokud používáte jenom rutiny knihovny ScaleR, obvykle nepotřebujete další balíčky R. Možná budete potřebovat další balíčky pro provádění rxExec nebo RxDataStep na datových uzlech.
Další balíčky je možné nainstalovat pomocí akce skriptu po vytvoření clusteru. Další informace najdete v tématu Správa služby ML Services v clusteru HDInsight.
Změna Apache Hadoop paměti MapReduce
Dostupnou paměť pro službu ML Services je možné upravit při spuštění úlohy MapReduce. Pokud chcete upravit cluster, použijte uživatelské rozhraní Apache Ambari pro váš cluster. Pokyny k uživatelskému rozhraní Ambari najdete v tématu Správa clusterů HDInsight pomocí webového uživatelského rozhraní Ambari.
Dostupnou paměť pro službu ML Services je možné změnit pomocí přepínačů Hadoop ve volání RxHadoopMR:
hadoopSwitches = "-libjars /etc/hadoop/conf -Dmapred.job.map.memory.mb=6656"
Škálování clusteru
Stávající cluster služby ML Services ve službě HDInsight je možné na portálu škálovat nahoru nebo dolů. Škálováním nahoru získáte další kapacitu pro větší úlohy zpracování. Cluster můžete škálovat zpět, když je nečinný. Pokyny ke škálování clusteru najdete v tématu Správa clusterů HDInsight.
Údržba systému
Údržba operačního systému se provádí na základních virtuálních počítačů s Linuxem v clusteru HDInsight mimo pracovní dobu. Údržba se obvykle provádí každé pondělí a čtvrtek ve 3:30 (místní čas virtuálního počítače). Aktualizace neo vliv na více než čtvrtinu clusteru najednou.
Spouštění úloh může během údržby zpomalit. Přesto by však měly běžet až do konce. Jakýkoli vlastní software nebo místní data, která jste v těchto událostech údržby zachovali, pokud nenastane katastrofické selhání, které vyžaduje opětovné sestavení clusteru.
Možnosti integrovaného vývojového prostředí (IDE) pro službu ML Services ve službě HDInsight
Hraniční uzel Linuxu clusteru HDInsight je cílové zóny pro analýzu na základě R. Nedávné verze služby HDInsight poskytují integrované vývojové prostředí RStudio Serveru v prohlížeči na hraničním uzlu. RStudio Server je produktivnější než konzola R pro vývoj a spouštění.
Desktopové integrované vývojové prostředí (IDE) má ke clusteru přístup prostřednictvím vzdáleného výpočetního kontextu MapReduce nebo Sparku. Mezi možnosti patří: Nástroje R pro Visual Studio (RTVS), RStudio a Walware StatET založené na Eclipse.
Přejděte ke konzole R na hraničním uzlu zadáním R na příkazovém řádku. Při použití rozhraní konzoly je vhodné vyvíjet skript jazyka R v textovém editoru. Pak podle potřeby vyjmout a vložit oddíly skriptu do konzoly R.
Ceny
Ceny spojené s clusterem SLUŽBY ML Services HDInsight jsou strukturované podobně jako jiné typy clusteru HDInsight. Jsou založeny na velikosti základních virtuálních počítače napříč názvem, daty a hraničními uzly. K dispozici jsou také hodinové náhony. Další informace najdete v tématu Ceny služby HDInsight.
Další kroky
Další informace o používání služby ML Services v clusterech HDInsight najdete v následujících článcích: