Vad är ML-tjänster i Azure HDInsight
Viktigt
Det här innehållet dras tillbaka och kommer inte att uppdateras i framtiden. Azure HDInsight klustertypen 3.6 ML Services (Machine Learning Server) togs ur bruk den 31 dec 2020.
Microsoft Machine Learning Server är tillgängligt som ett distributionsalternativ när du skapar HDInsight-kluster i Azure. Klustertypen som tillhandahåller det här alternativet kallas ML Services. Den här funktionen ger åtkomst på begäran till anpassningsbara, distribuerade analysmetoder i HDInsight.
ML Services på HDInsight ger de senaste funktionerna för R-baserad analys av datauppsättningar av praktiskt taget alla storlekar. Datauppsättningarna kan läsas in till Azure Blob- eller Data Lake-lagring. Dina R-baserade program kan använda R-paketen med 8000+ öppen källkod. Rutinerna i ScaleR, Microsofts paket för stordataanalys, är också tillgängliga.
Gränsnoden är en praktisk plats för att ansluta till klustret och köra dina R-skript. Kantnoden gör det möjligt att köra ScaleR-parallelliserade distribuerade funktioner över serverns kärnor. Du kan också köra dem mellan noderna i klustret med hjälp av ScaleR:s Hadoop Map Reduce. Du kan också använda Apache Spark för beräkning.
Modeller eller förutsägelser som är resultatet av analysen kan laddas ned för lokal användning. De kan också finnas operationalized någon annanstans i Azure. I synnerhet via Azure Machine Learning Studio (klassisk)och webbtjänsten.
Kom igång med ML-tjänster i HDInsight
Om du vill skapa ett ML-tjänstkluster i HDInsight väljer du klustertypen ML-tjänster. Ml Services-klustertypen innehåller ML Server på datanoderna och kantnoden. Gränsnoden fungerar som en landningszon för ML-tjänstbaserad analys. Se Skapa Apache Hadoop-kluster med Azure Portal för en genomgång av hur du skapar klustret.
Varför ska jag välja ML-tjänster i HDInsight?
ML-tjänster i HDInsight har följande fördelar:
AI-innovation från Microsoft och öppen källkod
ML Services innehåller mycket anpassningsbar, distribuerad uppsättning algoritmer som RevoscaleR, revoscalepyoch microsoftML. Dessa algoritmer kan arbeta med datastorlekar som är större än storleken på det fysiska minnet. De körs också på en mängd olika plattformar på ett distribuerat sätt. Läs mer om samlingen av Microsofts anpassade R-paket och Python-paket som ingår i produkten.
ML Services överbryggar dessa Microsoft-innovationer och bidrag från communityn med öppen källkod (R, Python och AI-verktyg). Allt ovanpå en plattform i företagsklass. Alla R- eller Python-maskininlärningspaket med öppen källkod kan fungera sida vid sida med alla upphovsrättsskyddade innovationer från Microsoft.
Enkel, säker och storskalig driftisering och administration
Företag som förlitar sig på traditionella paradigm och miljöer investerar mycket tid och arbete på operationalisering. Den här åtgärden resulterar i ökade kostnader och fördröjningar, inklusive översättningstiden för: modeller, iterationer för att hålla dem giltiga och aktuella, regelgodkännande och hantering av behörigheter.
ML Services erbjuder driftisering i företagsklass. När en maskininlärningsmodell har slutförts tar det bara några klick för att generera webbtjänst-API:er. Dessa webbtjänster finns i ett serverrutnät i molnet och kan integreras med affärsprogram. Möjligheten att distribuera till ett elastiskt rutnät gör att du kan skala sömlöst med behoven i din verksamhet, både för batchbedömning och realtidsbedömning. Instruktioner finns i Operationalisera ML-tjänster på HDInsight.
Anteckning
ML Services-klustertypen i HDInsight stöds endast på HDInsight 3.6. HDInsight 3.6 kommer att dra tillbaka den 31 december 2020.
Viktiga funktioner i ML-tjänster i HDInsight
Följande funktioner ingår i ML-tjänster i HDInsight.
| Funktionskategori | Beskrivning |
|---|---|
| R-aktiverad | R-paket för lösningar som skrivits i R, med en distribution med öppen källkod av R och körningsinfrastruktur för skriptkörning. |
| Python-aktiverad | Python-moduler för lösningar som skrivits i Python, med en distribution med öppen källkod av Python och körningsinfrastruktur för skriptkörning. |
| Förtränade modeller | För visuell analys och textsentimentanalys, redo att poängdata som du anger. |
| Distribuera och använda | Operationalize din server och distribuera lösningar som en webbtjänst. |
| Fjärrkörning | Starta fjärrsessioner i ML Services-klustret i nätverket från klientarbetsstationen. |
Datalagringsalternativ för ML-tjänster i HDInsight
Standardlagring för HDFS-filsystemet kan vara ett Azure Storage eller Azure Data Lake Storage. Uppladdade data till klusterlagring under analysen görs beständiga. Data är tillgängliga även efter att klustret har tagits bort. Olika verktyg kan hantera dataöverföringen till lagringen. Verktygen omfattar lagringskontots portalbaserade uppladdningsfunktion och AzCopy-verktyget.
Du kan ge åtkomst till ytterligare blob- och datasjölager när klustret skapas. Du begränsas inte av det primära lagringsalternativ som används. I Azure Storage alternativ för ML-tjänster i HDInsight kan du läsa mer om att använda flera lagringskonton.
Du kan också använda Azure Files som ett lagringsalternativ för användning på gränsnoden. Azure Files aktiverar filresurser som skapats i Azure Storage till Linux-filsystemet. Mer information finns i Azure Storage för ML-tjänster på HDInsight.
Få åtkomst till ML-tjänsters kantnod
Du kan ansluta till Microsoft ML Server på gränsnoden med hjälp av en webbläsare eller SSH/PuTTY. R-konsolen installeras som standard när klustret skapas.
Utveckla och köra R-skript
Dina R-skript kan använda något av R-paketen med 8000+ öppen källkod. Du kan också använda parallelliserade och distribuerade rutiner från ScaleR-biblioteket. Skript som körs på kantnoden körs i R-tolken på noden. Förutom steg som anropar ScaleR-funktioner med beräkningskontexten Map Reduce (RxHadoopMR) eller Spark (RxSpark). Funktionerna körs distribuerat på de datanoder som är associerade med data. Mer information om kontextalternativ finns i Alternativ för beräkningskontext för ML-tjänster på HDInsight.
Operationalize en modell
När din datamodellering är klar kan operationalize modellen göra förutsägelser för nya data antingen från Azure eller lokalt. Den här processen kallas bedömning. Bedömning kan göras i HDInsight, Azure Machine Learning eller lokalt.
Poäng i HDInsight
Skriv en R-funktion för att göra poäng i HDInsight. Funktionen anropar din modell för att göra förutsägelser för en ny datafil som du har läst in till ditt lagringskonto. Spara sedan förutsägelserna till lagringskontot igen. Du kan köra den här rutinen på begäran på gränsnoden i klustret eller med hjälp av ett schemalagt jobb.
Poäng i Azure Machine Learning (AML)
Om du vill poäng Azure Machine Learning med hjälp av R-Azure Machine Learning med öppen källkod som kallas AzureML för att publicera din modell som en Azure-webbtjänst. För enkelhetens skull är det här paketet förinstallerat på gränsnoden. Använd sedan anläggningar i Azure Machine Learning för att skapa ett användargränssnitt för webbtjänsten och anropa sedan webbtjänsten efter behov för bedömning. Konvertera sedan ScaleR-modellobjekt till motsvarande modellobjekt med öppen källkod för användning med webbtjänsten. Använd ScaleR-coercionsfunktioner, till exempel as.randomForest() för ensemblebaserade modeller, för den här konverteringen.
Poäng lokalt
För att poängisera lokalt när du har skapat din modell: serialisera modellen i R, ladda ned den, deserialisera den och använd den sedan för bedömning av nya data. Du kan poängsätt nya data med hjälp av metoden som beskrivs tidigare i Poäng i HDInsight eller med hjälp av webbtjänster.
Underhålla klustret
Installera och underhålla R-paket
De flesta R-paket som du använder krävs på gränsnoden eftersom de flesta steg i R-skripten körs där. Om du vill installera ytterligare R-paket på gränsnoden kan du använda install.packages() metoden i R.
Om du bara använder ScaleR-biblioteksrutiner behöver du vanligtvis inte ytterligare R-paket. Du kan behöva ytterligare paket för rxExec- eller RxDataStep-körning på datanoderna.
Ytterligare paket kan installeras med en skriptåtgärd när du har skapat klustret. Mer information finns i Hantera ML-tjänster i HDInsight-kluster.
Ändra Minnesinställningar för Apache Hadoop MapReduce
Tillgängligt minne för ML-tjänster kan ändras när det kör ett MapReduce-jobb. Om du vill ändra ett kluster använder du Apache Ambari-användargränssnittet för klustret. Instruktioner för Ambari-användargränssnittet finns i Hantera HDInsight-kluster med Ambari-webbgränssnittet.
Tillgängligt minne för ML Services kan ändras med hjälp av Hadoop-växlar i anropet till RxHadoopMR:
hadoopSwitches = "-libjars /etc/hadoop/conf -Dmapred.job.map.memory.mb=6656"
Skala klustret
Ett befintligt ML Services-kluster i HDInsight kan skalas upp eller ned via portalen. Genom att skala upp får du ytterligare kapacitet för större bearbetningsuppgifter. Du kan skala tillbaka ett kluster när det är inaktivt. Anvisningar om hur du skalar ett kluster finns i Hantera HDInsight-kluster.
Underhålla systemet
Os-underhåll utförs på de underliggande virtuella Linux-datorerna i ett HDInsight-kluster när de inte används. Normalt utförs underhållet 03.30 (lokal tid för den virtuella datorn) varje måndag och torsdag. Uppdateringar påverkar inte mer än en fjärdedel av klustret i taget.
Jobb som körs kan bli långsammare under underhållet. De bör dock fortfarande köras klart. Anpassad programvara eller lokala data som du har bevarats under dessa underhållshändelser, såvida inte ett oåterkalleligt fel inträffar som kräver att klustret återskapas.
IDE-alternativ för ML-tjänster på HDInsight
Linux-gränsnoden i ett HDInsight-kluster är landningszonen för R-baserad analys. De senaste versionerna av HDInsight tillhandahåller en webbläsarbaserad IDE för RStudio Server på kantnoden. RStudio Server är mer produktiv än R-konsolen för utveckling och körning.
En skrivbords-IDE kan komma åt klustret via en fjärransluten MapReduce- eller Spark-beräkningskontext. Alternativen är: Microsofts R Tools for Visual Studio (RTVS), RStudio och Walwares Eclipse-baserade StatET.
Öppna R-konsolen på gränsnoden genom att skriva R i kommandotolken. När du använder konsolgränssnittet är det praktiskt att utveckla R-skript i en textredigerare. Klipp sedan ut och klistra in avsnitt i skriptet i R-konsolen efter behov.
Prissättning
Priserna som är kopplade till ett HDInsight-kluster för ML-tjänster är strukturerade på samma sätt som andra TYPER av HDInsight-kluster. De baseras på storleksändringen av de underliggande virtuella datorerna för namn, data och kantnoder. Uppräkningar på kärntimmar. Mer information finns i PRISSÄTTNING för HDInsight.
Nästa steg
Mer information om hur du använder ML-tjänster i HDInsight-kluster finns i följande artiklar: