hdınsight üzerinde ML hizmetleri için işlem bağlamı seçenekleri
Önemli
Bu içerik kullanımdan kalkmışsa ve gelecekte güncelleştirilmeyecek. Azure HDInsight 3,6 ML Hizmetleri (Machine Learning Server) küme türü 31 Aralık 2020 itibariyle kullanımdan kaldırıldı.
Azure hdınsight üzerinde ML hizmetleri, işlem bağlamını ayarlayarak çağrıların nasıl yürütüleceğini denetler. Bu makalede, yürütmenin kenar düğümünün veya HDInsight kümesinin çekirdekleri arasında paralel olup olmadığını belirtmek için kullanılabilecek seçenekler özetlenmektedir.
Bir kümenin kenar düğümü, kümeye bağlanmak ve R betiklerinizi çalıştırmak için uygun bir yer sağlar. Edge düğümü ile, uç düğüm sunucusunun çekirdekleri arasında geri alınamaz şekilde dağıtılmış işlevleri çalıştırma seçeneğiniz vardır. Ayrıca, Iptal edilebilir ' in Hadoop haritasını azaltma veya Apache Spark işlem bağlamlarını kullanarak bunları kümenin düğümleri arasında çalıştırabilirsiniz.
Azure hdınsight 'ta ML hizmetleri
Azure hdınsight üzerinde ML hizmetleri , R tabanlı analizler için en son özellikleri sağlar. Azure Blob depolama hesabınızda, bir Data Lake Store veya yerel Linux dosya sisteminde Apache Hadoop bir kapsayıcıda depolanan verileri kullanabilir. ML hizmetleri açık kaynak R üzerine inşa edildiğinden, oluşturduğunuz R tabanlı uygulamalar 8000 + açık kaynaklı r paketlerinden herhangi birini uygulayabilir. ayrıca, Microsoft 'un ML hizmetlerinde bulunan büyük veri analizi paketi olan iptaledilmiş olan yordamları da kullanabilirler.
Kenar düğümü için işlem bağlamları
genel olarak, kenar düğümündeki ML Services kümesinde çalıştırılan bir r betiği, o düğümdeki r yorumlayıcısı içinde çalışır. Özel durumlar, Iptal edilmiş bir işlevi çağıran bu adımlardır. Iptal etme işlemi, geri alınamaz işlem bağlamını nasıl ayarlayacağınızla belirlenen bir işlem ortamında çalışır. R betiğini bir kenar düğümünden çalıştırdığınızda, işlem bağlamının olası değerleri şunlardır:
- Yerel sıralı (Yerel)
- Yerel paralel (localpar)
- Harita azalt
- Spark
Yerel ve localpar seçenekleri yalnızca rxexec çağrılarının nasıl yürütüldüğünden farklılık gösterir. Bunlar, örneğin, Iptal edilmiş bir Numscaler Numcorestouse seçeneği kullanılmadıkça, diğer tüm mevcut çekirdekler genelinde paralel bir biçimde yürütülür rxOptions(numCoresToUse=6) . Paralel yürütme seçenekleri en iyi performansı sunar.
Aşağıdaki tablo, çağrıların nasıl yürütüleceğini ayarlamak için çeşitli işlem bağlamı seçeneklerini özetler:
| İşlem bağlamı | Nasıl ayarlanır | Yürütme bağlamı |
|---|---|---|
| Yerel sıralı | rxSetComputeContext (' yerel ') | Uç düğüm sunucusunun çekirdekleri arasında paralel yürütme, sanal olarak yürütülen rxExec çağrıları dışında |
| Yerel paralel | rxSetComputeContext (' localpar ') | Uç düğüm sunucusunun çekirdekleri genelinde paralel yürütme |
| Spark | RxSpark () | HDI kümesinin düğümleri genelinde Spark aracılığıyla paralel olarak dağıtılmış yürütme |
| Harita azalt | RxHadoopMR() | Harita aracılığıyla paralel olarak dağıtılmış yürütme, HDI kümesinin düğümleri genelinde azalmış |
İşlem bağlamına karar verme yönergeleri
Her tercih ettiğiniz üç seçenekten hangisinin analiz çalışmalarınızın yapısına, boyutuna ve verilerinizin konumuna bağlıdır. Size, hangi işlem bağlamını kullanacağınızı belirten basit bir formül yoktur. Ancak, doğru seçimi yapmanıza yardımcı olabilecek bazı temel ilkeler, en azından, bir kıyaslama çalıştırmadan önce seçimlerinizi daraltmanıza yardımcı olur. Bu temel ilkeler şunları içerir:
- Yerel Linux dosya sistemi, bir daha hızlıdır.
- Veriler yerel ise ve XDF 'da ise yinelenen çözümlemeler daha hızlıdır.
- Bir metin veri kaynağından küçük miktarlarda veri akışı yapmak tercih edilir. Veri miktarı büyükse, analiz etmeden önce XDF öğesine dönüştürün.
- Verileri analiz için kenar düğümüne kopyalama veya akışa alma yükü çok büyük miktarlarda veri için yönetilemez hale gelir.
- ApacheSpark, Hadoop 'daki analizler için haritanın azalmasına kıyasla daha hızlıdır.
Bu ilkeler verildiğinde, aşağıdaki bölümlerde bir işlem bağlamı seçmek için bazı genel Thumb kuralları sunulur.
Yerel
- Analiz edilecek veri miktarı küçükse ve yinelenen analiz gerektirmiyorsa, Yerel veya localpar kullanarak doğrudan çözümleme yordamına akış yapın.
- Analiz edilecek veri miktarı küçük veya orta ölçekli ise ve yinelenen analiz gerektiriyorsa, bunu yerel dosya sistemine kopyalayın, XDF dosyasına aktarın ve Yerel veya localpar aracılığıyla çözümleyin.
Apache Spark
- Analiz edilecek veri miktarı büyükse, Rxhivedata veya Rxparquetdata kullanarak bir Spark veri çerçevesine veya (depolama bir sorun değilse), bu dosyayı Spark işlem bağlamını kullanarak analiz edin.
Apache Hadoop eşleme azaltma
- Eşleme, genellikle daha yavaş olduğundan Spark işlem bağlamındaki bir sorun ortaya çıkardıysanız işlem bağlamını azaltır.
RxSetComputeContext üzerinde satır içi yardım
Daha fazla bilgi ve Iptal işlemi bağlamlarının örnekleri için, rxSetComputeContext yönteminde R 'deki satır içi yardıma bakın, örneğin:
> ?rxSetComputeContext
ayrıca, Machine Learning Server belgelerine dağıtılmış bilgi işlem genel bakış bölümüne de bakabilirsiniz.
Sonraki adımlar
Bu makalede, yürütmenin kenar düğümünün veya HDInsight kümesinin çekirdekleri arasında paralel olup olmadığını belirtmek için kullanılabilecek seçenekler hakkında bilgi edindiniz. hdınsight kümeleriyle ML hizmetleri kullanma hakkında daha fazla bilgi için aşağıdaki konulara bakın: