Azure Machine Learning için kuruluş ölçeğinde bütçeleri, maliyetleri ve kotaları yönetme

Azure Machine Learning'den tahakkuk eden işlem maliyetlerini, birçok iş yükü, çok ekip ve kullanıcı içeren bir kuruluş ölçeğinde yönettiğinizde, çalışılması gereken çok sayıda yönetim ve iyileştirme zorluğu vardır.

Bu makalede, Azure Machine Learning ile maliyetleri iyileştirmeye, bütçeleri yönetmeye ve kotayı paylaşmaya yönelik en iyi yöntemleri sunuyoruz. Bu makale Microsoft'ta şirket içinde ve müşterilerimizle kurulan iş ortaklıklarında çalışan makine öğrenmesi ekiplerinin deneyimini ve çıkardıkları dersleri yansıtır. Şunları öğrenirsiniz:

İş yükü gereksinimlerini karşılamak için işlem iyileştirme

Yeni bir makine öğrenmesi projesi başlattığınızda, işlem gereksinimlerini iyi bir şekilde görmek için keşif çalışmaları gerekebilir. Bu bölümde eğitim, çıkarım veya iş istasyonu olarak doğru sanal makine (VM) SKU seçimini nasıl belirleyebileceğinize ilişkin öneriler sağlanır.

Eğitim için işlem boyutunu belirleme

Eğitim iş yükünüz için donanım gereksinimleri projeden projeye farklılık gösterebilir. Azure Machine Learning işlem, bu gereksinimleri karşılamak için çeşitli vm türleri sunar :

  • Genel amaçlı: Dengeli CPU ile bellek oranı.
  • Bellek için iyileştirilmiş: Yüksek bellek- CPU oranı.
  • İşlem için iyileştirilmiş: Yüksek CPU-bellek oranı.
  • Yüksek performanslı işlem: Çeşitli gerçek dünya HPC iş yükleri için liderlik sınıfı performans, ölçeklenebilirlik ve maliyet verimliliği sağlayın.
  • GPU'ları olan örnekler: Yoğun grafik işleme ve video düzenlemenin yanı sıra derin öğrenme ile model eğitimi ve çıkarım (ND) için hedeflenen özelleştirilmiş sanal makineler.

İşlem gereksinimlerinizin ne olduğunu henüz bilmiyor olabilirsiniz. Bu senaryoda, aşağıdaki uygun maliyetli varsayılan seçeneklerden biriyle başlamanızı öneririz. Bu seçenekler hafif testler ve eğitim iş yükleri içindir.

Tür Sanal makine boyutu Özellikler
CPU Standard_DS3_v2 4 çekirdek, 14 gigabayt (GB) RAM, 28 GB depolama alanı
GPU Standard_NC6 6 çekirdek, 56 gigabayt (GB) RAM, 380 GB depolama, NVIDIA Tesla K80 GPU

Senaryonuz için en iyi VM boyutunu elde etmek için deneme ve hatadan oluşabilir. Dikkate alınması gereken birkaç özellik aşağıdadır.

  • CPU'ya ihtiyacınız varsa:
    • Büyük veri kümeleri üzerinde eğitim kullanıyorsanız bellek için iyileştirilmiş bir VM kullanın.
    • Gerçek zamanlı çıkarım veya gecikmeye duyarlı diğer görevler gerçekleştiriyorsanız işlem için iyileştirilmiş bir VM kullanın.
    • Eğitim sürelerini hızlandırmak için daha fazla çekirdek ve RAM içeren bir VM kullanın.
  • GPU'ya ihtiyacınız varsa, VM seçme hakkında bilgi için bkz. GPU için iyileştirilmiş VM boyutları .
    • Dağıtılmış eğitim yapıyorsanız, birden çok GPU'ya sahip VM boyutlarını kullanın.
    • Birden çok düğümde dağıtılmış eğitim yapıyorsanız NVLink bağlantıları olan GPU'ları kullanın.

İş yükünüz için en uygun VM türünü ve SKU'yu seçerken, karşılaştırılabilir VM SKU'larını CPU ve GPU performansı ile fiyatlandırması arasında bir denge olarak değerlendirin. Maliyet yönetimi açısından bakıldığında, bir iş birkaç SKU üzerinde makul bir şekilde çalışabilir.

NC ailesi gibi belirli GPU'lar, özellikle NC_Promo SKU'lar düşük gecikme süresi ve birden çok bilgi işlem iş yükünü paralel olarak yönetme gibi diğer GPU'lara benzer özelliklere sahiptir. Diğer GPU'lardan bazılarına kıyasla indirimli fiyatlarla kullanılabilirler. VM SKU'larını iş yüküne seçmeyi göz önünde bulundurarak sonuçta önemli ölçüde maliyet tasarrufu sağlayabilir.

Daha fazla sayıda GPU'ya kaydolmanın daha hızlı sonuçlarla yürütülmesi zorunlu değildir. Bunun yerine GPU'ların tam olarak kullanıldığından emin olun. Örneğin, NVIDIA CUDA gereksinimini bir kez daha kontrol edin. Yüksek performanslı GPU yürütmesi için gerekli olsa da, işiniz buna bağımlı olmayabilir.

Çıkarım için işlem boyutunu belirleme

Çıkarım senaryoları için işlem gereksinimleri, eğitim senaryolarından farklıdır. Kullanılabilir seçenekler, senaryonuzun toplu olarak çevrimdışı çıkarım istemesi veya gerçek zamanlı olarak çevrimiçi çıkarım gerektirmesi durumuna göre farklılık gösterir.

Gerçek zamanlı çıkarım senaryoları için aşağıdaki önerileri göz önünde bulundurun:

  • Modeli web hizmeti olarak dağıtırken model için ne kadar CPU ve bellek ayırmanız gerektiğini belirlemek için Azure Machine Learning ile modelinizdeki profil oluşturma özelliklerini kullanın.
  • Gerçek zamanlı çıkarım yapıyorsanız ancak yüksek kullanılabilirliğe ihtiyacınız yoksa Azure Container Instances dağıtın (SKU seçimi yok).
  • Gerçek zamanlı çıkarım yapıyorsanız ancak yüksek kullanılabilirliğe ihtiyacınız varsa Azure Kubernetes Service'a dağıtın.
    • Geleneksel makine öğrenmesi modellerini kullanıyorsanız ve 10 sorgu/saniye alıyorsanız < bir CPU SKU'su ile başlayın. F serisi SKU'lar genellikle iyi çalışır.
    • Derin öğrenme modelleri kullanıyorsanız ve 10 sorgu/saniye alıyorsanız >Triton ile NVIDIA GPU SKU'su (NCasT4_v3 genellikle iyi çalışır) deneyin.

Toplu çıkarım senaryoları için aşağıdaki önerileri göz önünde bulundurun:

  • Toplu çıkarım için Azure Machine Learning işlem hatlarını kullandığınızda, ilk VM boyutunuzu seçmek için Eğitimin işlem boyutunu belirleme bölümündeki yönergeleri izleyin.
  • Yatay ölçeklendirme yaparak maliyeti ve performansı iyileştirin. Maliyeti ve performansı iyileştirmenin temel yöntemlerinden biri, Azure Machine Learning'de paralel çalıştırma adımının yardımıyla iş yükünü paralelleştirmektir. Bu işlem hattı adımı, görevi paralel olarak yürütmek için çok daha küçük düğümler kullanmanıza olanak tanır ve bu da yatay olarak ölçeklendirmenize olanak tanır. Ancak paralelleştirmenin bir yükü vardır. İş yüküne ve elde edilebilecek paralellik derecesine bağlı olarak, paralel çalıştırma adımı bir seçenek olabilir veya olmayabilir.

İşlem örneğinin boyutunu belirleme

Etkileşimli geliştirme için Azure Machine Learning'in işlem örneği önerilir. İşlem örneği (CI) teklifi, tek bir kullanıcıya bağlı olan ve bulut iş istasyonu olarak kullanılabilen tek düğüm işlem getirir.

Bazı kuruluşlar üretim verilerinin yerel iş istasyonlarında kullanılmasına izin vermemektedir, iş istasyonu ortamında kısıtlamalar uygulamış veya paketlerin ve bağımlılıkların kurumsal BT ortamına yüklenmesini kısıtlamış olabilir. İşlem örneği, sınırlamanın üstesinden gelmek için iş istasyonu olarak kullanılabilir. Üretim verilerine erişimi olan güvenli bir ortam sunar ve veri bilimi için popüler paketler ve araçlar önceden yüklenmiş olarak gelen görüntüler üzerinde çalışır.

İşlem örneği çalışırken, kullanıcı VM işlemi, Standart Load Balancer (lb/giden kuralları ve işlenen veriler dahil), işletim sistemi diski (Premium SSD yönetilen P10 diski), geçici disk (geçici disk türü seçilen VM boyutuna bağlıdır) ve genel IP adresi için faturalandırılır. Maliyetlerden tasarruf etmek için kullanıcıların şunları göz önünde bulundurmasını öneririz:

  • İşlem örneğini kullanımda olmadığında başlatın ve durdurun.
  • Bir işlem örneğinde verilerinizin bir örneğiyle çalışın ve tüm veri kümenizle çalışmak için işlem kümelerinin ölçeğini genişletme
  • Deneme işlerini geliştirirken veya test ederken veya tam ölçekte iş gönderirken paylaşılan işlem kapasitesine geçtiğinizde işlem örneğinde yerel işlem hedef modunda gönderin. Örneğin, birçok dönem, tam veri kümesi ve hiper parametre araması.

İşlem örneğini durdurursanız VM işlem saatleri, geçici disk ve Standart Load Balancer işlenen veri maliyetleri için faturalama durdurulur. Not kullanıcı hala işletim sistemi diski için ödeme ve işlem örneği durdurulduğunda bile lb/giden kuralları dahil Standart Load Balancer. İşletim sistemi diskinde kaydedilen tüm veriler durdurma ve yeniden başlatma işlemleriyle kalıcı hale getirilir.

İşlem kullanımını izleyerek seçilen VM boyutunu ayarlama

Azure Machine Learning işlem kullanımınız ve kullanımınızla ilgili bilgileri Azure İzleyici aracılığıyla görüntüleyebilirsiniz. Model dağıtımı ve kaydıyla ilgili ayrıntıları, etkin ve boş düğümler gibi kota ayrıntılarını, iptal edilen ve tamamlanan çalıştırmalar gibi çalıştırma ayrıntılarını ve GPU ve CPU kullanımı için işlem kullanımını görüntüleyebilirsiniz.

İzleme ayrıntılarındaki içgörülere bağlı olarak, ekip genelinde kaynak kullanımınızı daha iyi planlayabilir veya ayarlayabilirsiniz. Örneğin, geçen hafta içinde birçok boşta düğüm fark ederseniz, bu ek maliyeti önlemek için ilgili çalışma alanı sahipleriyle birlikte çalışarak işlem kümesi yapılandırmasını güncelleştirebilirsiniz. Kullanım düzenlerini analiz etme avantajları, maliyetleri ve bütçe iyileştirmelerini tahmin etme konusunda yardımcı olabilir.

Bu ölçümlere doğrudan Azure portal erişebilirsiniz. Azure Machine Learning çalışma alanınıza gidin ve sol paneldeki izleme bölümünün altında Ölçümler'i seçin. Ardından, ölçümler, toplama ve zaman aralığı gibi görüntülemek istediğiniz ayrıntılara ilişkin ayrıntıları seçebilirsiniz. Daha fazla bilgi için bkz. Azure Machine Learning belgelerini izleme sayfası.

Azure Machine Learning için Azure İzleyici ölçümlerinin diyagramı

Geliştirme yaparken yerel, tek düğümlü ve çok düğümlü bulut işlem arasında geçiş yapma

Makine öğrenmesi yaşam döngüsü boyunca değişen işlem ve araç gereksinimleri vardır. Azure Machine Learning, bu gereksinimleri karşılamak için tercih edilen herhangi bir iş istasyonu yapılandırmasından SDK ve CLI arabirimi aracılığıyla ile arabirim oluşturulabilir.

Maliyetlerden tasarruf etmek ve üretken bir şekilde çalışmak için şunların kullanılması önerilir:

  • Git kullanarak deneme kod tabanınızı yerel olarak kopyalayın ve Azure Machine Learning SDK'sını veya CLI'yı kullanarak işleri bulut bilişime gönderin.
  • Veri kümeniz büyükse, veri kümesinin tamamını bulut depolamada tutarken verilerinizin bir örneğini yerel iş istasyonunuzda yönetmeyi göz önünde bulundurun.
  • İşlerinizi farklı sayıda dönemle veya farklı boyutlardaki veri kümelerinde çalışacak şekilde yapılandırabilmek için deneme kod tabanınızı parametreleştirin.
  • Veri kümenizin klasör yolunu sabit kodlamayın. Daha sonra aynı kod tabanını farklı veri kümeleriyle ve yerel ve bulut yürütme bağlamı altında kolayca yeniden kullanabilirsiniz.
  • Geliştirme veya test sırasında ya da tam ölçekte iş gönderdiğinizde paylaşılan işlem kümesi kapasitesine geçtiğinizde deneme işlerinizi yerel işlem hedef modunda önyükleyin.
  • Veri kümeniz büyükse yerel veya işlem örneği iş istasyonunuzda bir veri örneğiyle çalışırken Azure Machine Learning'de bulut bilişime ölçeklendirerek tüm veri kümenizle çalışın.
  • İşlerinizin yürütülmesi uzun zaman alıyorsa, yatay olarak ölçeği genişletmeye olanak sağlamak için kod tabanınızı dağıtılmış eğitim için iyileştirmeyi göz önünde bulundurun.
  • Dağıtılmış eğitim iş yüklerinizi düğüm esnekliği için tasarlayın, tek düğümlü ve çok düğümlü işlem esnek kullanımına olanak tanıyın ve önlenebilir işlem kullanımını kolaylaştırın.

Azure Machine Learning işlem hatlarını kullanarak işlem türlerini birleştirme

Makine öğrenmesi iş akışlarınızı düzenlerken, birden çok adımda bir işlem hattı tanımlayabilirsiniz. İşlem hattındaki her adım kendi işlem türünde çalıştırılabilir. Bu sayede makine öğrenmesi yaşam döngüsü boyunca değişen işlem gereksinimlerini karşılamak için performansı ve maliyeti iyileştirebilirsiniz.

Ekibin bütçesini en iyi şekilde kullanma

Bütçe ayırma kararları tek bir ekibin denetimi dışında olsa da, bir ekip genellikle ayrılan bütçesini en iyi ihtiyaçlarına göre kullanma yetkisine sahiptir. Ekip, iş önceliğini ve performansı ve maliyeti akıllıca hesaplayarak daha yüksek küme kullanımı elde edebilir, genel maliyeti düşürebilir ve aynı bütçeden daha fazla işlem saati kullanabilir. Bu, ekibin üretkenliğinin artırılmasına neden olabilir.

Paylaşılan işlem kaynaklarının maliyetlerini iyileştirme

Paylaşılan işlem kaynaklarının maliyetlerini iyileştirmenin anahtarı, bunların tam kapasiteye kullanıldığından emin olmaktır. Paylaşılan kaynak maliyetlerinizi iyileştirmeye yönelik bazı ipuçları aşağıdadır:

  • İşlem örneklerini kullandığınızda, bunları yalnızca yürütülecek kodunuz olduğunda açın. Kullanılmadıkları zaman kapatın.
  • İşlem kümelerini kullandığınızda, en düşük düğüm sayısını 0, en yüksek düğüm sayısını da bütçe kısıtlamalarınıza göre değerlendirilen bir sayı olarak ayarlayın. Seçtiğiniz VM SKU'sunun bir VM düğümünün tam kullanım maliyetini hesaplamak için Azure fiyatlandırma hesaplayıcısını kullanın. Otomatik ölçeklendirme, kullanan kimse olmadığında tüm işlem düğümlerinin ölçeğini azaltacaktır. Yalnızca bütçeniz olan düğüm sayısına kadar ölçeklendirilir. Otomatik ölçeklendirmeyi yapılandırarak tüm işlem düğümlerinin ölçeğini azaltabilirsiniz.
  • Modelleri eğitirken CPU kullanımı ve GPU kullanımı gibi kaynak kullanımlarınızı izleyin. Kaynaklar tam olarak kullanılmıyorsa, kodunuzu kaynakları daha iyi kullanacak şekilde değiştirin veya daha küçük veya daha ucuz VM boyutlarına ölçeklendirin.
  • Küme ölçeklendirme işlemlerinin neden olduğu bilgi işlem verimliliklerini önlemek için ekibiniz için paylaşılan işlem kaynakları oluşturup oluşturamayacağınızı değerlendirin.
  • Kullanım ölçümlerine göre işlem kümesi otomatik ölçeklendirme zaman aşımı ilkelerini iyileştirin.
  • Tek tek çalışma alanlarının erişebilecekleri işlem kaynaklarının miktarını denetlemek için çalışma alanı kotalarını kullanın.

Birden çok VM SKU'su için kümeler oluşturarak zamanlama önceliğini tanıtma

Kota ve bütçe kısıtlamaları altında hareket eden bir ekip, önemli işlerin zamanında çalıştığından ve bütçenin mümkün olan en iyi şekilde kullanıldığından emin olmak için işlerin zamanında yürütülmesini maliyetle karşılaştırmalı.

Ekiplerin en iyi işlem kullanımını desteklemek için çeşitli boyutlarda ve düşük öncelikli ve ayrılmış VM önceliklerine sahip kümeler oluşturması önerilir. Düşük öncelikli işlemler, Azure'daki fazla kapasiteyi kullanır ve bu nedenle indirimli fiyatlarla gelir. Dezavantajı da, bu makineler daha yüksek öncelikli bir soru geldiğinde etkisiz hale gelebilir.

Farklı boyut ve öncelik kümelerini kullanarak, zamanlama önceliği olarak bir ilke ortaya eklenebilir. Örneğin, deneysel ve üretim işleri aynı NC GPU kotası için rekabet ettiğinde, bir üretim işinin deneysel iş üzerinde çalışma tercihi olabilir. Bu durumda, ayrılmış işlem kümesinde üretim işini ve düşük öncelikli işlem kümesinde deneysel işi çalıştırın. Kota kısaldığında, deneysel iş üretim işinin lehine önlenir.

VM önceliği'nin yanında, işleri çeşitli VM SKU'larında çalıştırmayı göz önünde bulundurun. P40 GPU'ya sahip bir VM örneğinde bir işin yürütülmesi V100 GPU'dan daha uzun sürebilir. Ancak, V100 VM örnekleri dolu olabileceğinden veya kota tam olarak kullanıldığından, P40'ta tamamlanma süresi iş aktarım hızı açısından daha hızlı olabilir. Maliyet yönetimi açısından daha az performanslı ve daha ucuz VM örneklerinde işleri daha düşük öncelikli çalıştırmayı da düşünebilirsiniz.

Eğitim yakınsanmadığında çalıştırmayı erken sonlandırma

Bir modeli temeline göre geliştirmek için sürekli denemeler yaptığınızda, her biri biraz farklı yapılandırmalara sahip çeşitli deneme çalıştırmaları yürütüyor olabilirsiniz. Tek bir çalıştırma için giriş veri kümelerini değiştirebilirsiniz. Başka bir çalıştırma için hiper parametre değişikliği yapabilirsiniz. Tüm değişiklikler diğer değişiklikler kadar etkili olmayabilir. Bir değişikliğin model eğitiminizin kalitesi üzerinde amaçlanan etkiyi oluşturmadığını erken algılarsınız. Eğitimin yakınsanmadığını algılamak için çalıştırma sırasında eğitim ilerleme durumunu izleyin. Örneğin, her eğitim döneminin ardından performans ölçümlerini günlüğe kaydetme. Kaynakları ve bütçeyi başka bir deneme için boşaltmak için işi erken sonlandırmayı göz önünde bulundurun.

Bütçeleri, maliyeti ve kotayı planlama, yönetme ve paylaşma

Bir kuruluş, makine öğrenmesi kullanım örnekleri ve ekip sayısını artırdıkça, verimli operasyonlar sağlamak için BT ve finanstan daha fazla çalışma olgunluğunun yanı sıra bireysel makine öğrenmesi ekipleri arasında koordinasyon gerektirir. İşlem kaynaklarının azlığını gidermek ve yönetim yükünün üstesinden gelmek için şirket ölçeğinde kapasite ve kota yönetimi önemli hale gelir.

Bu bölümde, kurumsal ölçekte bütçeleri, maliyetleri ve kotayı planlama, yönetme ve paylaşmaya yönelik en iyi yöntemler ele alınmaktadır. Microsoft'ta makine öğrenmesi için birçok GPU eğitim kaynağını yönetmeye dayalıdır.

Azure Machine Learning ile kaynak harcamasını anlama

Yönetici olarak işlem gereksinimlerini planlamanın en büyük zorluklarından biri, temel tahmin olarak geçmiş bilgileri olmadan yeni bir başlangıç yapılmasıdır. Pratik anlamda, çoğu proje ilk adım olarak küçük bir bütçeden başlayacaktır.

Bütçenin nereye gittiğini anlamak için Azure Machine Learning maliyetlerinin nereden geldiğini bilmek kritik önem taşır:

  • Azure Machine Learning yalnızca kullanılan işlem altyapısı için ücretlendirilir ve işlem maliyetlerine ek ücret eklemez.
  • Azure Machine Learning çalışma alanı oluşturulduğunda Azure Machine Learning'i etkinleştirmek için birkaç kaynak daha oluşturulur: Key Vault, Application Insights, Azure Depolama ve Azure Container Registry. Bu kaynaklar Azure Machine Learning'de kullanılır ve bu kaynaklar için ödeme yaparsınız.
  • Eğitim kümeleri, işlem örnekleri ve yönetilen çıkarım uç noktaları gibi yönetilen işlemle ilişkili maliyetler vardır. Bu yönetilen işlem kaynaklarıyla, hesaba katmanız gereken altyapı maliyetleri şunlardır: sanal makineler, sanal ağ, yük dengeleyici, bant genişliği ve depolama.

Harcama desenlerini izleme ve etiketleme ile daha iyi raporlama elde etme

Yöneticiler genellikle Azure Machine Learning'deki farklı kaynaklardaki maliyetleri izlemek ister. Etiketleme bu soruna doğal bir çözümdür ve Azure ve diğer birçok bulut hizmeti sağlayıcısı tarafından kullanılan genel yaklaşımla uyumlu hale geldi. Etiket desteğiyle artık maliyet dökümünü işlem düzeyinde görebilirsiniz, bu nedenle daha iyi maliyet izleme, gelişmiş raporlama ve daha fazla saydamlık sağlamak için daha ayrıntılı bir görünüme erişmenizi sağlayabilirsiniz.

Etiketleme, harcama desenlerini gözlemlemek için Azure Maliyet Yönetimi'nde bu kaynaklara daha fazla filtre uygulamak için çalışma alanlarınıza ve işlemlerinize (Azure Resource Manager şablonları ve Azure Machine Learning stüdyosu) özelleştirilmiş etiketler yerleştirmenize olanak tanır. Bu işlevsellik, dahili geri ödeme senaryoları için en iyi şekilde kullanılabilir. Ayrıca etiketler, proje, ekip, belirli faturalama kodu vb. için işlemle ilişkili meta verileri veya ayrıntıları yakalamak için yararlı olabilir. Bu, etiketlemeyi farklı kaynaklara ne kadar para harcadığınızı ölçmek için çok yararlı hale getirir ve bu nedenle ekipler veya projeler genelindeki maliyet ve harcama desenleriniz hakkında daha derin içgörüler elde eder.

İşlemlere yerleştirilen sistem tarafından eklenen etiketler, toplam harcamanızın işlem açısından dökümünü görmek ve maliyetlerinizin çoğuna hangi işlem kaynağı kategorisini yükleyebileceğini belirlemek için Maliyet Analizi sayfasında "İşlem türü" etiketine göre filtrelemenizi sağlar. Bu, özellikle eğitiminizde daha fazla görünürlük elde etmek ve maliyet desenlerini çıkarım için kullanışlıdır.

İşlem türüne göre filtrelenmiş maliyet analizi görünümünün ekran görüntüsü.

İlkeye göre işlem kullanımını yönetme ve kısıtlama

Birçok iş yüküne sahip bir Azure ortamını yönettiğiniz zaman, kaynak harcamalarına genel bakış sağlamak zor olabilir. Azure İlkesi, Azure ortamında belirli kullanım düzenlerini kısıtlayarak kaynak harcamalarını denetlemeye ve yönetmeye yardımcı olabilir.

Azure Machine Learning'e özgü olarak, ilkeleri yalnızca belirli VM SKU'larının kullanımına izin verecek şekilde ayarlamanızı öneririz. İlkeler pahalı VM'lerin seçilmesini önlemeye ve denetlemeye yardımcı olabilir. İlkeler, düşük öncelikli VM SKU'larının kullanımını zorunlu kılmak için de kullanılabilir.

kotayı iş önceliğine göre ayırma ve yönetme

Azure, bir abonelikte ve Azure Machine Learning çalışma alanı düzeyinde kota ayırma sınırları belirlemenize olanak tanır. Azure rol tabanlı erişim denetimi (RBAC) aracılığıyla kotayı kimlerin yönetebileceğini kısıtlamak, kaynak kullanımının ve maliyet öngörülebilirliğinin sağlanmasına yardımcı olabilir.

GPU kotasının kullanılabilirliği abonelikleriniz arasında az olabilir. İş yükleri arasında yüksek kota kullanımı sağlamak için kotanın iş yükleri arasında en iyi şekilde kullanılıp kullanılmadığını ve atanıp atanmadığını izlemenizi öneririz.

Microsoft'ta kapasite gereksinimlerini iş önceliğine göre değerlendirerek GPU kotalarının makine öğrenmesi ekipleri arasında en iyi şekilde kullanılıp ayrılmadığı düzenli aralıklarla belirlenir.

Kapasiteyi önceden işleme

Sonraki yıl veya sonraki birkaç yıl içinde ne kadar işlem kullanılacağına ilişkin iyi bir tahmininiz varsa Azure Ayrılmış VM Örnekleri'ni indirimli bir maliyetle satın alabilirsiniz. Bir veya üç yıllık satın alma koşulları vardır. Azure Ayrılmış VM Örnekleri indirimli olduğundan, kullandıkça öde fiyatlarına kıyasla önemli maliyet tasarrufları olabilir.

Azure Machine Learning ayrılmış işlem örneklerini destekler. İndirimler, Azure Machine Learning tarafından yönetilen işlem için otomatik olarak uygulanır.

Veri saklamayı yönetme

Bir makine öğrenmesi işlem hattı her yürütildiğinde, verilerin önbelleğe alınması ve yeniden kullanılması için her işlem hattı adımında ara veri kümeleri oluşturulabilir. Bu makine öğrenmesi işlem hatlarının çıktısı olarak verilerin büyümesi, birçok makine öğrenmesi denemesi çalıştıran bir kuruluş için sorun oluşturabilir.

Veri bilimciler genellikle zamanlarını oluşturulan ara veri kümelerini temizlemek için harcamaz. Zaman içinde, oluşturulan veri miktarı eklenir. Azure Depolama, veri yaşam döngüsünün yönetimini geliştirme özelliğiyle birlikte gelir. Azure Blob Depolama yaşam döngüsü yönetimini kullanarak, kullanılmayan verileri daha soğuk depolama katmanlarına taşımak ve maliyetten tasarruf etmek için genel ilkeler ayarlayabilirsiniz.

Altyapı maliyet iyileştirmesi ile ilgili dikkat edilmesi gerekenler

Azure ağ maliyeti, Azure veri merkezinden giden bant genişliğinden kaynaklanır. Azure veri merkezine gelen tüm veriler ücretsizdir. Ağ maliyetini azaltmanın anahtarı, tüm kaynaklarınızı mümkün olduğunca aynı veri merkezi bölgesine dağıtmaktır. Azure Machine Learning çalışma alanını dağıtabilir ve verilerinizin bulunduğu bölgede işlem yapabilirseniz daha düşük maliyet ve daha yüksek performansın keyfini çıkarabilirsiniz.

Hibrit bulut ortamına sahip olmak için şirket içi ağınızla Azure ağınız arasında özel bir bağlantınız olmasını isteyebilirsiniz. ExpressRoute bunu yapmanızı sağlar, ancak ExpressRoute'un yüksek maliyetini göz önünde bulundurarak hibrit bulut kurulumundan uzaklaşmak ve tüm kaynakları Azure buluta taşımak daha uygun maliyetli olabilir.

Azure Container Registry

Azure Container Registry için maliyet iyileştirmesi için belirleyici faktörler şunlardır:

  • Kapsayıcı kayıt defterinden Azure Machine Learning'e Docker görüntüsü indirmeleri için gerekli aktarım hızı
  • Azure Özel Bağlantı gibi kurumsal güvenlik özellikleri gereksinimleri

Yüksek aktarım hızının veya kurumsal güvenliğin gerekli olduğu üretim senaryoları için Azure Container Registry Premium SKU'su önerilir.

Aktarım hızının ve güvenliğin daha az kritik olduğu geliştirme/test senaryoları için Standart SKU veya Premium SKU'yu öneririz.

Azure Machine Learning için temel Azure Container Registry SKU'su önerilmez. Azure Machine Learning'in görece büyük boyutlu (1+ GB) Docker görüntüleri tarafından hızla aşılabilen düşük aktarım hızı ve düşük dahil edilen depolama alanı nedeniyle önerilmez.

Azure bölgelerini seçerken bilgi işlem türü kullanılabilirliğini göz önünde bulundurun

İşleminiz için bir bölge seçtiğinizde işlem kotası kullanılabilirliğini göz önünde bulundurun. Doğu ABD, Batı ABD ve Batı Avrupa gibi popüler ve daha büyük bölgeler, daha katı kapasite kısıtlamaları olan diğer bazı bölgelere kıyasla daha yüksek varsayılan kota değerlerine ve çoğu CPU ve GPU'nun daha yüksek kullanılabilirliğine sahip olma eğilimindedir.

Daha fazla bilgi edinin

Bulut Benimseme Çerçevesi kullanarak iş birimleri, ortamlar veya projeler genelinde maliyetleri izleme

Sonraki adımlar

Azure Machine Learning ortamlarını düzenleme ve ayarlama hakkında daha fazla bilgi edinmek için bkz. Azure Machine Learning ortamlarını düzenleme ve ayarlama.

Azure Machine Learning ile Machine Learning DevOps ile ilgili en iyi yöntemler hakkında bilgi edinmek için bkz. Machine Learning DevOps kılavuzu.