Veri bilimi ve makine öğrenmesi ile Azure Databricks

Databricks
Data Lake Storage
Kubernetes Hizmeti
Machine Learning

Çözüm fikri

bizi görmek isterseniz, olası kullanım durumları, alternatif hizmetler, uygulama değerlendirmeleri veya fiyatlandırma kılavuzu gibi daha fazla bilgi için bu makaleyi genişlettikten sonra GitHub geri bildirimdebulunun!

Kuruluşunuz veri bilimi ve makine öğrenimi gücünü tanırken verimliliği artırabilir, müşteri deneyimlerini geliştirebilir ve değişiklikleri tahmin edebilirsiniz. İş açısından kritik kullanım durumlarında bu hedeflere ulaşmak için şunlar için tutarlı ve güvenilir bir düzene sahip olmanız gerekir:

  • İzleme denemeleri.
  • Sonuçları çoğaltma.
  • Makine öğrenimi modellerini üretime dağıtma.

Bu makalede, tutarlı, güvenilir bir makine öğrenimi çerçevesine yönelik bir çözüm özetlenmektedir. Azure Databricks mimarinin çekirdeğini oluşturur. Depolama katmanı Delta Gölü ve makine öğrenimi platformu MLflow Ayrıca önemli roller oynar. bu bileşenler Azure Data Lake Storage, Azure Machine Learning ve Azure kubernetes hizmeti (aks) gibi diğer hizmetlerle sorunsuz bir şekilde tümleşir.

Bu hizmetler birlikte, veri bilimi ve makine öğrenimi için bir çözüm sağlar:

  • Basit: açık bir Data Lake mimariyi basitleştirir. Data Lake, seçkin bir katman, Delta Gölü içerir. Bu katman, verilere açık kaynaklı bir biçimde erişim sağlar.

  • Açık: çözüm, açık kaynak kodu, açık standartlar ve açık çerçeveleri destekler. Bu yaklaşım gelecekteki güncelleştirmeler gereksinimini en aza indirir. Azure Databricks ve Machine Learning, mlflow ve Delta gölü 'yi yerel olarak destekler. birlikte, bu bileşenler endüstri lideri makine öğrenimi işlemleri (mlops)veya makine öğrenimi için DevOps sağlar. Çok çeşitli dağıtım araçları çözümün standartlaştırılmış model biçimiyle tümleştirilir.

  • Işbirliğine dayalı: veri bilimi ve MLOps ekipleri bu çözümle birlikte çalışır. Bu takımlar, denemeleri kaydetmek ve sorgulamak için MLflow izlemeyi kullanır. Takımlar ayrıca modelleri merkezi MLflow modeli kayıt defterine dağıtır. Veri mühendisleri daha sonra veri alımı, ayıklama-dönüştürme-yükleme (ETL) işlemlerinde ve akış işlem hatlarında dağıtılan modelleri kullanır.

Olası kullanım örnekleri

Enerji tahmini için tasarlanan bir platform bu çözümü önceden yaşkaz . Bu platform, binlerce paralel model için hızlı ve uygun maliyetli eğitim, dağıtım ve yaşam döngüsü yönetimi sağlar.

Enerji sağlayıcılarının yanı sıra, bu çözüm şu şekilde bir kuruluşa faydalanabilir:

  • Veri bilimi kullanır.
  • Machine Learning modellerini oluşturur ve traıns.
  • Üretim ortamında makine öğrenimi modellerini çalıştırır.

İçindeki kuruluşlar şunlardır:

  • Perakende ve e-ticaret.
  • Bankacılık ve finans.
  • Sağlık ve yaşam bilimleri.
  • Oto ve sektörler ve üretim.

Mimari

Azure Databricks verileri iyileştirmek ve analiz etmek ve diğer hizmetler için kullanılabilir hale getirmek üzere veri depolama hizmetleriyle nasıl çalıştığını gösteren mimari diyagramı.

Diyagramda üç gri dikdörtgen bulunur: biri etiketli bir Işlem, bir tane veya bir etiketli depo. Işlem ve Işlev dikdörtgeni, diyagramın üst kısmındaki her birinin yanında bulunur. hizmet dikdörtgeni, Machine Learning ve Azure kubernetes hizmeti için simgeler içeren bir beyaz kutu içerir. Başka bir beyaz kutu, süreci ayırır ve dikdörtgenleri sunar. Azure Databricks ve MLflow için simgeler içerir. Bir ok, bu kutudan, sunan dikdörtgenindeki beyaz kutuya işaret eder. Işlem dikdörtgeninin altında mağaza dikdörtgeni bulunur. Data Lake Storage, Delta gölü ve bronz, gümüş ve altın oluşan üç veritabanı tablosunun simgelerle birlikte beyaz bir kutu içerir. Üç çizgi, her satırın her bir ucunda bulunan oklarla Işlem ve depolama dikdörtgenlerini birbirine bağlanır.

Bu mimarinin bir Visio dosyasını indirin.

Çözüm, verileri depolar, işler ve hizmet eder:

Veri akışı

Depolama

Data Lake Storage, verileri Delta gölü biçiminde depolar. Delta Gölü, Data Lake 'in seçkin katmanını oluşturur. Bir medon mimarisi verileri üç katmana düzenler:

  • Bronz tablolar ham verileri tutar.
  • Gümüş tablolar, temizlenen ve filtrelenmiş verileri içerir.
  • Altın tablolar, analiz ve raporlama için hazır olan toplanmış verileri depolar.

İşleme

  • Çeşitli diller, çerçeveler ve kitaplıkların kodu, ham verileri hazırlar, iyileştirir ve bunları temizler (1). kodlama olanakları arasında Python, R, SQL, Spark, pandas ve koalas vardır.

  • Azure Databricks veri bilimi iş yüklerini çalıştırır. Bu platform, makine öğrenimi modellerini de (2) oluşturur ve traıns. Azure Databricks önceden yüklenmiş, iyileştirilmiş kitaplıklar kullanır. Örnek olarak scikit-öğren, TensorFlow, PyTorch ve XGBoost sayılabilir.

  • MLflow izleme Machine Learning denemeleri, model çalıştırmaları ve sonuçları (3) yakalar. En iyi model üretime hazırsanız, Azure Databricks bu modeli MLflow model deposuna dağıtır. Bu merkezi kayıt defteri, üretim modelleriyle ilgili bilgileri depolar. Kayıt defteri Ayrıca modelleri diğer bileşenler için kullanılabilir hale getirir:

    • Spark ve Python işlem hatları modelleri alabilir. Bu işlem hatları toplu iş yüklerini veya akış ETL süreçlerini işler.
    • REST API 'Leri birçok amaçla modellere erişim sağlar. Örnekler, mobil ve Web uygulamalarında test ve etkileşimli Puanlama içerir.

Abil

Azure Databricks, Machine Learning ve aks (4) gibi diğer hizmetlere modeller dağıtabilir.

Bileşenler

  • Azure Databricks bir veri analizi platformudur. Tam olarak yönetilen Spark kümeleri veri bilimi iş yüklerini çalıştırır. Azure Databricks ayrıca makine öğrenimi modelleri derlemek ve eğitme için önceden yüklenmiş, iyileştirilmiş kitaplıklar kullanır. Azure Databricks ile MLflow tümleştirmesi, denemeleri izlemenin yanı sıra modelleri depolarda depolamanızı ve modelleri diğer hizmetler için kullanılabilir hale getirmek için bir yol sağlar. Azure Databricks ölçeklenebilirlik sunar:

    • Tek düğümlü bilgi işlem kümeleri, küçük veri kümelerini ve tek modelli çalıştırmaları işler.
    • Büyük veri kümeleri için, çok düğümlü bilgi işlem kümeleri veya grafik işleme birimi (GPU) kümeleri kullanılabilir. Bu kümeler, HorovodRunner gibi kitaplıkları ve çerçeveleri ve paralel model çalıştırmaları için hiper opt kullanır.
  • Data Lake Storage , yüksek performanslı analiz iş yükleri için ölçeklenebilir ve güvenli bir veri gölü olur. Bu hizmet yüzlerce Gigabit aktarım hızı sağlarken birden çok petabaytlarca bilgiyi yönetir. Veriler şu özelliklere sahip olabilir:

    • Yapılandırılmış, yarı yapılandırılmış veya yapılandırılmamış olmalıdır
    • Günlükler, dosyalar ve medya gibi birden çok heterojen kaynaktan gelir
    • Statik, toplu işlerle veya akışla
  • Delta Gölü, açık bir dosya biçimi kullanan bir depolama katmanıdır. bu katman, Data Lake Storage gibi bulut depolamanın üstünde çalışır. Delta Gölü, toplu iş ve akış verilerinin dönüştürülmesi ve temizleşmesi için iyileştirilmiştir. Bu platform, bu özellikleri ve işlevleri destekler:

    • Veri sürümü oluşturma ve geri alma.
    • Güvenilirlik için kararlılık, tutarlılık, yalıtım ve dayanıklılık (ACID) işlemleri.
    • Veri hazırlama, model eğitimi ve model hizmeti için tutarlı bir standart.
    • Kaynak verilerin tutarlı anlık görüntüleri için zaman seyahat. Veri bilimcileri, ayrı kopyalar oluşturmak yerine anlık görüntüler üzerinde modelleri eğitebilirsiniz.
  • MLflow, makine öğrenmesi yaşam döngüsü için açık kaynaklı bir platformdur. MLflow bileşenleri, eğitim ve çalıştırma sırasında makine öğrenmesi modellerini izleyebilir. Depolanan bilgiler kod, veriler, yapılandırma bilgileri ve sonuçları içerir. MLflow ayrıca modelleri depolar ve üretimde yükler. MLflow açık çerçeveler kullandığı için modelleri çeşitli hizmetler, uygulamalar, çerçeveler ve araçlar tüketir.

  • Machine Learning, tahmine dayalı analiz çözümleri oluşturmanıza, dağıtmanıza ve yönetmenize yardımcı olan bulut tabanlı bir ortamdır. Bu modellerle davranışı, sonuçları ve eğilimleri tahmin edin.

  • AKS yüksek oranda kullanılabilir, güvenli ve tam olarak yönetilen bir Kubernetes hizmetidir. AKS, kapsayıcılı uygulamaları dağıtmayı ve yönetmeyi kolaylaştırır.

Sonraki adımlar

  • AGL Energy, binlerce paralel model için standartlaştırılmış bir platform sunar. Platform, modeller için hızlı ve uygun maliyetli eğitim, dağıtım ve yaşam döngüsü yönetimi sağlar.
  • Open Grid Europe (OGE), gaz işlem hatlarını izlemek için yapay zeka modellerini kullanır. OGE, Azure Databricks ve MLflow kullanır.
  • Scandinavian Airlines (SAS), işbirliğine Azure Databricks aşamasında bu özelliği kullanır. Hava yolları da tahmine dayalı Machine Learning geliştirmek için şirket şirketlerinden destek alıyor. Modeller, şirket verilerinde desenleri belirleyerek günlük işlemleri iyi bir şekilde tamamlar.