Databricks veri bilimi & mühendisliği kavramları

Bu makalede, Azure Databricks çalışma alanını etkin bir şekilde kullanmak için anlamanız gereken temel kavramlar sunulmaktadır.

Çalışma alanı

Çalışma alanı tüm Azure Databricks varlıklarınıza erişim için bir ortamdır. Bir çalışma alanı nesneleri (Not defterleri, kitaplıklar, panolar ve denemeleri) Klasörler halinde düzenler ve veri nesnelerine ve hesaplama kaynaklarına erişim sağlar.

Bu bölümde Azure Databricks çalışma alanı klasörlerinde bulunan nesneler açıklanmaktadır.

Not defteri

Çalıştırılabilir komutları, görselleştirmeleri ve anlatım metnini içeren belgelere yönelik Web tabanlı bir arabirim.

Pano

Görselleştirmelere düzenli erişim sağlayan bir arabirim.

Kitaplık

Kümenizde çalışan Not defteri veya iş için kullanılabilen bir kod paketi. Databricks çalışma zamanları birçok kitaplık içerir ve kendinizinkini ekleyebilirsiniz.

Depo

İçeriği bir uzak git deposuna eşitleyerek içerikleri birlikte sürümlü bir klasör.

Deneme

Machine Learning modeli eğitimi için bir Mlflow koleksiyonu çalışır .

Arabirim

Bu bölümde, varlıklarınıza erişmek için Azure Databricks desteklediği arabirimler açıklanmaktadır: UI, API ve komut satırı (CLı).

Kullanıcı arabirimi

Azure Databricks Kullanıcı arabirimi, çalışma alanı klasörleri ve içerdikleri nesneler, veri nesneleri ve hesaplama kaynakları için kullanımı kolay bir grafik arabirimi sağlar.

Giriş sayfası

REST API

REST API üç sürümü vardır: 2,1, 2,0ve 1,2. REST API 'Leri 2,1 ve 2,0 REST API 1,2 ve ek işlevler işlevlerinin çoğunu destekler ve tercih edilir.

CLI

GitHubbarındırılan açık kaynak proje. CLı REST API (en son)üzerinde oluşturulur.

Veri yönetimi

Bu bölümde, analiz gerçekleştirdiğiniz verileri tutan ve makine öğrenimi algoritmalarına akış yapan nesneler açıklanmaktadır.

Databricks Dosya Sistemi (DBFS)

Blob deposu üzerinde dosya sistemi soyutlama katmanı. Dosya (veri dosyaları, kitaplıklar ve görüntüler) ve diğer dizinleri içerebilen dizinler içerir. DBFS, Azure Databricks öğrenmek için kullanabileceğiniz bazı veri kümeleri ile otomatik olarak doldurulur.

Veritabanı

Kolayca erişilebilen, yönetilen ve güncelleştirilebilecek bir bilgi koleksiyonu.

Tablo

Yapılandırılmış verilerin temsili. Apache Spark SQL ve Apache Spark apı 'leri ile tabloları sorgulayın.

Meta veri deposu

Veri ambarındaki sütun ve sütun türü bilgileri, veri okumak ve yazmak için gereken serileştiriciler ve seri hale getiriciler ve verilerin depolandığı karşılık gelen dosyalar dahil olmak üzere çeşitli tablo ve bölümlerin tüm yapı bilgilerini depolayan bileşen. Her Azure Databricks dağıtımının, tablo meta verilerini kalıcı hale getirmek için tüm kümeler tarafından erişilebilen bir merkezi Hive meta veri deposu vardır. Ayrıca, var olan bir dış Hive meta veri deposukullanma seçeneğiniz de vardır.

Hesaplama yönetimi

Bu bölümde, Azure Databricks içinde hesaplamalar çalıştırmak için bilmeniz gereken kavramlar açıklanmaktadır.

Küme

Not defterlerini ve işleri çalıştırdığınız bir hesaplama kaynakları ve yapılandırma kümesi. İki tür küme vardır: tümü-amaç ve iş.

  • UI, CLı veya REST API kullanarak bir Tüm amaç kümesi oluşturursunuz. Genel amaçlı bir kümeyi kendiniz sonlandırıp yeniden başlatabilirsiniz. Birden çok kullanıcı, ortaklaşa etkileşimli analiz yapmak için bu kümeleri paylaşabilir.
  • Azure Databricks iş Zamanlayıcısı, Yeni bir iş kümesinde bir çalıştırdığınızda ve iş tamamlandığında kümeyi sonlandırdığınızda bir iş kümesi oluşturur. Bir iş kümesini yeniden başlatmazsanız .

Havuz

Küme başlatma ve otomatik ölçeklendirme sürelerini azaltan, kullanıma yönelik bir dizi boşta, kullanıma yönelik örnekler. Bir havuza eklendiğinde, küme sürücü ve çalışan düğümlerini havuzdan ayırır. Havuzda kümenin isteğine uyum sağlamak için yeterli boş kaynak yoksa havuz, örnek sağlayıcıdan yeni örnekler ayırarak genişletilir. Eklenen bir küme sonlandırıldığında, kullandığı örnekler havuza döndürülür ve farklı bir küme tarafından yeniden kullanılabilir.

Databricks çalışma zamanı

Azure Databricks tarafından yönetilen kümeler üzerinde çalışan çekirdek bileşenleri kümesi. Azure Databricks birkaç çalışma zamanı türü sunar:

  • Databricks Runtime Apache Spark içerir, ancak büyük veri analizlerinin kullanılabilirliğini, performansını ve güvenliğini önemli ölçüde geliştiren bir dizi bileşen ve güncelleştirme de ekler.
  • Machine Learning için Databricks Runtime Databricks Runtime oluşturulmuştur ve Machine Learning ve veri bilimi için hazır bir ortam sağlar. TensorFlow, keras, PyTorch ve XGBoost dahil olmak üzere birden çok popüler kitaplık içerir.
  • Genomiks için Databricks Runtime , genomik ve biotıbbi verilerle çalışmaya yönelik Databricks Runtime en iyi duruma getirilmiş bir sürümdür.
  • Databricks Light , açık kaynak Apache Spark çalışma zamanının Azure Databricks paketleniyor. Databricks Runtime tarafından sağlanan gelişmiş performans, güvenilirlik veya otomatik ölçeklendirme avantajları gerektirmeyen işler için bir çalışma zamanı seçeneği sağlar. Databricks Light öğesini yalnızca bir JAR, Python veya Spark-gönder işi çalıştırmak için bir küme oluşturduğunuzda seçebilirsiniz; etkileşimli veya Not defteri iş iş yüklerini çalıştırdığınız kümeler için bu çalışma zamanını seçemezsiniz.

İş

Bir not defteri veya kitaplığı hemen ya da zamanlanan bir şekilde çalıştırmak için etkileşimli olmayan bir mekanizma.

İş yükü

Azure Databricks, farklı fiyatlandırma şemalarına tabi olan iki iş yükü türünü tanımlar: veri Mühendisliği (iş) ve veri analizi (hepsi-amaç).

  • Veri Mühendisliği Bir (otomatik) iş yükü, Azure Databricks iş zamanlayıcısının her iş yükü için oluşturduğu bir iş kümesi üzerinde çalışır.
  • Veri analizi Bir (etkileşimli) iş yükü, bir bütün amaçlı kümedeçalışır. Etkileşimli iş yükleri genellikle komutları Azure Databricks bir Not defteriiçinde çalıştırır. Ancak, var olan bir tüm amaç kümesinde bir işi çalıştırmak, etkileşimli iş yükü olarak da değerlendirilir.

Yürütme bağlamı

Her desteklenen programlama dili için bir REPL ortamının durumu. Desteklenen diller Python, R, Scala ve SQL.

Makine öğrenimi

Bu bölümde, Azure Databricks ' de Machine Learning ile ilgili kavramlar açıklanmaktadır.

Denemeler

Machine Learning modelinin geliştirilmesini izlemek için ana kuruluş birimi. Denemeleri model eğitim kodunun günlüğe kaydedilen bireysel çalıştırmalarıiçin düzenleme, görüntüleme ve denetim erişimi.

Özellik deposu

Merkezi bir özellik deposu. Databricks Özellik deposu kuruluşunuzda Özellik paylaşımını ve bulmayı sağlar ve ayrıca model eğitimi ve çıkarımı için aynı özellik hesaplama kodunun kullanılmasını sağlar.

Modeller

Model kayıt defterinekaydedilmiş eğitilen bir makine öğrenimi veya derin öğrenme modeli .

Kimlik doğrulaması ve yetkilendirme

Bu bölümde, Azure Databricks kullanıcılarını ve Azure Databricks varlıklarına erişimini yönetirken bilmeniz gereken kavramlar açıklanmaktadır.

Kullanıcısını

Sisteme erişimi olan benzersiz bir kişi.

Grup

Bir kullanıcı koleksiyonu.

Erişim denetim listesi (ACL)

Çalışma alanına, kümeye, işe, tabloya veya denemenize eklenen izinlerin listesi. ACL, hangi kullanıcıların veya sistem işlemlerinin nesnelere erişim verildiğini ve varlıklar üzerinde hangi işlemlere izin verileceğini belirtir. Tipik bir ACL içindeki her giriş, bir konuyu ve bir işlemi belirtir.