Databricks veri bilimi & mühendisliği kavramları
Bu makalede, Azure Databricks çalışma alanını etkin bir şekilde kullanmak için anlamanız gereken temel kavramlar sunulmaktadır.
Çalışma alanı
Çalışma alanı tüm Azure Databricks varlıklarınıza erişim için bir ortamdır. Bir çalışma alanı nesneleri (Not defterleri, kitaplıklar, panolar ve denemeleri) Klasörler halinde düzenler ve veri nesnelerine ve hesaplama kaynaklarına erişim sağlar.
Bu bölümde Azure Databricks çalışma alanı klasörlerinde bulunan nesneler açıklanmaktadır.
Çalıştırılabilir komutları, görselleştirmeleri ve anlatım metnini içeren belgelere yönelik Web tabanlı bir arabirim.
Görselleştirmelere düzenli erişim sağlayan bir arabirim.
Kümenizde çalışan Not defteri veya iş için kullanılabilen bir kod paketi. Databricks çalışma zamanları birçok kitaplık içerir ve kendinizinkini ekleyebilirsiniz.
İçeriği bir uzak git deposuna eşitleyerek içerikleri birlikte sürümlü bir klasör.
Machine Learning modeli eğitimi için bir Mlflow koleksiyonu çalışır .
Arabirim
Bu bölümde, varlıklarınıza erişmek için Azure Databricks desteklediği arabirimler açıklanmaktadır: UI, API ve komut satırı (CLı).
Kullanıcı arabirimi
Azure Databricks Kullanıcı arabirimi, çalışma alanı klasörleri ve içerdikleri nesneler, veri nesneleri ve hesaplama kaynakları için kullanımı kolay bir grafik arabirimi sağlar.

REST API üç sürümü vardır: 2,1, 2,0ve 1,2. REST API 'Leri 2,1 ve 2,0 REST API 1,2 ve ek işlevler işlevlerinin çoğunu destekler ve tercih edilir.
GitHubbarındırılan açık kaynak proje. CLı REST API (en son)üzerinde oluşturulur.
Veri yönetimi
Bu bölümde, analiz gerçekleştirdiğiniz verileri tutan ve makine öğrenimi algoritmalarına akış yapan nesneler açıklanmaktadır.
Databricks Dosya Sistemi (DBFS)
Blob deposu üzerinde dosya sistemi soyutlama katmanı. Dosya (veri dosyaları, kitaplıklar ve görüntüler) ve diğer dizinleri içerebilen dizinler içerir. DBFS, Azure Databricks öğrenmek için kullanabileceğiniz bazı veri kümeleri ile otomatik olarak doldurulur.
Kolayca erişilebilen, yönetilen ve güncelleştirilebilecek bir bilgi koleksiyonu.
Yapılandırılmış verilerin temsili. Apache Spark SQL ve Apache Spark apı 'leri ile tabloları sorgulayın.
Veri ambarındaki sütun ve sütun türü bilgileri, veri okumak ve yazmak için gereken serileştiriciler ve seri hale getiriciler ve verilerin depolandığı karşılık gelen dosyalar dahil olmak üzere çeşitli tablo ve bölümlerin tüm yapı bilgilerini depolayan bileşen. Her Azure Databricks dağıtımının, tablo meta verilerini kalıcı hale getirmek için tüm kümeler tarafından erişilebilen bir merkezi Hive meta veri deposu vardır. Ayrıca, var olan bir dış Hive meta veri deposukullanma seçeneğiniz de vardır.
Hesaplama yönetimi
Bu bölümde, Azure Databricks içinde hesaplamalar çalıştırmak için bilmeniz gereken kavramlar açıklanmaktadır.
Not defterlerini ve işleri çalıştırdığınız bir hesaplama kaynakları ve yapılandırma kümesi. İki tür küme vardır: tümü-amaç ve iş.
- UI, CLı veya REST API kullanarak bir Tüm amaç kümesi oluşturursunuz. Genel amaçlı bir kümeyi kendiniz sonlandırıp yeniden başlatabilirsiniz. Birden çok kullanıcı, ortaklaşa etkileşimli analiz yapmak için bu kümeleri paylaşabilir.
- Azure Databricks iş Zamanlayıcısı, Yeni bir iş kümesinde bir iş çalıştırdığınızda ve iş tamamlandığında kümeyi sonlandırdığınızda bir iş kümesi oluşturur. Bir iş kümesini yeniden başlatmazsanız .
Küme başlatma ve otomatik ölçeklendirme sürelerini azaltan, kullanıma yönelik bir dizi boşta, kullanıma yönelik örnekler. Bir havuza eklendiğinde, küme sürücü ve çalışan düğümlerini havuzdan ayırır. Havuzda kümenin isteğine uyum sağlamak için yeterli boş kaynak yoksa havuz, örnek sağlayıcıdan yeni örnekler ayırarak genişletilir. Eklenen bir küme sonlandırıldığında, kullandığı örnekler havuza döndürülür ve farklı bir küme tarafından yeniden kullanılabilir.
Azure Databricks tarafından yönetilen kümeler üzerinde çalışan çekirdek bileşenleri kümesi. Azure Databricks birkaç çalışma zamanı türü sunar:
- Databricks Runtime Apache Spark içerir, ancak büyük veri analizlerinin kullanılabilirliğini, performansını ve güvenliğini önemli ölçüde geliştiren bir dizi bileşen ve güncelleştirme de ekler.
- Machine Learning için Databricks Runtime Databricks Runtime oluşturulmuştur ve Machine Learning ve veri bilimi için hazır bir ortam sağlar. TensorFlow, keras, PyTorch ve XGBoost dahil olmak üzere birden çok popüler kitaplık içerir.
- Genomiks için Databricks Runtime , genomik ve biotıbbi verilerle çalışmaya yönelik Databricks Runtime en iyi duruma getirilmiş bir sürümdür.
- Databricks Light , açık kaynak Apache Spark çalışma zamanının Azure Databricks paketleniyor. Databricks Runtime tarafından sağlanan gelişmiş performans, güvenilirlik veya otomatik ölçeklendirme avantajları gerektirmeyen işler için bir çalışma zamanı seçeneği sağlar. Databricks Light öğesini yalnızca bir JAR, Python veya Spark-gönder işi çalıştırmak için bir küme oluşturduğunuzda seçebilirsiniz; etkileşimli veya Not defteri iş iş yüklerini çalıştırdığınız kümeler için bu çalışma zamanını seçemezsiniz.
Bir not defteri veya kitaplığı hemen ya da zamanlanan bir şekilde çalıştırmak için etkileşimli olmayan bir mekanizma.
İş yükü
Azure Databricks, farklı fiyatlandırma şemalarına tabi olan iki iş yükü türünü tanımlar: veri Mühendisliği (iş) ve veri analizi (hepsi-amaç).
- Veri Mühendisliği Bir (otomatik) iş yükü, Azure Databricks iş zamanlayıcısının her iş yükü için oluşturduğu bir iş kümesi üzerinde çalışır.
- Veri analizi Bir (etkileşimli) iş yükü, bir bütün amaçlı kümedeçalışır. Etkileşimli iş yükleri genellikle komutları Azure Databricks bir Not defteriiçinde çalıştırır. Ancak, var olan bir tüm amaç kümesinde bir işi çalıştırmak, etkileşimli iş yükü olarak da değerlendirilir.
Yürütme bağlamı
Her desteklenen programlama dili için bir REPL ortamının durumu. Desteklenen diller Python, R, Scala ve SQL.
Makine öğrenimi
Bu bölümde, Azure Databricks ' de Machine Learning ile ilgili kavramlar açıklanmaktadır.
Machine Learning modelinin geliştirilmesini izlemek için ana kuruluş birimi. Denemeleri model eğitim kodunun günlüğe kaydedilen bireysel çalıştırmalarıiçin düzenleme, görüntüleme ve denetim erişimi.
Merkezi bir özellik deposu. Databricks Özellik deposu kuruluşunuzda Özellik paylaşımını ve bulmayı sağlar ve ayrıca model eğitimi ve çıkarımı için aynı özellik hesaplama kodunun kullanılmasını sağlar.
Model kayıt defterinekaydedilmiş eğitilen bir makine öğrenimi veya derin öğrenme modeli .
Kimlik doğrulaması ve yetkilendirme
Bu bölümde, Azure Databricks kullanıcılarını ve Azure Databricks varlıklarına erişimini yönetirken bilmeniz gereken kavramlar açıklanmaktadır.
Sisteme erişimi olan benzersiz bir kişi.
Bir kullanıcı koleksiyonu.
Çalışma alanına, kümeye, işe, tabloya veya denemenize eklenen izinlerin listesi. ACL, hangi kullanıcıların veya sistem işlemlerinin nesnelere erişim verildiğini ve varlıklar üzerinde hangi işlemlere izin verileceğini belirtir. Tipik bir ACL içindeki her giriş, bir konuyu ve bir işlemi belirtir.