İşler ile veri işleme ve analiz iş akışları uygulama
Databricks platformunda veri işleme, makine öğrenmesi veya veri analizi işlem hatlarınızı yönetmek için bir Azure Databricks işi kullanabilirsiniz. Azure Databricks İşleri not defterleri, betikler, Delta Live Tables işlem hatları, Databricks SQL sorguları ve dbt projeleri gibi çeşitli iş yükü türlerini destekler. Aşağıdaki makaleler, veri işlem hatlarınızı uygulamak için Azure Databricks İşleri'nin özelliklerini ve seçeneklerini kullanma konusunda size yol gösterir.
Azure Databricks işiyle verilerinizi dönüştürme, analiz etme ve görselleştirme
verileri alıp dönüştüren, çözümleyen ve görselleştiren bir veri işlem hattı oluşturmak için bir iş kullanabilirsiniz. Databricks SQL'i Azure Databricks işinde kullanma örneği, şu işlem hattını oluşturur:
- REST API kullanarak veri getirmek için Python betiği kullanır.
- Getirilen verileri alıp dönüştürmek ve dönüştürülen verileri Delta Lake'e kaydetmek için Delta Live Tablolarını kullanır.
- Dönüştürülmüş verileri analiz etmek ve sonuçları görselleştirmek için grafikler oluşturmak için Databricks SQL ile İşler tümleştirmesini kullanır.
bir işte dbt dönüşümlerini kullanma
dbt
Dbt core projesiyle veri dönüşümü yapıyorsanız ve bu projeyi bir Azure Databricks işiyle tümleştirmek istiyorsanız veya yeni dbt dönüşümleri oluşturmak ve bu dönüştürmeleri bir işte çalıştırmak istiyorsanız görev türünü kullanın. Bkz. Azure Databricks işinde dbt dönüşümlerini kullanma.
bir işte Python paketi kullanma
Python tekerlek dosyaları, Python uygulamasını çalıştırmak için gereken dosyaları paketlemenin ve dağıtmanın standart bir yoludur. Görev türüyle Python wheel
Python tekerlek dosyası olarak paketlenmiş Python kodunu kullanan bir işi kolayca oluşturabilirsiniz. Bkz. Azure Databricks işinde Python tekerlek dosyası kullanma.
JAR içinde paketlenmiş kodu kullanma
Java ve Scala gibi bir JVM dilinde uygulanan kitaplıklar ve uygulamalar genellikle java arşiv (JAR) dosyasında paketlenir. Azure Databricks İşleri, görev türüne sahip JAR
bir JAR içinde paketlenmiş kodu destekler. Bkz. Azure Databricks işinde JAR kullanma.
Merkezi bir depoda tutulan not defterlerini veya Python kodunu kullanma
Üretim yapıtları için sürüm denetimini ve işbirliğini yönetmenin yaygın yollarından biri GitHub gibi merkezi bir depo kullanmaktır. Azure Databricks İşleri, GitHub veya Databricks Git klasörleri dahil olmak üzere bir depodan içeri aktarılan not defterlerini veya Python kodunu kullanarak iş oluşturmayı ve çalıştırmayı destekler. Bkz. Azure Databricks işinde sürüm denetimli kaynak kodu kullanma.
Apache Airflow ile işlerinizi düzenleme
Databricks, iş akışlarınızı yönetmek için Azure Databricks İşleri'nin kullanılmasını önerir. Ancak Apache Airflow yaygın olarak bir iş akışı düzenleme sistemi olarak kullanılır ve Azure Databricks İşleri için yerel destek sağlar. Azure Databricks İşleri iş akışlarınızı oluşturmak için görsel bir kullanıcı arabirimi sağlarken, Airflow veri işlem hatlarınızı tanımlamak ve dağıtmak için Python dosyalarını kullanır. Airflow ile iş oluşturma ve çalıştırma örneği için bkz . Apache Airflow ile Azure Databricks işlerini düzenleme.
Hizmet sorumlusu kullanarak iş çalıştırma
Microsoft Entra Id (eski adıYla Azure Active Directory) uygulamasını ve hizmet sorumlusunu kullanarak işlerinizi hizmet hesabı olarak çalıştırabilirsiniz. İşi bireysel kullanıcı yerine hizmet hesabı olarak çalıştırmak işe erişimi denetlemenize, işin gerekli izinlere sahip olduğundan emin olmanıza ve bir iş sahibinin çalışma alanından kaldırılması durumunda sorunları önlemenize olanak tanır. Azure Databricks işini çalıştırmak için hizmet sorumlusu oluşturma ve kullanma öğreticisi için bkz . Microsoft Entra ID hizmet sorumlusuyla iş çalıştırma.
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin