Share via


İşler ile veri işleme ve analiz iş akışları uygulama

Databricks platformunda veri işleme, makine öğrenmesi veya veri analizi işlem hatlarınızı yönetmek için bir Azure Databricks işi kullanabilirsiniz. Azure Databricks İşleri not defterleri, betikler, Delta Live Tables işlem hatları, Databricks SQL sorguları ve dbt projeleri gibi çeşitli iş yükü türlerini destekler. Aşağıdaki makaleler, veri işlem hatlarınızı uygulamak için Azure Databricks İşleri'nin özelliklerini ve seçeneklerini kullanma konusunda size yol gösterir.

Azure Databricks işiyle verilerinizi dönüştürme, analiz etme ve görselleştirme

verileri alıp dönüştüren, çözümleyen ve görselleştiren bir veri işlem hattı oluşturmak için bir iş kullanabilirsiniz. Databricks SQL'i Azure Databricks işinde kullanma örneği, şu işlem hattını oluşturur:

  1. REST API kullanarak veri getirmek için Python betiği kullanır.
  2. Getirilen verileri alıp dönüştürmek ve dönüştürülen verileri Delta Lake'e kaydetmek için Delta Live Tablolarını kullanır.
  3. Dönüştürülmüş verileri analiz etmek ve sonuçları görselleştirmek için grafikler oluşturmak için Databricks SQL ile İşler tümleştirmesini kullanır.

bir işte dbt dönüşümlerini kullanma

dbt Dbt core projesiyle veri dönüşümü yapıyorsanız ve bu projeyi bir Azure Databricks işiyle tümleştirmek istiyorsanız veya yeni dbt dönüşümleri oluşturmak ve bu dönüştürmeleri bir işte çalıştırmak istiyorsanız görev türünü kullanın. Bkz. Azure Databricks işinde dbt dönüşümlerini kullanma.

bir işte Python paketi kullanma

Python tekerlek dosyaları, Python uygulamasını çalıştırmak için gereken dosyaları paketlemenin ve dağıtmanın standart bir yoludur. Görev türüyle Python wheel Python tekerlek dosyası olarak paketlenmiş Python kodunu kullanan bir işi kolayca oluşturabilirsiniz. Bkz. Azure Databricks işinde Python tekerlek dosyası kullanma.

JAR içinde paketlenmiş kodu kullanma

Java ve Scala gibi bir JVM dilinde uygulanan kitaplıklar ve uygulamalar genellikle java arşiv (JAR) dosyasında paketlenir. Azure Databricks İşleri, görev türüne sahip JAR bir JAR içinde paketlenmiş kodu destekler. Bkz. Azure Databricks işinde JAR kullanma.

Merkezi bir depoda tutulan not defterlerini veya Python kodunu kullanma

Üretim yapıtları için sürüm denetimini ve işbirliğini yönetmenin yaygın yollarından biri GitHub gibi merkezi bir depo kullanmaktır. Azure Databricks İşleri, GitHub veya Databricks Git klasörleri dahil olmak üzere bir depodan içeri aktarılan not defterlerini veya Python kodunu kullanarak iş oluşturmayı ve çalıştırmayı destekler. Bkz. Azure Databricks işinde sürüm denetimli kaynak kodu kullanma.

Apache Airflow ile işlerinizi düzenleme

Databricks, iş akışlarınızı yönetmek için Azure Databricks İşleri'nin kullanılmasını önerir. Ancak Apache Airflow yaygın olarak bir iş akışı düzenleme sistemi olarak kullanılır ve Azure Databricks İşleri için yerel destek sağlar. Azure Databricks İşleri iş akışlarınızı oluşturmak için görsel bir kullanıcı arabirimi sağlarken, Airflow veri işlem hatlarınızı tanımlamak ve dağıtmak için Python dosyalarını kullanır. Airflow ile iş oluşturma ve çalıştırma örneği için bkz . Apache Airflow ile Azure Databricks işlerini düzenleme.

Hizmet sorumlusu kullanarak iş çalıştırma

Microsoft Entra Id (eski adıYla Azure Active Directory) uygulamasını ve hizmet sorumlusunu kullanarak işlerinizi hizmet hesabı olarak çalıştırabilirsiniz. İşi bireysel kullanıcı yerine hizmet hesabı olarak çalıştırmak işe erişimi denetlemenize, işin gerekli izinlere sahip olduğundan emin olmanıza ve bir iş sahibinin çalışma alanından kaldırılması durumunda sorunları önlemenize olanak tanır. Azure Databricks işini çalıştırmak için hizmet sorumlusu oluşturma ve kullanma öğreticisi için bkz . Microsoft Entra ID hizmet sorumlusuyla iş çalıştırma.