Azure Databricks işinde sürüm denetimli kaynak kodu kullanma
İşleri, uzak git deposunda veya Databricks Git klasöründe bulunan not defterlerini veya Python kodunu kullanarak çalıştırabilirsiniz. Bu özellik, üretim işlerinin oluşturulmasını ve yönetilmesini basitleştirir ve sürekli dağıtımı otomatikleştirir:
- Azure Databricks'te ayrı bir üretim deposu oluşturmanız, izinlerini yönetmeniz ve güncel tutmanız gerekmez.
- Üretim deposundaki yerel düzenlemeler veya dal değiştirme değişiklikleri gibi, üretim işinde yanlışlıkla yapılan değişiklikleri engelleyebilirsiniz.
- İş tanımı işlemi, uzak depoda tek bir doğru kaynağına sahiptir ve her iş çalıştırması bir işleme karması ile bağlantılıdır.
Uzak git deposunda kaynak kodu kullanmak için Databricks Git klasörlerini (Depolar) ayarlamanız gerekir.
Önemli
Azure Databricks işleri tarafından oluşturulan ve uzak Git depolarından çalıştırılan not defterleri kısa ömürlü olur. MLflow çalıştırmalarını, denemelerini ve modellerini izlemek için bunlara güvenemezsiniz. Bu durumda, bunun yerine tek başına MLflow denemelerini kullanın.
Not
İşiniz kimlik olarak bir hizmet sorumlusu kullanarak çalışıyorsa, işin kaynak kodunu içeren Git klasöründe hizmet sorumlusunu yapılandırabilirsiniz. Bkz. Databricks Git klasörleriyle hizmet sorumlusu kullanma.
Uzak Git deposundan not defteri kullanma
Uzak git deposunda bulunan bir not defteriyle görev oluşturmak için:
Kenar çubuğunda İş Akışları'na tıklayın, var olan bir işe tıklayın veya gidin ve yeni bir görev ekleyin.
Bu yeni bir işse, İşiniz için ad ekle... yerine iş adınızı yazın.
Görev adı alanına görev için bir ad girin.
Tür açılan menüsünde Not Defteri'ni seçin.
Kaynak açılan menüsünde Git sağlayıcısı'nı seçin ve Düzenle veya Git başvurusu ekle'ye tıklayın. Git bilgileri iletişim kutusu görüntülenir.
Git Bilgileri iletişim kutusunda depo URL'si, Git Sağlayıcısı ve Git başvurusu gibi depo ayrıntılarını girin. Bu Git başvurusu bir dal, etiket veya işleme olabilir.
Yol için, not defteri konumuna göreli bir yol girin, örneğin
etl/notebooks/
.Göreli yolu girdiğinizde, veya ile
/
./
başlamayın ve gibi.py
not defteri dosya uzantısını eklemeyin. Örneğin, erişmek istediğiniz not defterinin mutlak yolu ise/notebooks/covid_eda_raw.py
, Yol alanına girinnotebooks/covid_eda_raw
.Oluştur’a tıklayın.
Önemli
Doğrudan kaynak Git deposundan bir Python not defteriyle çalışıyorsanız, not defteri kaynak dosyasının ilk satırı olmalıdır # Databricks notebook source
. Scala not defteri için kaynak dosyanın ilk satırı olmalıdır // Databricks notebook source
.
Uzak Git deposundan Python kodu kullanma
Uzak git deposunda bulunan Python koduyla görev oluşturmak için:
Kenar çubuğunda İş Akışları'na tıklayın, var olan bir işe tıklayın veya gidin ve yeni bir görev ekleyin.
Bu yeni bir işse, İşiniz için ad ekle... yerine iş adınızı yazın.
Görev adı alanına görev için bir ad girin.
Tür açılan menüsünde Python betiği'ni seçin.
Kaynak açılan menüsünde Git sağlayıcısı'nı seçin ve Düzenle veya Git başvurusu ekle'ye tıklayın. Git bilgileri iletişim kutusu görüntülenir.
Git Bilgileri iletişim kutusunda depo URL'si, Git Sağlayıcısı ve Git başvurusu gibi depo ayrıntılarını girin. Bu Git başvurusu bir dal, etiket veya işleme olabilir.
Yol için, kaynak konumun göreli yolunu girin, örneğin
etl/python/python_etl.py
.Göreli yolu girdiğinizde, veya
./
ile/
başlamayın. Örneğin, erişmek istediğiniz Python kodunun mutlak yolu ise/python/covid_eda_raw.py
, Yol alanına girinpython/covid_eda_raw.py
.Oluştur’a tıklayın.
Uzak git deposunda depolanan Python kodunu çalıştıran bir görevin çalıştırma geçmişini görüntülediğinizde, Görev çalıştırması ayrıntıları paneli, çalıştırmayla ilişkili işleme SHA'sı da dahil olmak üzere Git ayrıntılarını içerir.
Uzak Git deposundan SQL sorguları kullanma
Not
Bir dosyada yalnızca bir SQL deyimi desteklenir. Noktalı virgülle ayrılmış birden çok SQL deyimine (;) izin verilmez.
Uzak git deposunda bulunan dosyalarda .sql
depolanan sorguları çalıştırmak için:
Kenar çubuğunda İş Akışları'na tıklayın, var olan bir işe tıklayın veya gidin ve yeni bir görev ekleyin.
Bu yeni bir işse, İşiniz için ad ekle... yerine iş adınızı yazın.
Görev adı alanına görev için bir ad girin.
Tür açılan menüsünde SQL'i seçin.
SQL görevi açılan menüsünde Dosya'yı seçin.
Kaynak açılan menüsünde Git sağlayıcısı'nı seçin ve Düzenle veya Git başvurusu ekle'ye tıklayın. Git bilgileri iletişim kutusu görüntülenir.
Git Bilgileri iletişim kutusunda depo URL'si, Git Sağlayıcısı ve Git başvurusu gibi depo ayrıntılarını girin. Bu Git başvurusu bir dal, etiket veya işleme olabilir.
Yol için, kaynak konumun göreli yolunu girin, örneğin
queries/sql/myquery.sql
.Göreli yolu girdiğinizde, veya
./
ile/
başlamayın. Örneğin, erişmek istediğiniz SQL sorgusunun mutlak yolu ise/sql/myqeury.sql
, Yol alanına girinsql/myquery.sql
.Bir SQL ambarı seçin. Sunucusuz bir SQL ambarı veya profesyonel bir SQL ambarı seçmelisiniz.
Oluştur’a tıklayın.
Uzak Git deposundan ek görevler ekleme
Çok görevli bir işteki ek görevler, aşağıdaki yollardan biriyle uzak depoda aynı işlemeye başvurabilir:
sha
$branch/head
ayarlandığı zamangit_branch
sha
$tag
ayarlandığı zamangit_tag
- değerinin
git_commit
Bir Azure Databricks işinde not defteri ve Python görevlerini karıştırabilirsiniz, ancak aynı Git başvurusunu kullanmaları gerekir.
Databricks Git klasörü kullanma
Kaynak kodunuzu sürüm denetimi için Azure Databricks kullanıcı arabirimini kullanmayı tercih ediyorsanız, deponuzu bir Databricks Git klasörüne kopyalayın. Daha fazla bilgi için bkz . Seçenek 2: Üretim Git klasörü ayarlama ve Git otomasyonu.
bir iş görevindeki Git klasöründen not defteri veya Python kodu eklemek için, Kaynak açılan menüsünde Çalışma Alanı'nıseçin ve Yol'da not defterinin veya Python kodunun yolunu girin.
IDE'den not defterlerine erişme
Tümleşik bir geliştirme ortamından not defterlerine erişmeniz gerekiyorsa, not defteri kaynak kodu dosyasının en üstünde açıklamasının # Databricks notebook source
bulunduğundan emin olun. Databricks, normal bir Python dosyası ile kaynak kod biçiminde dışarı aktarılan Azure Databricks Python dil not defteri arasında ayrım yapmak için, not defteri kaynak kodu dosyasının en üstüne satırı # Databricks notebook source
ekler. Not defterini içeri aktardığınızda Azure Databricks bunu tanır ve Python modülü olarak değil not defteri olarak içeri aktarır.
Sorun giderme
Not
Git tabanlı işler çalışma alanı dosyalarına yazma erişimini desteklemez. Geçici bir depolama konumuna veri yazmak için sürücü depolamayı kullanın. Git işinden kalıcı veriler yazmak için UC birimi veya DBFS kullanın.
Hata iletisi:
Run result unavailable: job failed with error message Notebook not found: path-to-your-notebook
Olası nedenler:
Not defterinizde not defteri kaynak kodu dosyasının üst kısmındaki açıklama # Databricks notebook source
eksik veya küçük harfle başlaması gerektiğinde açıklama notebook
büyük harfle n
yazılıyor.
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin