İş akışları için sunucusuz işlemle Azure Databricks işinizi çalıştırma

Makale
05/13/2024

Önemli

İş akışları için sunucusuz işlem Genel Önizleme aşamasındadır. Uygunluk ve etkinleştirme hakkında bilgi için bkz . Sunucusuz işlem genel önizlemesini etkinleştirme.

Önemli

İş akışları için sunucusuz işlemin genel önizlemesi çıkış trafiğini denetlemeyi desteklemediğinden, işleriniz İnternet'e tam erişime sahiptir.

İş akışları için sunucusuz işlem, altyapıyı yapılandırmadan ve dağıtmadan Azure Databricks işinizi çalıştırmanıza olanak tanır. Sunucusuz işlem ile veri işleme ve analiz işlem hatlarınızı uygulamaya odaklanırsınız ve Azure Databricks, iş yükleriniz için işlem iyileştirme ve ölçeklendirme dahil olmak üzere işlem kaynaklarını verimli bir şekilde yönetir. otomatik ölçeklendirme ve Foton , işinizi çalıştıran işlem kaynakları için otomatik olarak etkinleştirilir.

İş akışları için sunucusuz işlem otomatik iyileştirmesi, iş yükünüz temelinde örnek türleri, bellek ve işleme altyapıları gibi uygun kaynakları seçerek işlemi otomatik olarak iyileştirir. Otomatik iyileştirme ayrıca başarısız işleri otomatik olarak yeniden denenir.

Databricks, Geliştirmeleri ve platform yükseltmelerini desteklemek için Databricks Runtime sürümünü otomatik olarak yükseltirken Azure Databricks işlerinizin kararlılığını sağlar. İş akışları için sunucusuz işlem tarafından kullanılan geçerli Databricks Runtime sürümünü görmek için bkz . Sunucusuz işlem sürüm notları.

Küme oluşturma izni gerekli olmadığından, tüm çalışma alanı kullanıcıları iş akışlarını çalıştırmak için sunucusuz işlem kullanabilir.

Bu makalede, sunucusuz işlem kullanan işler oluşturmak ve çalıştırmak için Azure Databricks İşleri kullanıcı arabiriminin kullanımı açıklanmaktadır. Ayrıca İşler API'si, Databricks Varlık Paketleri ve Python için Databricks SDK'sı ile sunucusuz işlem kullanan işleri oluşturmayı ve çalıştırmayı otomatikleştirebilirsiniz.

Sunucusuz işlem kullanan işler oluşturmak ve çalıştırmak için İşler API'sini kullanma hakkında bilgi edinmek için bkz . REST API başvurusunda İşler .
Databricks Varlık Paketlerini kullanarak sunucusuz işlem kullanan işler oluşturma ve çalıştırma hakkında bilgi edinmek için bkz . Databricks Varlık Paketlerini kullanarak Azure Databricks'te iş geliştirme.
Sunucusuz işlem kullanan işler oluşturmak ve çalıştırmak üzere Python için Databricks SDK'sını kullanma hakkında bilgi edinmek için bkz . Python için Databricks SDK'sı.

Gereksinimler

Azure Databricks çalışma alanınızda Unity Kataloğu etkinleştirilmiş olmalıdır.
İş akışları için sunucusuz işlem paylaşılan erişim modunu kullandığından, iş yüklerinizin bu erişim modunu desteklemesi gerekir.
Azure Databricks çalışma alanınız desteklenen bir bölgede olmalıdır. Bkz. Azure Databricks bölgeleri.

Sunucusuz işlem kullanarak iş oluşturma

Sunucusuz işlem not defteri, Python betiği, dbt ve Python tekerleği görev türleriyle desteklenir. Varsayılan olarak, yeni bir iş oluşturduğunuzda ve bu desteklenen görev türlerinden birini eklediğinizde işlem türü olarak sunucusuz işlem seçilir.

Sunucusuz görev oluşturma

Databricks, tüm iş görevleri için sunucusuz işlem kullanılmasını önerir. Bir işteki görevler için farklı işlem türleri de belirtebilirsiniz. Bu, iş akışları için sunucusuz işlem tarafından bir görev türü desteklenmiyorsa gerekli olabilir.

Var olan bir işi sunucusuz işlem kullanacak şekilde yapılandırma

mevcut bir işi, işi düzenlerken desteklenen görev türleri için sunucusuz işlem kullanacak şekilde değiştirebilirsiniz. Sunucusuz işlem moduna geçmek için:

İş ayrıntıları yan panelinde İşlem'in altında Değiştir'e tıklayın, Yeni'ye tıklayın, herhangi bir ayar girin veya güncelleştirin ve Güncelleştir'e tıklayın.
İşlem açılan menüsüne tıklayınve Sunucusuz'a tıklayın.

Görevi sunucusuz işlem olarak değiştirme

Sunucusuz işlem kullanarak not defteri zamanlama

Sunucusuz işlem kullanarak iş oluşturmak ve zamanlamak için İşler kullanıcı arabirimini kullanmanın yanı sıra, doğrudan databricks not defterinden sunucusuz işlem kullanan bir iş oluşturabilir ve çalıştırabilirsiniz. Bkz. Zamanlanmış not defteri işlerini oluşturma ve yönetme.

Spark yapılandırma parametrelerini ayarlama

Sunucusuz işlemde Spark yapılandırmasını otomatikleştirmek için Databricks yalnızca belirli Spark yapılandırma parametrelerinin ayarlanmasına izin verir. İzin verilebilen parametrelerin listesi için bkz . Desteklenen Spark yapılandırma parametreleri.

Spark yapılandırma parametrelerini yalnızca oturum düzeyinde ayarlayabilirsiniz. Bunu yapmak için, bunları bir not defterinde ayarlayın ve not defterini parametreleri kullanan aynı işe dahil edilen göreve ekleyin. Bkz. Not defterinde Apache Spark yapılandırma özelliklerini alma ve ayarlama.

Not defteri ortamlarını ve bağımlılıklarını yapılandırma

Not defteri görevinin kitaplık bağımlılıklarını ve ortam yapılandırmasını yönetmek için, yapılandırmasını not defterindeki bir hücreye ekleyin. Aşağıdaki örnek, çalışma alanı dosyalarından ve bir requirements.txt dosyayla kullanarak pip install Python kitaplıklarını yükler ve bir spark.sql.session.timeZone oturum değişkeni ayarlar:

%pip install -r ./requirements.txt
%pip install simplejson
%pip install /Volumes/my/python.whl
%pip install /Workspace/my/python.whl
%pip install https://some-distro.net/popular.whl
spark.conf.set('spark.sql.session.timeZone', 'Europe/Amsterdam')

Birden çok not defteri arasında aynı ortamı ayarlamak için, ortamı yapılandırmak için tek bir not defteri kullanabilir ve ardından magic komutunu kullanarak %run bu not defterini ortam yapılandırması gerektiren herhangi bir not defterinden çalıştırabilirsiniz. Bkz. Not defterini içeri aktarmak için %run kullanma.

Not defteri olmayan görevler için ortamları ve bağımlılıkları yapılandırma

Python betiği, Python tekerleği veya dbt görevleri gibi desteklenen diğer görev türleri için varsayılan ortam yüklü Python kitaplıklarını içerir. Yüklü kitaplıkların listesini görmek için, iş akışları dağıtımı için sunucusuz işleminizin temel aldığı Databricks Runtime sürümünün sürüm notlarındaki Yüklü Python kitaplıkları bölümüne bakın. İş akışları için sunucusuz işlem tarafından kullanılan geçerli Databricks Runtime sürümünü görmek için bkz . Sunucusuz işlem sürüm notları. Bir görev yüklü olmayan bir kitaplık gerektiriyorsa Python kitaplıklarını da yükleyebilirsiniz. Çalışma alanı dosyalarından, Unity Kataloğu birimlerinden veya genel paket depolarından Python kitaplıklarını yükleyebilirsiniz. Görev oluştururken veya düzenlerken kitaplık eklemek için:

Ortam ve Kitaplıklar açılan menüsünde Varsayılan ortam'ın yanındaki öğesine veya + Yeni ortam ekle'ye tıklayın.
Ortamı yapılandır iletişim kutusunda + Kitaplık ekle'ye tıklayın.
Kitaplıklar altındaki açılan menüden bağımlılık türünü seçin.
Dosya Yolu metin kutusuna kitaplığın yolunu girin.

Çalışma alanı dosyasındaki python tekerleği için yol mutlak olmalı ve ile /Workspace/başlamalıdır.
Unity Kataloğu birimindeki python tekerleği için yol olmalıdır /Volumes/<catalog>/<schema>/<volume>/<path>.whl.
Dosya için requirements.txt PyPi'yi seçin ve girin -r /path/to/requirements.txt.

Başka bir kitaplık eklemek için Onayla veya + Kitaplık ekle'ye tıklayın.
Görev ekliyorsanız Görev oluştur'a tıklayın. Bir görevi düzenliyorsanız Görevi kaydet'e tıklayın.

Yeniden denemelere izin vermek için sunucusuz işlem otomatik iyileştirmesini yapılandırma

İş akışları için sunucusuz işlem otomatik iyileştirme, işlerinizi çalıştırmak için kullanılan işlemi otomatik olarak iyileştirir ve başarısız işleri yeniden denenir. Otomatik iyileştirme varsayılan olarak etkindir ve Databricks kritik iş yüklerinin en az bir kez başarıyla çalıştığından emin olmak için bu özelliğin etkin kalmasını önerir. Ancak, en çok bir kez yürütülmesi gereken iş yükleriniz varsa (örneğin, bir kez etkili olmayan işler), görev eklerken veya düzenlerken otomatik iyileştirmeyi kapatabilirsiniz:

Yeniden denemeler'in yanındaki Ekle'ye tıklayın (veya yeniden deneme ilkesi zaten varsa).
İlkeyi Yeniden Dene iletişim kutusunda Sunucusuz otomatik iyileştirmeyi etkinleştir (ek yeniden denemeler içerebilir) seçeneğinin işaretini kaldırın.
Onayla'yı tıklatın.
Görev ekliyorsanız Görev oluştur'a tıklayın. Bir görevi düzenliyorsanız Görevi kaydet'e tıklayın.

İş akışları için sunucusuz işlem kullanan işlerin maliyetini izleme

Faturalanabilir kullanım sistemi tablosunu sorgulayarak iş akışları için sunucusuz işlem kullanan işlerin maliyetini izleyebilirsiniz. Bu tablo, sunucusuz maliyetlerle ilgili kullanıcı ve iş yükü özniteliklerini içerecek şekilde güncelleştirilir. Bkz. Faturalanabilir kullanım sistemi tablo başvurusu.

Spark sorgularınızın ayrıntılarını görüntüleme

İş akışları için sunucusuz işlem, Spark deyimleriniz için ölçümler ve sorgu planları gibi ayrıntılı çalışma zamanı bilgilerini görüntülemek için yeni bir arabirime sahiptir. İşlerinize dahil edilen Spark deyimlerine yönelik sorgu içgörülerini görüntülemek için sunucusuz işlemde çalıştırın:

Kenar çubuğunda İş Akışları'na tıklayın.
Ad sütununda içgörüleri görüntülemek istediğiniz iş adına tıklayın.
İçgörüleri görüntülemek istediğiniz belirli bir çalıştırmaya tıklayın.
Görev çalıştırması yan panelinin İşlem bölümünde Sorgu geçmişi'ne tıklayın.
Sorgu Geçmişi'ne yönlendirilirsiniz ve içinde olduğunuz görevin görev çalıştırma kimliğine göre önceden filtrelenirsiniz.

Sorgu geçmişini kullanma hakkında bilgi için bkz . Sorgu geçmişi.

Sınırlamalar

İş akışı sınırlamaları için sunucusuz işlem listesi için bkz . Sunucusuz işlem sürüm notlarındaki Sunucusuz işlem sınırlamaları .

Share via