Azure Databricks işinde Python tekerlek dosyası kullanma
Python tekerlek dosyası , Python uygulamasını çalıştırmak için gereken dosyaları paketlemenin ve dağıtmanın standart bir yoludur. Python tekerlek görevini kullanarak Azure Databricks işlerinizde Python kodunun hızlı ve güvenilir bir şekilde yüklenmesini sağlayabilirsiniz. Bu makalede Python tekerlek dosyası oluşturma örneği ve Python tekerlek dosyasında paketlenmiş uygulamayı çalıştıran bir iş sağlanır. Bu örnekte şunları yapacaksınız:
- Örnek bir uygulama tanımlayan Python dosyalarını oluşturun.
- Örnek dosyaları bir Python tekerlek dosyası olarak paketleyin.
- Python tekerlek dosyasını çalıştırmak için bir iş oluşturun.
- İşi çalıştırın ve sonuçları görüntüleyin.
Başlamadan önce
Bu örneği tamamlamak için aşağıdakilere ihtiyacınız vardır:
Python3
Python
wheel
vesetuptool
paketler. Bu paketleri yüklemek için kullanabilirsinizpip
. Örneğin, bu paketleri yüklemek için aşağıdaki komutu çalıştırabilirsiniz:pip install wheel setuptools
1. Adım: Örnek için yerel dizin oluşturma
Örnek kodu ve oluşturulan yapıtları (örneğin, databricks_wheel_test
) tutmak için yerel bir dizin oluşturun.
2. Adım: Örnek Python betiğini oluşturma
Aşağıdaki Python örneği, giriş bağımsız değişkenlerini okuyan ve bu bağımsız değişkenleri yazdıran basit bir betiktir. Bu betiği kopyalayın ve önceki adımda oluşturduğunuz dizinde adlı my_test_code/__main__.py
bir yola kaydedin.
"""
The entry point of the Python Wheel
"""
import sys
def main():
# This method will print the provided arguments
print('Hello from my func')
print('Got arguments:')
print(sys.argv)
if __name__ == '__main__':
main()
3. Adım: Paket için meta veri dosyası oluşturma
Aşağıdaki dosya, paketi açıklayan meta verileri içerir. Bunu, 1. adımda oluşturduğunuz dizinde adlı my_test_code/__init__.py
bir yola kaydedin.
__version__ = "0.0.1"
__author__ = "Databricks"
4. Adım: Python tekerlek dosyasını oluşturma
Python yapıtlarının python tekerlek dosyasına dönüştürülmesi için paket adı ve giriş noktaları gibi paket meta verilerinin belirtilmesi gerekir. Aşağıdaki betik bu meta verileri tanımlar.
Not
entry_points
Bu betikte tanımlanan, paketi Azure Databricks iş akışında çalıştırmak için kullanılır. içindeki her değerde entry_points
, önceki =
değer (bu örnekte), run
giriş noktasının adıdır ve Python tekerlek görevini yapılandırmak için kullanılır.
Bu betiği 1. adımda oluşturduğunuz dizinin kökünde adlı
setup.py
bir dosyaya kaydedin:from setuptools import setup, find_packages import my_test_code setup( name='my_test_package', version=my_test_code.__version__, author=my_test_code.__author__, url='https://databricks.com', author_email='john.doe@databricks.com', description='my test wheel', packages=find_packages(include=['my_test_code']), entry_points={ 'group_1': 'run=my_test_code.__main__:main' }, install_requires=[ 'setuptools' ] )
1. adımda oluşturduğunuz dizine geçin ve aşağıdaki komutu çalıştırarak kodunuzu Python tekerlek dağıtımına paketleyin:
python3 setup.py bdist_wheel
Bu komut Python tekerlek dosyasını oluşturur ve dizininizdeki dosyaya dist/my_test_package-0.0.1-py3.none-any.whl
kaydeder.
Adım 5. Python tekerlek dosyasını çalıştırmak için bir Azure Databricks işi oluşturma
- Azure Databricks giriş sayfanıza gidin ve aşağıdakilerden birini yapın:
- Kenar çubuğunda İş Akışları'na ve öğesine tıklayın.
- Kenar çubuğunda Yeni'ye tıklayın ve menüden İş'i seçin.
- Görevler sekmesinde görüntülenen görev iletişim kutusunda, İşiniz için ad ekle... yerine iş adınızı (örneğin,
Python wheel example
) yazın. - Görev adı alanına görev için bir ad girin, örneğin,
python_wheel_task
. - Tür bölümünde Python Tekerleği'ne tıklayın.
- Paket adı alanına girin
my_test_package
. Paket adı, betiktekisetup.py
değişkenename
atanan değerdir. - Giriş noktası alanına girin
run
. Giriş noktası, betikteki koleksiyondaentry_points
setup.py
belirtilen değerlerden biridir. Bu örnekte,run
tanımlanan tek giriş noktasıdır. - Küme'de uyumlu bir küme seçin. Bkz. Küme kapsamlı kitaplıklar.
- Bağımlı Kitaplıklar'ın altında Ekle'ye tıklayın. Bağımlı kitaplık ekle iletişim kutusunda, Çalışma Alanı seçili durumdayken, 4. adımda oluşturulan dosyayı iletişim kutusunun Dosyayı buraya bırak alanına sürükleyin
my_test_package-0.0.1-py3-none-any.whl
. - Ekle'yi tıklatın.
- Parametreler'de Konumsal bağımsız değişkenler veya Anahtar sözcük bağımsız değişkenleri'ni seçerek anahtarı ve her parametrenin değerini girin. Hem konumsal hem de anahtar sözcük bağımsız değişkenleri Python tekerleği görevine komut satırı bağımsız değişkenleri olarak geçirilir.
- Konumsal bağımsız değişkenleri girmek için, parametreleri JSON biçimli dize dizisi olarak girin; örneğin:
["first argument","first value","second argument","second value"]
. - Anahtar sözcük bağımsız değişkenlerini girmek için + Ekle'ye tıklayın ve bir anahtar ve değer girin. Daha fazla bağımsız değişken girmek için + Ekle'ye yeniden tıklayın.
- Konumsal bağımsız değişkenleri girmek için, parametreleri JSON biçimli dize dizisi olarak girin; örneğin:
- Görevi kaydet'e tıklayın.
6. Adım: İşi çalıştırma ve iş çalıştırma ayrıntılarını görüntüleme
İş akışını çalıştırmak için tıklayın . Çalıştırmanın ayrıntılarını görüntülemek için, Tetiklenen çalıştırma açılır penceresinde Çalıştırmayı görüntüle'ye tıklayın veya iş çalıştırmalarıgörünümünde çalıştırmanın Başlangıç zamanı sütunundaki bağlantıya tıklayın.
Çalıştırma tamamlandığında çıkış, göreve geçirilen bağımsız değişkenler de dahil olmak üzere Çıkış panelinde görüntülenir.
Sonraki adımlar
Azure Databricks işleri oluşturma ve çalıştırma hakkında daha fazla bilgi edinmek için bkz . Azure Databricks İşleri oluşturma ve çalıştırma.
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin