Share via


Azure Databricks işinde Python tekerlek dosyası kullanma

Python tekerlek dosyası , Python uygulamasını çalıştırmak için gereken dosyaları paketlemenin ve dağıtmanın standart bir yoludur. Python tekerlek görevini kullanarak Azure Databricks işlerinizde Python kodunun hızlı ve güvenilir bir şekilde yüklenmesini sağlayabilirsiniz. Bu makalede Python tekerlek dosyası oluşturma örneği ve Python tekerlek dosyasında paketlenmiş uygulamayı çalıştıran bir iş sağlanır. Bu örnekte şunları yapacaksınız:

  • Örnek bir uygulama tanımlayan Python dosyalarını oluşturun.
  • Örnek dosyaları bir Python tekerlek dosyası olarak paketleyin.
  • Python tekerlek dosyasını çalıştırmak için bir iş oluşturun.
  • İşi çalıştırın ve sonuçları görüntüleyin.

Başlamadan önce

Bu örneği tamamlamak için aşağıdakilere ihtiyacınız vardır:

  • Python3

  • Python wheel ve setuptool paketler. Bu paketleri yüklemek için kullanabilirsiniz pip . Örneğin, bu paketleri yüklemek için aşağıdaki komutu çalıştırabilirsiniz:

    pip install wheel setuptools
    

1. Adım: Örnek için yerel dizin oluşturma

Örnek kodu ve oluşturulan yapıtları (örneğin, databricks_wheel_test) tutmak için yerel bir dizin oluşturun.

2. Adım: Örnek Python betiğini oluşturma

Aşağıdaki Python örneği, giriş bağımsız değişkenlerini okuyan ve bu bağımsız değişkenleri yazdıran basit bir betiktir. Bu betiği kopyalayın ve önceki adımda oluşturduğunuz dizinde adlı my_test_code/__main__.py bir yola kaydedin.

"""
The entry point of the Python Wheel
"""

import sys

def main():
  # This method will print the provided arguments
  print('Hello from my func')
  print('Got arguments:')
  print(sys.argv)

if __name__ == '__main__':
  main()

3. Adım: Paket için meta veri dosyası oluşturma

Aşağıdaki dosya, paketi açıklayan meta verileri içerir. Bunu, 1. adımda oluşturduğunuz dizinde adlı my_test_code/__init__.py bir yola kaydedin.

__version__ = "0.0.1"
__author__ = "Databricks"

4. Adım: Python tekerlek dosyasını oluşturma

Python yapıtlarının python tekerlek dosyasına dönüştürülmesi için paket adı ve giriş noktaları gibi paket meta verilerinin belirtilmesi gerekir. Aşağıdaki betik bu meta verileri tanımlar.

Not

entry_points Bu betikte tanımlanan, paketi Azure Databricks iş akışında çalıştırmak için kullanılır. içindeki her değerde entry_points, önceki = değer (bu örnekte), rungiriş noktasının adıdır ve Python tekerlek görevini yapılandırmak için kullanılır.

  1. Bu betiği 1. adımda oluşturduğunuz dizinin kökünde adlı setup.py bir dosyaya kaydedin:

    from setuptools import setup, find_packages
    
    import my_test_code
    
    setup(
      name='my_test_package',
      version=my_test_code.__version__,
      author=my_test_code.__author__,
      url='https://databricks.com',
      author_email='john.doe@databricks.com',
      description='my test wheel',
      packages=find_packages(include=['my_test_code']),
      entry_points={
        'group_1': 'run=my_test_code.__main__:main'
      },
      install_requires=[
        'setuptools'
      ]
    )
    
  2. 1. adımda oluşturduğunuz dizine geçin ve aşağıdaki komutu çalıştırarak kodunuzu Python tekerlek dağıtımına paketleyin:

    python3 setup.py bdist_wheel
    

Bu komut Python tekerlek dosyasını oluşturur ve dizininizdeki dosyaya dist/my_test_package-0.0.1-py3.none-any.whl kaydeder.

Adım 5. Python tekerlek dosyasını çalıştırmak için bir Azure Databricks işi oluşturma

  1. Azure Databricks giriş sayfanıza gidin ve aşağıdakilerden birini yapın:
    • Kenar çubuğunda İş İş Akışları SimgesiAkışları'na ve öğesine tıklayın.İş Oluştur Düğmesi
    • Kenar çubuğunda Yeni'ye tıklayın Yeni Simgeve menüden İş'i seçin.
  2. Görevler sekmesinde görüntülenen görev iletişim kutusunda, İşiniz için ad ekle... yerine iş adınızı (örneğin, Python wheel example) yazın.
  3. Görev adı alanına görev için bir ad girin, örneğin, python_wheel_task.
  4. Tür bölümünde Python Tekerleği'ne tıklayın.
  5. Paket adı alanına girinmy_test_package. Paket adı, betikteki setup.py değişkene name atanan değerdir.
  6. Giriş noktası alanına girinrun. Giriş noktası, betikteki koleksiyonda entry_pointssetup.py belirtilen değerlerden biridir. Bu örnekte, run tanımlanan tek giriş noktasıdır.
  7. Küme'de uyumlu bir küme seçin. Bkz. Küme kapsamlı kitaplıklar.
  8. Bağımlı Kitaplıklar'ın altında Ekle'ye tıklayın. Bağımlı kitaplık ekle iletişim kutusunda, Çalışma Alanı seçili durumdayken, 4. adımda oluşturulan dosyayı iletişim kutusunun Dosyayı buraya bırak alanına sürükleyinmy_test_package-0.0.1-py3-none-any.whl.
  9. Ekle'yi tıklatın.
  10. Parametreler'de Konumsal bağımsız değişkenler veya Anahtar sözcük bağımsız değişkenleri'ni seçerek anahtarı ve her parametrenin değerini girin. Hem konumsal hem de anahtar sözcük bağımsız değişkenleri Python tekerleği görevine komut satırı bağımsız değişkenleri olarak geçirilir.
    • Konumsal bağımsız değişkenleri girmek için, parametreleri JSON biçimli dize dizisi olarak girin; örneğin: ["first argument","first value","second argument","second value"].
    • Anahtar sözcük bağımsız değişkenlerini girmek için + Ekle'ye tıklayın ve bir anahtar ve değer girin. Daha fazla bağımsız değişken girmek için + Ekle'ye yeniden tıklayın.
  11. Görevi kaydet'e tıklayın.

6. Adım: İşi çalıştırma ve iş çalıştırma ayrıntılarını görüntüleme

İş akışını çalıştırmak için tıklayın Şimdi Çalıştır Düğmesi . Çalıştırmanın ayrıntılarını görüntülemek için, Tetiklenen çalıştırma açılır penceresinde Çalıştırmayı görüntüle'ye tıklayın veya iş çalıştırmalarıgörünümünde çalıştırmanın Başlangıç zamanı sütunundaki bağlantıya tıklayın.

Çalıştırma tamamlandığında çıkış, göreve geçirilen bağımsız değişkenler de dahil olmak üzere Çıkış panelinde görüntülenir.

Sonraki adımlar

Azure Databricks işleri oluşturma ve çalıştırma hakkında daha fazla bilgi edinmek için bkz . Azure Databricks İşleri oluşturma ve çalıştırma.