Поделиться через


Что такое файлы рабочей области?

Файл рабочей области — это любой файл в рабочей области Azure Databricks, который не является записной книжкой Databricks. Файлы рабочей области могут быть любым типом файлов. Распространенные примеры:

  • .py файлы, используемые в пользовательских модулях.
  • .md файлы, такие как README.md.
  • .csv или другие небольшие файлы данных.
  • Файлы .txt.
  • .whl Библиотеки.
  • Файлы журнала.

Файлы рабочей области включают файлы, ранее называемые "Файлы в Репозитории". Рекомендации по работе с файлами см. в Рекомендации файлов в томах и файлах рабочей области.

Внимание

Файлы рабочей области включены везде по умолчанию в Databricks Runtime версии 11.2, но могут быть отключены администраторами с помощью REST API. Для рабочих нагрузок используйте Databricks Runtime 11.3 LTS или более поздней версии. Обратитесь к администратору рабочей области, если вы не сможете получить доступ к этой функции.

Что можно сделать с файлами рабочей области

Azure Databricks предоставляет функции, аналогичные локальной разработке для многих типов файлов рабочей области, включая встроенный редактор файлов. Не все варианты использования для всех типов файлов поддерживаются. Например, в то время как можно включить изображения в импортированный каталог или репозиторий, нельзя внедрить изображения в записные книжки.

Вы можете создавать, изменять и управлять доступом к файлам рабочей области с помощью знакомых шаблонов взаимодействия с записной книжкой. Для импорта библиотеки из файлов рабочей области можно использовать относительные пути, аналогичные локальной разработке. Дополнительные сведения см. в статье

Скрипты инициализации, хранящиеся в файлах рабочей области, имеют особое поведение. Файлы рабочей области можно использовать для хранения и ссылки на скрипты инициализации в любых версиях среды выполнения Databricks. См . скрипты инициализации Магазина в файлах рабочей области.

Примечание.

В Databricks Runtime 14.0 и выше текущий рабочий каталог по умолчанию (CWD) для кода, выполняемого локально, — это каталог, содержащий записную книжку или скрипт, выполняемый. Это изменение поведения из Databricks Runtime 13.3 LTS и ниже. См. раздел " Что такое текущий рабочий каталог по умолчанию?".

Ограничения

Полный список ограничений файлов рабочей области содержится в ограничениях для файлов рабочей области.

Ограничение размера файла

Отдельные файлы рабочей области ограничены 500 МБ.

Пользователи могут отправлять файлы размером до 500 МБ из пользовательского интерфейса. Максимальный размер файла, разрешенный при записи из кластера, составляет 256 МБ.

Версии среды выполнения Databricks для файлов в папках Git с кластером со службами контейнеров Azure Databricks

В кластерах под управлением Databricks Runtime 11.3 LTS и более поздних версий параметры по умолчанию позволяют использовать файлы рабочей области в папках Git с службами контейнеров Azure Databricks (DCS).

В кластерах под управлением Databricks Runtime версии 10.4 LTS и 9.1 LTS необходимо настроить dockerfile для доступа к файлам рабочей области в папках Git в кластере с помощью DCS. Ознакомьтесь со следующими файлами dockerfile для требуемой версии среды выполнения Databricks:

См. статью "Настройка контейнеров с помощью службы контейнеров Databricks"

Включение файлов рабочей области

Чтобы включить поддержку файлов, отличных от записных книжек в рабочей области Databricks, вызовите REST API /api/2.0/workspace-conf из записной книжки или другой среды с доступом к рабочей области Databricks. Файлы рабочей области включены по умолчанию.

Чтобы включить или повторно включить поддержку файлов, отличных от записных книжек в рабочей области Databricks, вызовите /api/2.0/workspace-conf и получите значение enableWorkspaceFileSystem ключа. Если для нее задано значение true, файлы, не относящиеся к записной книжке, уже включены для рабочей области.

В следующем примере показано, как вызвать этот API из записной книжки, чтобы проверка, если файлы рабочей области отключены и если да, повторно включите их.

Пример: записная книжка для повторного включения файлов рабочей области Databricks

Получить записную книжку