Управление записными книжками

Вы можете управлять записными книжками с помощью пользовательского интерфейса, CLI и API рабочей области. Эта статья посвящена выполнению задач с помощью пользовательского интерфейса для записных книжек. Другие методы см. в разделе интерфейсы командной строки и API рабочей области модулями .

Создание записной книжки

Использование кнопки "создать"

Самый простой способ создать новую записную книжку в папке по умолчанию — использовать кнопку создать :

  1. Щелкните  создать значок создать в боковой панели и выберите Записная книжка в меню. Откроется диалоговое окно Создание записной книжки.
  2. Введите имя и выберите язык по умолчанию для записной книжки.
  3. Если кластеры работают, раскрывающийся список кластеров отображается. Выберите кластер, к которому нужно подключить записную книжку.
  4. Нажмите кнопку Создать.

Создание записной книжки в любой папке

Вы можете создать новую записную книжку в любой папке (например, в общей папке), выполнив следующие действия.

  1. На боковой панели щелкните  значок рабочей области Рабочая область. Выполните одно из следующих действий.
    • Рядом с любой папкой щелкните  раскрывающийся список меню в правой части текста и выберите создать > записную книжку.

      Создание записной книжки

    • В рабочей области или папке пользователя щелкните значок  курсора вниз и выберите создать > записную книжку.

  2. Выполните шаги 2 – 4 в разделе Использование кнопки Создать.

Открытие записной книжки

В рабочей области щелкните Значок записной книжки. Путь к записной книжке отображается при наведении указателя мыши на заголовок записной книжки.

Удаление записной книжки

Сведения о доступе к меню рабочей области и удалении записных книжек или других элементов в рабочей области см. в разделе операции с объектами Folders и Workspace.

Копирование пути к записной книжке

Чтобы скопировать путь к файлу записной книжки без открытия записной книжки, щелкните правой кнопкой мыши имя записной книжки или щелкните  раскрывающееся меню справа от имени записной книжки и выберите Копировать путь к файлу.

Копирование пути к записной книжке

<a name="rename-a-notebook">Переименование записной книжки

Чтобы изменить заголовок открытой записной книжки, щелкните заголовок и измените встроенный или щелкните файл > переименовать.

Управление доступом к записной книжке

Если учетная запись Azure Databricks имеет план Azure Databricks (цен. Категория "Премиум"), можно использовать Контроль доступа к рабочей области , чтобы управлять доступом к записной книжке.

Внешние форматы записных книжек

Azure Databricks поддерживает несколько внешних форматов записных книжек:

  • Исходный файл: файл, содержащий только инструкции исходного кода с расширением .scala ,, .py .sql или .r .
  • HTML: Записная книжка Azure Databricks с расширением .html .
  • Архив DBC: Архив кирпичей.
  • Записная книжка IPython Notebook: Записная книжка Jupyter с расширением .ipynb .
  • RMarkdown: документ R Markdown с расширением .Rmd .

В этом разделе рассматриваются следующие вопросы.

Импорт записной книжки

Вы можете импортировать внешнюю записную книжку из URL-адреса или файла.

  1. Щелкните  значок рабочей области Рабочая область на боковой панели. Выполните одно из следующих действий.

    • Рядом с любой папкой щелкните  раскрывающийся список меню в правой части текста и выберите Импорт.

    • В рабочей области или папке пользователя щелкните значок  курсора вниз и выберите Импорт.

      Импорт записной книжки

  2. Укажите URL-адрес или выберите файл, содержащий поддерживаемый внешний формат.

  3. Щелкните Импорт.

Экспорт записной книжки

На панели инструментов записной книжки выберите файл > экспорт и Формат.

Примечание

При экспорте записной книжки в формате HTML, записной книжки IPython Notebook или архивной копии (DBC) результаты запуска записной книжки будут включены .

Записные книжки и кластеры

Прежде чем выполнять любую работу в записной книжке, необходимо сначала подключить записную книжку к кластеру. В этом разделе описывается, как подключать и отключать записные книжки в кластерах и из них, а также что происходит в фоновом режиме при выполнении этих действий.

В этом разделе рассматриваются следующие вопросы.

Контексты выполнения

При присоединении записной книжки к кластеру Azure Databricks создает контекст выполнения. Контекст выполнения содержит состояние среды REPL для каждого поддерживаемого языка программирования: Python, R, Scala и SQL. При запуске ячейки в записной книжке команда отправляется в соответствующую среду языка REPL и запускается.

Вы также можете использовать API-интерфейс restful 1,2 для создания контекста выполнения и отправки команды для выполнения в контексте выполнения. Аналогичным образом команда отправляется в среду Language REPL и запускается.

Кластер имеет максимальное количество контекстов выполнения (145). Когда количество контекстов выполнения достигает этого порога, вы не сможете подключить записную книжку к кластеру или создать новый контекст выполнения.

Контексты выполнения простоя

Контекст выполнения считается бездействующим , когда последнее завершенное выполнение было выполнено за пределами установленного порога простоя. Последнее завершенное выполнение — это последний раз, когда Записная книжка завершила выполнение команд. Пороговое значение простоя — это время, которое должно пройти между последним завершенным выполнением и любой попыткой автоматически отсоединить записную книжку. По умолчанию пороговое значение простоя составляет 24 часа.

Если кластер достиг максимального предела контекста, Azure Databricks удаляет (выисключает) контексты выполнения простоя (начиная с наименее недавно использовавшихся) по мере необходимости. Даже при удалении контекста Записная книжка, использующая этот контекст, по-прежнему прикрепляется к кластеру и отображается в списке записных книжек кластера. Потоковые записные книжки считаются активно работающими, и их контекст никогда не удаляется до тех пор, пока их выполнение не будет остановлено. Если контекст простоя удален, в пользовательском интерфейсе отображается сообщение о том, что Записная книжка, использующая контекст, отсоединена из-за бездействия.

Контекст записной книжки удален

При попытке подключить записную книжку к кластеру с максимальным количеством контекстов выполнения и отсутствием контекстов простоя (или при отключенном автоматическом вытеснении) в пользовательском интерфейсе отображается сообщение о том, что достигнуто пороговое значение текущего максимального количества контекстов выполнения, и Записная книжка останется в отсоединенном состоянии.

Записная книжка отключена

При разветвлении процесса контекст выполнения простоя по-прежнему считается бездействующим после выполнения запроса, который вызывает ответвление процесса. Ветвление отдельных процессов в Spark не рекомендуется .

Настройка автоматического исключения контекста

Можно настроить автоматическое вытеснение контекста, задав свойство Spark spark.databricks.chauffeur.enableIdleContextTracking .

  • В модулях 5,0 и более поздних версиях автоматическое вытеснение включено по умолчанию. Отключить автоматическое исключение для кластера можно с помощью параметра spark.databricks.chauffeur.enableIdleContextTracking false .
  • В модулях 4,3 функция автоматического вытеснения отключена по умолчанию. Включить автоматическое вытеснение для кластера можно с помощью параметра spark.databricks.chauffeur.enableIdleContextTracking true .

Подключение записной книжки к кластеру

Чтобы подключить записную книжку к кластеру, необходимо подключиться к разрешению на уровне кластера.

Важно!

Если Записная книжка подключена к кластеру, любой пользователь с разрешением на запуск в записной книжке имеет неявное разрешение на доступ к кластеру.

Чтобы подключить записную книжку к кластеру, сделайте следующее:

  1. На панели инструментов записной книжки щелкните  значок кластера записных книжек  раскрывающийся список отключенный кластер .
  2. В раскрывающемся списке выберите кластер.

Важно!

В присоединенной записной книжке определены следующие переменные Apache Spark.

Class Имя переменной
SparkContext sc
SQLContext/HiveContext sqlContext
SparkSession (Spark 2. x) spark

Не создавайте SparkSession , SparkContext или SQLContext . Это приводит к несовместимости поведения.

<a name="determine-spark-and-databricks-runtime-version">Определение версии Spark и Databricks Runtime

Чтобы определить версию Spark кластера, к которой подключена Записная книжка, выполните:

spark.version

Чтобы определить Databricks Runtime версию кластера, к которой подключена Записная книжка, выполните:

Scala
dbutils.notebook.getContext.tags(&quot;sparkVersion")
Python
spark.conf.get("spark.databricks.clusterUsageTags.sparkVersion")

Примечание

Как этот sparkVersion тег, так и spark_version свойство, необходимые конечным точкам в API-интерфейсе кластеров и заданиях , относятся к версии Databricks Runtime, а не к версии Spark.

Отключение записной книжки из кластера

  1. На панели инструментов записной книжки щелкните  значок кластера записной книжки подключен <  раскрывающийся список кластер>кластера .

  2. Выберите Отключить.

    Отсоединить записную книжку

Вы также можете отсоединить записные книжки из кластера, используя вкладку записные книжки на странице сведений о кластере.

При отсоединении записной книжки из кластера контекст выполнения удаляется, и все значения вычисленных переменных очищаются из записной книжки.

Совет

Azure Databricks рекомендует отсоединить неиспользуемые записные книжки из кластера. Это освобождает пространство памяти драйвера.

Просмотр всех записных книжек, подключенных к кластеру

На вкладке записные книжки на странице сведения о кластере отображаются все записные книжки, подключенные к кластеру. На вкладке также отображается состояние каждой присоединенной записной книжки, а также время последнего запуска команды из записной книжки.

Подключенные записные книжки сведений о кластере

Планирование записной книжки

Чтобы запланировать периодическое выполнение задания записной книжки:

  1. На панели инструментов записной книжки нажмите кнопку Значок расписания (справа вверху).
  2. Щелкните + Создать.
  3. Выберите расписание.
  4. Нажмите кнопку OK.

Распространение записных книжек

Чтобы вы могли легко распространять Azure Databricks записные книжки, Azure Databricks поддерживает Архив кирпичей данных — пакет, который может содержать папку записных книжек или отдельную записную книжку. Архив кирпичей является JAR-файлом с дополнительными метаданными и имеет расширение .dbc . Записные книжки, содержащиеся в архиве, находятся в Azure Databricks внутреннем формате.

Импорт архива

  1. Щелкните раскрывающийся  список курсора или  меню справа от папки или записной книжки и выберите Импорт.
  2. Выберите файл или URL-адрес.
  3. Перейдите к архиву кирпичей или удалите его в дропзоне.
  4. Щелкните Импорт. Архив импортируется в Azure Databricks. Если архив содержит папку, Azure Databricks повторно создает эту папку.

Экспорт архива

Щелкните раскрывающийся  список курсора или  меню справа от папки или записной книжки и выберите Экспорт > dBc Archive. Azure Databricks скачивает файл с именем <[folder|notebook]-name>.dbc .