Сжатый файл LZO

Из-за ограничений лицензирования кодек сжатия LZO недоступен по умолчанию для кластеров Azure Databricks. Для чтения сжатого файла LZO необходимо использовать сценарий инициализации для установки кодека в кластере во время запуска.

Пример записной книжки: сжатые файлы Init LZO

Следующая записная книжка:

  • Создает кодек LZO.
  • Создает скрипт инициализации, который:
    • Устанавливает библиотеки сжатия LZO и команду lzop, а также копирует кодек LZO в соответствующий путь к классу.
    • Настраивает Spark для использования кодека сжатия LZO.

Записная книжка для инициализации сжатых файлов LZO

Получить записную книжку

Пример записной книжки: чтение сжатых файлов LZO

Следующая записная книжка считывает сжатые файлы LZO с помощью кодека, установленного скриптом init:

Чтение записной книжки сжатых файлов LZO

Получить записную книжку