ZIP-файлы

Hadoop не поддерживает ZIP-файлы в качестве кодека сжатия. Хотя текстовый файл в формате GZip, BZip2 и других поддерживаемых форматах сжатия можно настроить для автоматической распаковки в Apache Spark при условии правильного файлового расширения, для чтения ZIP-файлов необходимо выполнить дополнительные действия.

В следующих записных книжках объясняется, как читать ZIP-файлы. После скачивания ZIP-файла во временный каталог можно вызвать магическую команду%sh zip Azure Databricks, чтобы распаковать файл. Для образца файла, используемого в записных книжках, шаг tail удаляет строку комментария из распакованного файла.

При работе с файлами в %sh результаты сохраняются в каталоге /databricks/driver. Перед загрузкой файла с помощью Spark API файл перемещается в DBFS с помощью служебных программ Databricks.

Записная книжка Python для ZIP-файлов

Получить записную книжку

Записная книжка Scala с ZIP-файлами

Получить записную книжку