ZIP-файлы
Hadoop не поддерживает ZIP-файлы в качестве кодека сжатия. Хотя текстовый файл в формате GZip, BZip2 и других поддерживаемых форматах сжатия можно настроить для автоматической распаковки в Apache Spark при условии правильного файлового расширения, для чтения ZIP-файлов необходимо выполнить дополнительные действия.
В следующих записных книжках объясняется, как читать ZIP-файлы. После скачивания ZIP-файла во временный каталог можно вызвать магическую команду%sh zip
Azure Databricks, чтобы распаковать файл. Для образца файла, используемого в записных книжках, шаг tail
удаляет строку комментария из распакованного файла.
При работе с файлами в %sh
результаты сохраняются в каталоге /databricks/driver
. Перед загрузкой файла с помощью Spark API файл перемещается в DBFS с помощью служебных программ Databricks.