Zip ファイル Zip Files

Hadoop は、圧縮コーデックとして zip ファイルをサポートしていません。Hadoop does not have support for zip files as a compression codec. GZip、BZip2、およびその他のサポートされている圧縮形式のテキストファイルは、適切なファイル拡張子がある限り、Apache Spark で自動的に圧縮解除されるように構成できますが、zip ファイルを読み取るには、追加の手順を実行する必要があります。While a text file in GZip, BZip2, and other supported compression formats can be configured to be automatically decompressed in Apache Spark as long as it has the right file extension, you must perform additional steps to read zip files.

次のノートブックは、zip ファイルを読み取る方法を示しています。The following notebooks show how to read zip files. Zip ファイルを一時ディレクトリにダウンロードした後、Azure Databricks %sh zipマジックコマンドを呼び出して、ファイルを解凍できます。After you download a zip file to a temp directory, you can invoke the Azure Databricks %sh zip magic command to unzip the file. ノートブックで使用されるサンプルファイルについては、tail の手順により、解凍されたファイルからコメント行が削除されます。For the sample file used in the notebooks, the tail step removes a comment line from the unzipped file.

%sh を使用してファイルを操作すると、結果はディレクトリ /databricks/driverに格納されます。When you use %sh to operate on files, the results are stored in the directory /databricks/driver. Spark API を使用してファイルを読み込む前に、 Databricks ユーティリティを使用してファイルを DBFS に移動します。Before you load the file using the Spark API, you move the file to DBFS using Databricks Utilities.

Zip ファイル Python notebookZip files Python notebook

ノートブックを取得するGet notebook

Zip ファイルによるノートブックの圧縮Zip files Scala notebook

ノートブックを取得するGet notebook