Share via


Zip sıkıştırılmış dosyalarını genişletme ve okuma

Zip sıkıştırılmış dosyaların dosyalarını veya dizinlerini genişletmek için Bash komutunu kullanabilirsiniz unzip . ile .zipbiten bir dosya veya dizin indirir veya ile karşılaşırsanız, devam etmeden önce verileri genişletin.

Not

Apache Spark, sıkıştırılmış Parquet dosyalarıyla etkileşim için yerel codec'ler sağlar. Azure Databricks tarafından yazılan Parquet dosyalarının çoğu, hızlı sıkıştırma kullandıklarını gösteren ile .snappy.parquetbiter.

Verilerin sıkıştırmasını açma

Azure Databricks %shmagic komutu, komutu da dahil olmak üzere rastgele Bash kodunun yürütülmesini unzip sağlar.

Aşağıdaki örnek, İnternet'ten indirilen sıkıştırılmış bir CSV dosyası kullanır. Bkz. İnternet'ten veri indirme.

Not

Databricks Yardımcı Programlarını kullanarak dosyaları genişletmeden önce sürücüye bağlı kısa ömürlü depolama alanına taşıyabilirsiniz. Unity Kataloğu birimlerinde bulunan zip dosyalarını genişletemezsiniz. Bkz . Databricks Utilities (dbutils) başvurusu.

Aşağıdaki kod, verileri indirmek ve genişletmek unzip için kullanırcurl:

%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip

Genişletilmiş dosyayı bir Unity Kataloğu birimine taşımak için dbutils komutunu aşağıdaki gibi kullanın:

dbutils.fs.mv("file:/LoanStats3a.csv", "/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")

Bu örnekte, indirilen verilerin ilk satırında bir açıklaması ve ikincisinde üst bilgisi vardır. Veriler genişletilip taşındığına göre, aşağıdaki örnekte olduğu gibi CSV dosyalarını okumak için standart seçenekleri kullanın:

df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)