İkili dosya
Databricks Runtime, ikili dosyaları okuyan ve her dosyayı dosyanın ham içeriğini ve meta verilerini içeren tek bir kayda dönüştüren ikili dosya veri kaynağını destekler. İkili dosya veri kaynağı, aşağıdaki sütunlara ve büyük olasılıkla bölüm sütunlarına sahip bir DataFrame oluşturur:
path (StringType)
: Dosyanın yolu.modificationTime (TimestampType)
: Dosyanın değişiklik zamanı. Bazı Hadoop FileSystem uygulamalarında bu parametre kullanılamayabilir ve değer varsayılan değere ayarlanır.length (LongType)
: Dosyanın bayt cinsinden uzunluğu.content (BinaryType)
: Dosyanın içeriği.
İkili dosyaları okumak için veri kaynağını format
olarak binaryFile
belirtin.
Görüntüler
Databricks, görüntü verilerini yüklemek için ikili dosya veri kaynağını kullanmanızı önerir.
Databricks display
işlevi, ikili veri kaynağı kullanılarak yüklenen görüntü verilerinin görüntülenmesini destekler.
Yüklenen tüm dosyaların dosya adı görüntü uzantısına sahipse, görüntü önizlemesi otomatik olarak etkinleştirilir:
df = spark.read.format("binaryFile").load("<path-to-image-dir>")
display(df) # image thumbnails are rendered in the "content" column
Alternatif olarak, ikili sütuna ek açıklama eklemek için dize değeriyle "image/*"
seçeneğini kullanarak mimeType
görüntü önizleme işlevselliğini zorlayabilirsiniz. Görüntülerin kodu, ikili içerikteki biçim bilgilerine göre çözüldü. Desteklenen görüntü türleri : bmp
, gif
, jpeg
ve png
. Desteklenmeyen dosyalar bozuk bir görüntü simgesi olarak görünür.
df = spark.read.format("binaryFile").option("mimeType", "image/*").load("<path-to-dir>")
display(df) # unsupported files are displayed as a broken image icon
Görüntü verilerini işlemek için önerilen iş akışı için bkz . Görüntü uygulamaları için başvuru çözümü.
Seçenekler
Bölüm bulma davranışını koruyarak belirli bir glob deseniyle eşleşen yollara sahip dosyaları yüklemek için seçeneğini kullanabilirsiniz pathGlobFilter
. Aşağıdaki kod, bölüm bulma ile giriş dizinindeki tüm JPG dosyalarını okur:
df = spark.read.format("binaryFile").option("pathGlobFilter", "*.jpg").load("<path-to-dir>")
Bölüm bulmayı yoksaymak ve giriş dizini altındaki dosyaları yinelemeli olarak aramak istiyorsanız seçeneğini kullanın recursiveFileLookup
. Bu seçenek, adları gibi date=2019-07-01
bir bölüm adlandırma düzenini izlemese bile iç içe geçmiş dizinlerde arama yapar.
Aşağıdaki kod, giriş dizininden tüm JPG dosyalarını özyinelemeli olarak okur ve bölüm bulmayı yoksayar:
df = spark.read.format("binaryFile") \
.option("pathGlobFilter", "*.jpg") \
.option("recursiveFileLookup", "true") \
.load("<path-to-dir>")
Scala, Java ve R için benzer API'ler vardır.
Dekont
Verileri geri yüklediğinizde okuma performansını geliştirmek için Azure Databricks, ikili dosyalardan yüklenen verileri kaydettiğinizde sıkıştırmayı kapatmanızı önerir:
spark.conf.set("spark.sql.parquet.compression.codec", "uncompressed")
df.write.format("delta").save("<path-to-table>")