Share via


Otomatik Yükleyici seçenekleri

Kaynağa özgü cloudFiles yapılandırma seçenekleri, diğer Yapılandırılmış Akış kaynağı seçeneklerinden ayrı bir ad alanında olmaları için ön eke cloudFiles sahiptir.

Ortak Otomatik Yükleyici seçenekleri

Dizin listeleme veya dosya bildirim modu için aşağıdaki seçenekleri yapılandırabilirsiniz.

Seçenek
cloudFiles.allowOverwrites

Tür: Boolean

Giriş dizin dosyası değişikliklerinin var olan verilerin üzerine yazmasına izin verilip verilmeyeceği.

Bu yapılandırmayı etkinleştirmeyle ilgili birkaç uyarı vardır. Ayrıntılar için otomatik yükleyici hakkında SSS bölümüne bakın.

Varsayılan değer: false
cloudFiles.backfillInterval

Tür: Interval String

Otomatik Yükleyici belirli bir aralıkta zaman uyumsuz geri doldurmaları tetikleyebilir,
örneğin 1 day günde bir kez doldurma veya 1 week haftada bir kez doldurma. Dosya olayı bildirim sistemleri, karşıya yüklenen tüm dosyaların %100 teslimini garanti etmediğinden, databricks Runtime 8.4 (desteklenmeyen) ve üzerinde bulunan tüm dosyaların sonunda işlendiğini garanti etmek için yedekleri kullanabilirsiniz.

Varsayılan değer: Yok
cloudFiles.format

Tür: String

Kaynak yoldaki veri dosyası biçimi. İzin verilen değerler şunlardır:

* avro: Avro dosyası
* binaryFile: İkili dosya
* csv: CSV dosyalarını okuma ve yazma
* json: JSON dosyası
* orc: ORC dosyası
* parquet: Azure Databricks kullanarak Parquet dosyalarını okuma
* text: Metin dosyası

Varsayılan değer: Yok (gerekli seçenek)
cloudFiles.includeExistingFiles

Tür: Boolean

Mevcut dosyaların akış işleme giriş yoluna dahil edilip edilmeyeceği veya yalnızca ilk kurulumdan sonra gelen yeni dosyaların işlenmesi. Bu seçenek yalnızca bir akışı ilk kez başlattığınızda değerlendirilir. Akışı yeniden başlattıktan sonra bu seçeneğin değiştirilmesinin hiçbir etkisi olmaz.

Varsayılan değer: true
cloudFiles.inferColumnTypes

Tür: Boolean

Şema çıkarımı kullanıldığında tam sütun türlerinin çıkarılıp çıkarılmayacağı. Varsayılan olarak, JSON ve CSV veri kümeleri çıkarılırken sütunlar dize olarak çıkarılır. Daha fazla ayrıntı için bkz . şema çıkarımı .

Varsayılan değer: false
cloudFiles.maxBytesPerTrigger

Tür: Byte String

Her tetikleyicide işlenecek yeni bayt sayısı üst sınırı. Her mikrobatch değerini 10 GB veriyle sınırlamak için gibi 10g bir bayt dizesi belirtebilirsiniz. Bu geçici bir maksimum değerdir. Her birinde 3 GB olan dosyalarınız varsa, Azure Databricks bir mikrobatch içinde 12 GB işler. ile cloudFiles.maxFilesPerTriggerbirlikte kullanıldığında, Azure Databricks veya alt sınırına cloudFiles.maxFilesPerTriggercloudFiles.maxBytesPerTriggerkadar tüketir ve hangisi önce ulaşılırsa. Bu seçeneğin ile Trigger.Once() kullanıldığında hiçbir etkisi yoktur (kullanım dışı).

Varsayılan değer: Yok
cloudFiles.maxFileAge

Tür: Interval String

Yinelenenleri kaldırma amacıyla bir dosya olayının ne kadar süre izlendiği. Databricks, verileri saatte milyonlarca dosya sırasına göre almadığınız sürece bu parametrenin ayarlanmasını önermez. Daha fazla ayrıntı için Olay saklama bölümüne bakın.

Çok agresif bir şekilde ayarlanması cloudFiles.maxFileAge , yinelenen veri alımı veya eksik dosyalar gibi veri kalitesi sorunlarına neden olabilir. Bu nedenle Databricks, karşılaştırmalı veri alımı çözümlerinin önerdiğine benzer şekilde 90 gün gibi muhafazakar bir ayar cloudFiles.maxFileAgeönerir.

Varsayılan değer: Yok
cloudFiles.maxFilesPerTrigger

Tür: Integer

Her tetikleyicide işlenecek en fazla yeni dosya sayısı. ile cloudFiles.maxBytesPerTriggerbirlikte kullanıldığında, Azure Databricks veya alt sınırına cloudFiles.maxFilesPerTriggercloudFiles.maxBytesPerTriggerkadar tüketir ve hangisi önce ulaşılırsa. Bu seçeneğin ile Trigger.Once() kullanıldığında hiçbir etkisi yoktur (kullanım dışı).

Varsayılan değer: 1000
cloudFiles.partitionColumns

Tür: String

Dosyaların dizin yapısından çıkarılmış olmasını istediğiniz Hive stili bölüm sütunlarının virgülle ayrılmış listesi. Hive stili bölüm sütunları, gibi bir eşitlik işaretiyle birleştirilen anahtar değer çiftleridir
<base-path>/a=x/b=1/c=y/file.format. Bu örnekte bölüm sütunları , bve cşeklindedira. Varsayılan olarak, şema çıkarımı kullanıyorsanız ve yüklenecek verileri sağlıyorsanız <base-path> bu sütunlar şemanıza otomatik olarak eklenir. Bir şema sağlarsanız, Otomatik Yükleyici bu sütunların şemaya eklenmesini bekler. Bu sütunları şemanızın bir parçası olarak istemiyorsanız, bu sütunları yoksaymak için belirtebilirsiniz "" . Ayrıca, aşağıdaki örnekte olduğu gibi sütunların karmaşık dizin yapılarında dosya yolunun çıkarılmasını istediğinizde bu seçeneği kullanabilirsiniz:

<base-path>/year=2022/week=1/file1.csv
<base-path>/year=2022/month=2/day=3/file2.csv
<base-path>/year=2022/month=2/day=4/file3.csv

Olarak year,month,day belirtilmesi cloudFiles.partitionColumns döndürülecek
year=2022 için file1.csv, ancak month ve day sütunları olacaktır null.
month ve day ve için file2.csvfile3.csvdoğru şekilde ayrıştırılır.

Varsayılan değer: Yok
cloudFiles.schemaEvolutionMode

Tür: String

Verilerde yeni sütunlar keşfedildikçe şemayı geliştirme modu. Varsayılan olarak, JSON veri kümeleri çıkarılırken sütunlar dize olarak çıkarılır. Daha fazla ayrıntı için bkz . şema evrimi .

Varsayılan değer: "addNewColumns" şema sağlanmadığında.
"none" Aksi takdir -de.
cloudFiles.schemaHints

Tür: String

Şema çıkarımı sırasında Otomatik Yükleyici'ye sağladığınız şema bilgileri. Daha fazla ayrıntı için şema ipuçlarına bakın.

Varsayılan değer: Yok
cloudFiles.schemaLocation

Tür: String

Çıkarsanan şemayı ve sonraki değişiklikleri depolama konumu. Daha fazla ayrıntı için bkz . şema çıkarımı .

Varsayılan değer: Hiçbiri (şema çıkarıldığında gereklidir)
cloudFiles.useStrictGlobber

Tür: Boolean

Apache Spark'taki diğer dosya kaynaklarının varsayılan globbing davranışıyla eşleşen katı bir globber kullanıp kullanmayacağınız. Diğer ayrıntılar için bkz . Yaygın veri yükleme desenleri . Databricks Runtime 12.2 LTS ve üzerinde kullanılabilir.

Varsayılan değer: false
cloudFiles.validateOptions

Tür: Boolean

Otomatik Yükleyici seçeneklerinin doğrulanıp doğrulanmayacağı ve bilinmeyen veya tutarsız seçenekler için hata döndürüleceği.

Varsayılan değer: true

Dizin listeleme seçenekleri

Aşağıdaki seçenekler dizin listeleme moduyla ilgilidir.

Seçenek
cloudFiles.useIncrementalListing (kullanım dışı)

Tür: String

Bu özellik kullanım dışı bırakıldı. Databricks, yerine dosya bildirim modunun kullanılmasını önerir
cloudFiles.useIncrementalListing.

Dizin listeleme modunda tam liste yerine artımlı döküm kullanılıp kullanılmaymayacağı. Varsayılan olarak, Otomatik Yükleyici belirli bir dizinin artımlı listeleme için geçerli olup olmadığını otomatik olarak algılamak için en iyi çabayı gösterir. Artımlı listeyi açıkça kullanabilir veya sırasıyla veya false olarak true ayarlayarak tam dizin listesini kullanabilirsiniz.

Sözcük temelli olmayan bir dizinde artımlı listelemenin yanlış etkinleştirilmesi, Otomatik Yükleyici'nin yeni dosyaları bulmasını engeller.

Azure Data Lake Storage 2. Nesil (abfss://), S3 (s3://) ve GCS (gs://) ile çalışır.

Databricks Runtime 9.1 LTS ve üzerinde kullanılabilir.

Varsayılan değer: auto

Kullanılabilir değerler: auto, true, false

Dosya bildirim seçenekleri

Aşağıdaki seçenekler dosya bildirim moduyla ilgilidir.

Seçenek
cloudFiles.fetchParallelism

Tür: Integer

Kuyruğa alma hizmetinden ileti getirirken kullanılacak iş parçacığı sayısı.

Varsayılan değer: 1
cloudFiles.pathRewrites

Tür: JSON dizesi

Yalnızca birden çok S3 demetinden dosya bildirimleri alan bir queueUrl belirtirseniz ve bu kapsayıcılardaki verilere erişmek için yapılandırılmış bağlama noktalarından yararlanmak istiyorsanız gereklidir. Yol ön ekini bucket/key bağlama noktasıyla yeniden yazmak için bu seçeneği kullanın. Yalnızca ön ekler yeniden yazılabilir. Örneğin, yapılandırma için
{"<databricks-mounted-bucket>/path": "dbfs:/mnt/data-warehouse"}, yol
s3://<databricks-mounted-bucket>/path/2017/08/fileA.json , öğesine dbfs:/mnt/data-warehouse/2017/08/fileA.jsonyeniden yazılır.

Varsayılan değer: Yok
cloudFiles.resourceTag

Tür: Map(String, String)

İlgili kaynakları ilişkilendirmeye ve tanımlamaya yardımcı olacak bir dizi anahtar-değer etiketi çifti, örneğin:

cloudFiles.option("cloudFiles.resourceTag.myFirstKey", "myFirstValue")
.option("cloudFiles.resourceTag.mySecondKey", "mySecondValue")

AWS hakkında daha fazla bilgi için bkz . Amazon SQS maliyet ayırma etiketleri ve Amazon SNS için etiketleri yapılandırma konusu. (1)

Azure hakkında daha fazla bilgi için bkz. Olay Abonelikleri'nde Kuyrukları ve Meta Verileri Adlandırma ve kapsamıproperties.labels. Otomatik Yükleyici bu anahtar-değer etiket çiftlerini JSON'da etiket olarak depolar. (1)

GCP hakkında daha fazla bilgi için bkz . Etiketlerle kullanımı raporlama. (1)

Varsayılan değer: Yok
cloudFiles.useNotifications

Tür: Boolean

Yeni dosyaların ne zaman olduğunu belirlemek için dosya bildirim modunun kullanılıp kullanılmayacağını. ise falsedizin listeleme modunu kullanın. Bkz. Otomatik Yükleyici nasıl çalışır?

Varsayılan değer: false

(1) Otomatik Yükleyici varsayılan olarak en iyi çaba temelinde aşağıdaki anahtar-değer etiket çiftlerini ekler:

  • vendor: Databricks
  • path: Verilerin yüklendiği konum. Etiketleme sınırlamaları nedeniyle GCP'de kullanılamıyor.
  • checkpointLocation: Akışın denetim noktasının konumu. Etiketleme sınırlamaları nedeniyle GCP'de kullanılamıyor.
  • streamId: Akış için genel olarak benzersiz bir tanımlayıcı.

Bu anahtar adları ayrılmıştır ve değerlerinin üzerine yazamazsınız.

Dosya biçimi seçenekleri

Otomatik Yükleyici ile , , CSV, PARQUET, AVRO, TEXT, BINARYFILEve ORC dosyalarını alabilirsinizJSON.

Genel seçenekler

Aşağıdaki seçenekler tüm dosya biçimleri için geçerlidir.

Seçenek
ignoreCorruptFiles

Tür: Boolean

Bozuk dosyaların yoksayılıp yoksayılmayacağı. True ise, Bozuk dosyalarla karşılaşıldığında Spark işleri çalışmaya devam eder ve okunan içerik yine döndürülür. içinde olduğu gibi numSkippedCorruptFiles gözlemlenebilir
operationMetrics Delta Lake geçmişinin sütunu. Databricks Runtime 11.3 LTS ve üzerinde kullanılabilir.

Varsayılan değer: false
ignoreMissingFiles

Tür: Boolean

Eksik dosyaların yoksayılıp yoksayılmayacağı. Doğruysa, Spark işleri eksik dosyalarla karşılaşıldığında çalışmaya devam eder ve okunan içerik yine döndürülür. Databricks Runtime 11.3 LTS ve üzerinde kullanılabilir.

Varsayılan değer: false (true için COPY INTO)
modifiedAfter

Tür: Timestamp String, örneğin, 2021-01-01 00:00:00.000000 UTC+0

Sağlanan zaman damgasından sonra değişiklik zaman damgasına sahip dosyaları almak için isteğe bağlı bir zaman damgası.

Varsayılan değer: Yok
modifiedBefore

Tür: Timestamp String, örneğin, 2021-01-01 00:00:00.000000 UTC+0

Sağlanan zaman damgasından önce değişiklik zaman damgası olan dosyaları almak için isteğe bağlı bir zaman damgası.

Varsayılan değer: Yok
pathGlobFilter veya fileNamePattern

Tür: String

Dosya seçmeye yönelik olası bir glob deseni. Eşdeğer
PATTERNiçinde .COPY INTO fileNamePattern içinde read_fileskullanılabilir.

Varsayılan değer: Yok
recursiveFileLookup

Tür: Boolean

Şema çıkarımı sırasında bölüm çıkarımının atlanıp atlanmadığı. Bu, hangi dosyaların yüklendiğini etkilemez.

Varsayılan değer: false

JSON Seçenekler

Seçenek
allowBackslashEscapingAnyCharacter

Tür: Boolean

Ters eğik çizginin başarılı olan herhangi bir karakterden kaçmasına izin verilip verilmeyeceği. Etkinleştirilmemişse, yalnızca JSON belirtimi tarafından açıkça listelenen karakterlerden kaçılabilir.

Varsayılan değer: false
allowComments

Tür: Boolean

Ayrıştırılmış içerik içinde Java, C ve C++ stil açıklamalarının ('/', '*'ve '//' çeşitlerinin) kullanılmasına izin verilip verilmeyeceği.

Varsayılan değer: false
allowNonNumericNumbers

Tür: Boolean

Bir sayı olmayan (NaN) belirteç kümesinin yasal kayan sayı değerleri olarak izin verilip verilmeyeceği.

Varsayılan değer: true
allowNumericLeadingZeros

Tür: Boolean

İntegral sayıların ek (yoksayılabilir) sıfırlarla başlamasına izin verilip verilmeyeceği (örneğin, 000001).

Varsayılan değer: false
allowSingleQuotes

Tür: Boolean

Dizeleri (adlar ve Dize değerleri) alıntılama için tek tırnak (kesme işareti, karakter '\') kullanımına izin verilip verilmeyeceği.

Varsayılan değer: true
allowUnquotedControlChars

Tür: Boolean

JSON dizelerinin sıralanmamış denetim karakterleri (sekme ve satır besleme karakterleri dahil olmak üzere 32'den küçük ASCII karakterleri) içermesine izin verilip verilmeyeceği.

Varsayılan değer: false
allowUnquotedFieldNames

Tür: Boolean

Okunmamış alan adlarının kullanımına izin verilip verilmeyeceği (JavaScript tarafından izin verilir, ancak JSON belirtimi tarafından izin verilmez).

Varsayılan değer: false
badRecordsPath

Tür: String

Hatalı JSON kayıtları hakkındaki bilgileri kaydetmek için dosyaları depolama yolu.

Varsayılan değer: Yok
columnNameOfCorruptRecord

Tür: String

Hatalı biçimlendirilmiş ve ayrıştırılamayan kayıtları depolama sütunu. mode ayrıştırma için olarak DROPMALFORMEDayarlanırsa, bu sütun boş olur.

Varsayılan değer: _corrupt_record
dateFormat

Tür: String

Tarih dizelerini ayrıştırma biçimi.

Varsayılan değer: yyyy-MM-dd
dropFieldIfAllNull

Tür: Boolean

Şema çıkarımı sırasında tüm null değerlerin veya boş dizilerin ve yapıların sütunlarının yoksayılıp yoksayılmayacağı.

Varsayılan değer: false
encoding veya charset

Tür: String

JSON dosyalarının kodlama adı. Seçeneklerin listesi için bkz java.nio.charset.Charset . ve UTF-32 olduğunda multilinetruekullanamazsınızUTF-16.

Varsayılan değer: UTF-8
inferTimestamp

Tür: Boolean

Zaman damgası dizelerinin olarak TimestampTypeçıkarılıp çıkarılmayacağı. Olarak ayarlandığında
true, şema çıkarımı önemli ölçüde daha uzun sürebilir. Otomatik Yükleyici ile kullanmayı etkinleştirmeniz cloudFiles.inferColumnTypes gerekir.

Varsayılan değer: false
lineSep

Tür: String

Ardışık iki JSON kaydı arasındaki dize.

Varsayılan değer: Hiçbiri, , \r\nve'yi kapsar \r\n
locale

Tür: String

Tanımlayıcı java.util.Locale . JSON içinde varsayılan tarih, zaman damgası ve ondalık ayrıştırma işlemini etkiler.

Varsayılan değer: US
mode

Tür: String

Hatalı biçimlendirilmiş kayıtları işleme etrafında ayrıştırıcı modu. 'nin biri 'PERMISSIVE'
'DROPMALFORMED'veya 'FAILFAST'.

Varsayılan değer: PERMISSIVE
multiLine

Tür: Boolean

JSON kayıtlarının birden çok satıra yayılıp yayılmadığı.

Varsayılan değer: false
prefersDecimal

Tür: Boolean

Mümkün olduğunda kayan veya çift tür yerine dizeleri olarak DecimalType çıkarsamaya çalışır. Ayrıca, etkinleştirerek şema çıkarımı kullanmanız gerekir
inferSchema veya Otomatik Yükleyici ile kullanma cloudFiles.inferColumnTypes .

Varsayılan değer: false
primitivesAsString

Tür: Boolean

Sayı ve boole gibi ilkel türlerin olarak StringTypeçıkarılıp çıkarılmayacağı.

Varsayılan değer: false
readerCaseSensitive

Tür: Boolean

Etkinleştirildiğinde rescuedDataColumn büyük/küçük harf duyarlılığı davranışını belirtir. True ise, adları şemadan büyük/küçük harfe göre farklılık gösteren veri sütunlarını kurtarın; aksi takdirde, verileri büyük/küçük harfe duyarlı olmayan bir şekilde okuyun. Databricks Runtime'da kullanılabilir
13.3 ve üzeri.

Varsayılan değer: true
rescuedDataColumn

Tür: String

Veri türü uyuşmazlığı veya şema uyuşmazlığı (sütun kasası dahil) nedeniyle ayrıştırılmayan tüm verilerin ayrı bir sütuna toplanıp toplanmayacağı. Bu sütun, Otomatik Yükleyici kullanılırken varsayılan olarak eklenir. Diğer ayrıntılar için kurtarılan veri sütunu nedir? konusuna bakın.

Varsayılan değer: Yok
timestampFormat

Tür: String

Zaman damgası dizelerini ayrıştırma biçimi.

Varsayılan değer: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]
timeZone

Tür: String

java.time.ZoneId Zaman damgalarını ve tarihleri ayrıştırırken kullanılacak.

Varsayılan değer: Yok

CSV Seçenekler

Seçenek
badRecordsPath

Tür: String

Bozuk CSV kayıtları hakkındaki bilgileri kaydetmek için dosyaları depolama yolu.

Varsayılan değer: Yok
charToEscapeQuoteEscaping

Tür: Char

Tırnak işaretinden kaçmak için kullanılan karakter. Örneğin, aşağıdaki kayıt için: [ " a\\", b ]

* kaçış '\' karakteri tanımsızsa, kayıt ayrıştırılmaz. Ayrıştırıcı karakterleri okur: [a],[\],["],[,],[ ],[b] ve kapanış tırnak işareti bulamadığından bir hata oluşturur.
* kaçış '\' karakteri olarak '\'tanımlanırsa, kayıt 2 değerle okunur: [a\] ve [b].

Varsayılan değer: '\0'
columnNameOfCorruptRecord

> [! NOT] >> Otomatik Yükleyici için desteklenir. için COPY INTOdesteklenmez.

Tür: String

Hatalı biçimlendirilmiş ve ayrıştırılamayan kayıtları depolama sütunu. mode ayrıştırma için olarak DROPMALFORMEDayarlanırsa, bu sütun boş olur.

Varsayılan değer: _corrupt_record
comment

Tür: Char

Metin satırının başında bulunduğunda satır açıklamasını temsil eden karakteri tanımlar. Açıklama atlama özelliğini devre dışı bırakmak için kullanın '\0' .

Varsayılan değer: '\u0000'
dateFormat

Tür: String

Tarih dizelerini ayrıştırma biçimi.

Varsayılan değer: yyyy-MM-dd
emptyValue

Tür: String

Boş bir değerin dize gösterimi.

Varsayılan değer: ""
encoding veya charset

Tür: String

CSV dosyalarının kodlama adı. Seçenekler listesi için bkz java.nio.charset.Charset . UTF-16 ve UTF-32 olduğunda multilinetruekullanılamaz.

Varsayılan değer: UTF-8
enforceSchema

Tür: Boolean

Belirtilen veya çıkarsanan şemanın CSV dosyalarına zorla uygulanıp uygulanmayacağı. Seçenek etkinleştirilirse, CSV dosyalarının üst bilgileri yoksayılır. Verileri kurtarmak ve şema evrimine izin vermek için Otomatik Yükleyici kullanılırken bu seçenek varsayılan olarak yoksayılır.

Varsayılan değer: true
escape

Tür: Char

Verileri ayrıştırırken kullanılacak kaçış karakteri.

Varsayılan değer: '\'
header

Tür: Boolean

CSV dosyalarının üst bilgi içerip içermediği. Otomatik Yükleyici, şema çıkarılırken dosyaların üst bilgileri olduğunu varsayar.

Varsayılan değer: false
ignoreLeadingWhiteSpace

Tür: Boolean

Ayrıştırılan her değer için baştaki boşluklar yoksayılıp yoksayılmayacağı.

Varsayılan değer: false
ignoreTrailingWhiteSpace

Tür: Boolean

Ayrıştırılan her değer için sondaki boşlukların yoksayılıp yoksayılmayacağı.

Varsayılan değer: false
inferSchema

Tür: Boolean

Ayrıştırılan CSV kayıtlarının veri türlerinin çıkarılıp çıkarılmayacağı veya tüm sütunların içinde StringTypeolduğu varsayılıp varsayılmayacağı. olarak ayarlanırsa trueveriler üzerinde ek bir geçiş gerektirir. Otomatik Yükleyici için bunun yerine kullanın cloudFiles.inferColumnTypes .

Varsayılan değer: false
lineSep

Tür: String

Ardışık iki CSV kaydı arasındaki dize.

Varsayılan değer: Hiçbiri, , \r\nve'yi kapsar \r\n
locale

Tür: String

Tanımlayıcı java.util.Locale . CSV içinde varsayılan tarih, zaman damgası ve ondalık ayrıştırma işlemini etkiler.

Varsayılan değer: US
maxCharsPerColumn

Tür: Int

Ayrıştırmak için bir değerden beklenen karakter sayısı üst sınırı. Bellek hatalarını önlemek için kullanılabilir. Varsayılan olarak -1değeri, sınırsız anlamına gelir.

Varsayılan değer: -1
maxColumns

Tür: Int

Bir kaydın kaç sütuna sahip olabileceğinin sabit sınırı.

Varsayılan değer: 20480
mergeSchema

Tür: Boolean

Şemanın birden çok dosya arasında çıkarılıp çıkarılmayacağı ve her dosyanın şemasının birleştirilip birleştirmeyeceği. Şema çıkarıldığında Otomatik Yükleyici için varsayılan olarak etkindir.

Varsayılan değer: false
mode

Tür: String

Hatalı biçimlendirilmiş kayıtları işleme etrafında ayrıştırıcı modu. 'nin biri 'PERMISSIVE'
'DROPMALFORMED''FAILFAST've .

Varsayılan değer: PERMISSIVE
multiLine

Tür: Boolean

CSV kayıtlarının birden çok satıra yayılıp yayılmadığı.

Varsayılan değer: false
nanValue

Tür: String

ve DoubleType sütunlarını ayrıştırırken sayı olmayan bir değerin FloatType dize gösterimi.

Varsayılan değer: "NaN"
negativeInf

Tür: String

Veya sütunları ayrıştırırken FloatTypeDoubleType negatif sonsuzluğun dize gösterimi.

Varsayılan değer: "-Inf"
nullValue

Tür: String

Null değerin dize gösterimi.

Varsayılan değer: ""
parserCaseSensitive (kullanım dışı)

Tür: Boolean

Dosyalar okunurken, üst bilgide bildirilen sütunların şema büyük/küçük harfle hassas bir şekilde hizalanıp hizalanmayacağı. Bu, Otomatik Yükleyici için varsayılan olarakdır true . Büyük/küçük harfe göre farklılık gösteren sütunlar, etkinse içinde rescuedDataColumn kurtarılır. Bu seçenek yerine kullanım dışı readerCaseSensitivebırakılmıştır.

Varsayılan değer: false
positiveInf

Tür: String

Veya sütunları ayrıştırırken FloatTypeDoubleType pozitif sonsuzluğun dize gösterimi.

Varsayılan değer: "Inf"
preferDate

Tür: Boolean

Mümkün olduğunda dizeleri zaman damgası yerine tarih olarak çıkarma girişiminde bulunur. Ayrıca, etkinleştirerek inferSchema veya kullanarak şema çıkarımı kullanmanız gerekir
cloudFiles.inferColumnTypes otomatik yükleyici ile.

Varsayılan değer: true
quote

Tür: Char

Alan sınırlayıcısının değerin bir parçası olduğu değerlerden kaçış için kullanılan karakter.

Varsayılan değer: "
readerCaseSensitive

Tür: Boolean

Etkinleştirildiğinde rescuedDataColumn büyük/küçük harf duyarlılığı davranışını belirtir. True ise, adları şemadan büyük/küçük harfe göre farklılık gösteren veri sütunlarını kurtarın; aksi takdirde, verileri büyük/küçük harfe duyarlı olmayan bir şekilde okuyun.

Varsayılan değer: true
rescuedDataColumn

Tür: String

Veri türü uyuşmazlığı ve şema uyuşmazlığı (sütun büyük/küçük harf dahil) nedeniyle ayrıştırılmayan tüm verilerin ayrı bir sütuna toplanıp toplanmayacağı. Bu sütun, Otomatik Yükleyici kullanılırken varsayılan olarak eklenir. Daha fazla ayrıntı için kurtarılan veri sütunu nedir? konusuna bakın.

Varsayılan değer: Yok
sep veya delimiter

Tür: String

Sütunlar arasındaki ayırıcı dize.

Varsayılan değer: ","
skipRows

Tür: Int

CSV dosyasının başından yoksayılması gereken satır sayısı (açıklamalı ve boş satırlar dahil). header True ise, üst bilgi ilk sıralanmamış ve sıkıştırılmamış satır olur.

Varsayılan değer: 0
timestampFormat

Tür: String

Zaman damgası dizelerini ayrıştırma biçimi.

Varsayılan değer: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]
timeZone

Tür: String

java.time.ZoneId Zaman damgalarını ve tarihleri ayrıştırırken kullanılacak.

Varsayılan değer: Yok
unescapedQuoteHandling

Tür: String

Ayarlanmamış tırnakları işleme stratejisi. İzin verilen seçenekler:

* STOP_AT_CLOSING_QUOTE: Girişte serbest tırnaklar bulunursa, tırnak karakterini biriktirin ve kapanış teklifi bulunana kadar değeri tırnak içinde bir değer olarak ayrıştırmaya devam edin.
* BACK_TO_DELIMITER: Girişte sıralanmamış tırnak işaretleri bulunursa, değeri tırnak içine alınmamış bir değer olarak düşünün. Bu, ayrıştırıcının tarafından tanımlanan sep sınırlayıcı bulunana kadar geçerli ayrıştırılan değerin tüm karakterlerini toplamasını sağlar. Değerde sınırlayıcı bulunmazsa, ayrıştırıcı bir sınırlayıcı veya satır sonu bulunana kadar girişteki karakterleri biriktirmeye devam eder.
* STOP_AT_DELIMITER: Girişte sıralanmamış tırnak işaretleri bulunursa, değeri tırnak içine alınmamış bir değer olarak düşünün. Bu, ayrıştırıcının tarafından septanımlanan sınırlayıcı veya girişte bir satır sonu bulunana kadar tüm karakterleri birikmesini sağlar.
* SKIP_VALUE: Girişte ayarlanmamış tırnak işaretleri bulunursa, verilen değer için ayrıştırılan içerik atlanır (bir sonraki sınırlayıcı bulunana kadar) ve bunun yerine içinde nullValue ayarlanan değer oluşturulur.
* RAISE_ERROR: Girişte ayarlanmamış tırnak işaretleri bulunursa,
TextParsingException atılır.

Varsayılan değer: STOP_AT_DELIMITER

XML Seçenekler

Seçenek Açıklama Scope
rowTag Satır olarak ele almak için XML dosyalarının satır etiketi. Örnek XML'de <books> <book><book>...<books>, uygun değer şeklindedir book. Bu gerekli bir seçenektir. okuma
samplingRatio Şema çıkarımı için kullanılan satırların bir bölümünü tanımlar. XML yerleşik işlevleri bu seçeneği yoksayar. Varsayılan: 1.0. okuma
excludeAttribute Öğelerdeki özniteliklerin dışlanıp dışlanmaymayacağı. Varsayılan: false. okuma
mode Ayrıştırma sırasında bozuk kayıtlarla ilgilenme modu.

PERMISSIVE: Bozuk kayıtlar için, hatalı biçimlendirilmiş dizeyi tarafından columnNameOfCorruptRecordyapılandırılan bir alana yerleştirir ve hatalı biçimlendirilmiş alanları olarak nullayarlar. Bozuk kayıtları tutmak için, kullanıcı tanımlı şemada string adlı columnNameOfCorruptRecord bir tür alanı ayarlayabilirsiniz. Bir şemada alan yoksa, ayrıştırma sırasında bozuk kayıtlar bırakılır. Bir şema çıkarıldığında, ayrıştırıcı bir çıkış şemasına örtük olarak bir columnNameOfCorruptRecord alan ekler.

DROPMALFORMED: Bozuk kayıtları yoksayar. Bu mod, XML yerleşik işlevleri için desteklenmez.

FAILFAST: Ayrıştırıcı bozuk kayıtları karşıladığında bir özel durum oluşturur.
okuma
inferSchema ise true, sonuçta elde edilen her DataFrame sütunu için uygun bir tür çıkarsamaya çalışır. ise false, elde edilen tüm sütunlar türündedir string . Varsayılan:
true. XML yerleşik işlevleri bu seçeneği yoksayar.
okuma
columnNameOfCorruptRecord Tarafından oluşturulan hatalı biçimlendirilmiş bir dize içeren yeni alanın yeniden adlandırılmasına izin verir
PERMISSIVE Modu. Varsayılan: spark.sql.columnNameOfCorruptRecord.
okuma
attributePrefix Öznitelikleri öğelerden ayırt etmek için özniteliklere yönelik ön ek. Bu, alan adları için ön ek olacaktır. Varsayılan _ değeridir. XML okumak için boş olabilir, ancak yazmak için boş olamaz. okuma, yazma
valueTag Öznitelikleri veya alt öğeleri de olan öğelerdeki karakter verileri için kullanılan etiket. Kullanıcı, şemadaki alanı belirtebilir valueTag veya karakter verileri diğer öğelere veya özniteliklere sahip öğelerde mevcut olduğunda şema çıkarımı sırasında otomatik olarak eklenir. Varsayılan: _VALUE okuma,yazma
encoding Okuma için XML dosyalarını verilen kodlama türüne göre çözer. Yazmak için, kaydedilen XML dosyalarının kodlamasını (karakter kümesi) belirtir. XML yerleşik işlevleri bu seçeneği yoksayar. Varsayılan: UTF-8. okuma, yazma
ignoreSurroundingSpaces Okunan değerlerdeki çevresindeki boşlukların atlanıp atlanmayacağını tanımlar. Varsayılan: true. Yalnızca boşluk karakter verileri yoksayılır. okuma
rowValidationXSDPath Her satırın XML'sini ayrı ayrı doğrulamak için kullanılan isteğe bağlı bir XSD dosyasının yolu. Doğrulanemeyen satırlar yukarıdaki gibi ayrıştırma hataları olarak değerlendirilir. XSD, sağlanan veya çıkarılmış şemayı başka bir şekilde etkilemez. okuma
ignoreNamespace XML öğeleri ve özniteliklerindeki ad alanlarının ön ekleri yoksayılırsa true. Etiketler <abc:author> ve <def:author>, örneğin, her ikisi de yalnızca <author>olarak değerlendirilir. Ad alanları öğede rowTag yoksayılamaz, yalnızca okuma alt öğeleridir. XML ayrıştırma, olsa falsebile ad alanı tanımaz. Varsayılan: false. okuma
timestampFormat Tarih saat deseni biçimini izleyen özel zaman damgası biçim dizesi. Bu tür için timestamp geçerlidir. Varsayılan: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]. okuma, yazma
timestampNTZFormat Tarih saat deseni biçimini izleyen saat dilimi olmayan zaman damgası için özel biçim dizesi. Bu, TimestampNTZType türü için geçerlidir. Varsayılan:
yyyy-MM-dd'T'HH:mm:ss[.SSS]
okuma, yazma
dateFormat Tarih saat deseni biçimini izleyen özel tarih biçimi dizesi. Bu, tarih türü için geçerlidir. Varsayılan: yyyy-MM-dd. okuma, yazma
locale Yerel ayarı IETF BCP 47 biçiminde bir dil etiketi olarak ayarlar. Örneğin, locale tarihler ve zaman damgaları ayrıştırılırken kullanılır. Varsayılan: en-US. okuma
rootTag XML dosyalarının kök etiketi. Örneğin, içinde <books> <book><book>...</books>uygun değer şeklindedir books. gibi books foo="bar"bir değer belirterek temel öznitelikler ekleyebilirsiniz. Varsayılan: ROWS. yazma
declaration Her çıktı XML dosyasının başında, öncesinde yazacak XML bildiriminin rootTagiçeriği. Örneğin, bir değeri foo yazılması için nedenler <?xml foo?> . Gizlenecek boş bir dizeye ayarlayın. Varsayılan: version="1.0"
encoding="UTF-8" standalone="yes".
yazma
arrayElementName Yazarken dizi değerli bir sütunun her öğesini kapsayan XML öğesinin adı. Varsayılan: item. yazma
nullValue Null değerin dize gösterimini ayarlar. Varsayılan: dize null. Bu olduğunda null, ayrıştırıcı alanlar için öznitelikler ve öğeler yazmaz. okuma, yazma
compression Dosyaya kaydederken kullanılacak sıkıştırma kodu. Bu, bilinen büyük/küçük harfe duyarlı olmayan kısaltılmış adlardan biri olabilir (none, bzip2, gzip,lz4, snappy', and<br>deflate'). XML yerleşik işlevleri bu seçeneği yoksayar. Varsayılan: none. yazma
validateName True ise, XML öğesi adı doğrulama hatasında bir hata oluşturur. Örneğin, SQL alan adlarının boşlukları olabilir, ancak XML öğesi adları olamaz. Varsayılan:
true.
yazma
readerCaseSensitive rescuedDataColumn etkinleştirildiğinde büyük/küçük harf duyarlılığı davranışını belirtir. True ise, adları şemadan büyük/küçük harfe göre farklılık gösteren veri sütunlarını kurtarın; aksi takdirde, verileri büyük/küçük harfe duyarlı olmayan bir şekilde okuyun. Varsayılan: true. okuma
rescuedDataColumn Veri türü uyuşmazlığı ve şema uyuşmazlığı (sütun büyük/küçük harf dahil) nedeniyle ayrıştırılmayan tüm verilerin ayrı bir sütuna toplanıp toplanmayacağı. Bu sütun, Otomatik Yükleyici kullanılırken varsayılan olarak eklenir. Daha fazla ayrıntı için bkz . Kurtarılan veri sütunu nedir?. Varsayılan: Yok. okuma

PARQUET Seçenekler

Seçenek
datetimeRebaseMode

Tür: String

Julian ve Proleptik Gregoryen takvimler arasında TARİh ve ZAMAN DAMGASI değerlerinin yeniden boyutlandırmasını denetler. İzin verilen değerler: EXCEPTION, LEGACYve
CORRECTED.

Varsayılan değer: LEGACY
int96RebaseMode

Tür: String

Julian ve Proleptik Gregoryen takvimler arasında INT96 zaman damgası değerlerinin yeniden bağlanmasını denetler. İzin verilen değerler: EXCEPTION, LEGACYve
CORRECTED.

Varsayılan değer: LEGACY
mergeSchema

Tür: Boolean

Şemanın birden çok dosya arasında çıkarılıp çıkarılmayacağı ve her dosyanın şemasının birleştirilip birleştirmeyeceği.

Varsayılan değer: false
readerCaseSensitive

Tür: Boolean

Etkinleştirildiğinde rescuedDataColumn büyük/küçük harf duyarlılığı davranışını belirtir. True ise, adları şemadan büyük/küçük harfe göre farklılık gösteren veri sütunlarını kurtarın; aksi takdirde, verileri büyük/küçük harfe duyarlı olmayan bir şekilde okuyun.

Varsayılan değer: true
rescuedDataColumn

Tür: String

Veri türü uyuşmazlığı ve şema uyuşmazlığı (sütun büyük/küçük harf dahil) nedeniyle ayrıştırılmayan tüm verilerin ayrı bir sütuna toplanıp toplanmayacağı. Bu sütun, Otomatik Yükleyici kullanılırken varsayılan olarak eklenir. Daha fazla ayrıntı için kurtarılan veri sütunu nedir? konusuna bakın.

Varsayılan değer: Yok

AVRO Seçenekler

Seçenek
avroSchema

Tür: String

Kullanıcı tarafından Avro biçiminde sağlanan isteğe bağlı şema. Avro okunurken bu seçenek, gerçek Avro şemasıyla uyumlu ancak farklı olan gelişmiş bir şemaya ayarlanabilir. Seri durumdan çıkarma şeması, geliştirilen şemayla tutarlı olacaktır. Örneğin, varsayılan değere sahip bir ek sütun içeren gelişmiş bir şema ayarlarsanız, okuma sonucu yeni sütunu da içerir.

Varsayılan değer: Yok
datetimeRebaseMode

Tür: String

Julian ve Proleptik Gregoryen takvimler arasında TARİh ve ZAMAN DAMGASI değerlerinin yeniden boyutlandırmasını denetler. İzin verilen değerler: EXCEPTION, LEGACYve
CORRECTED.

Varsayılan değer: LEGACY
mergeSchema

Tür: Boolean

Şemanın birden çok dosya arasında çıkarılıp çıkarılmayacağı ve her dosyanın şemasının birleştirilip birleştirmeyeceği.
mergeSchema avro için veri türlerini gevşetmiyor.

Varsayılan değer: false
readerCaseSensitive

Tür: Boolean

Etkinleştirildiğinde rescuedDataColumn büyük/küçük harf duyarlılığı davranışını belirtir. True ise, adları şemadan büyük/küçük harfe göre farklılık gösteren veri sütunlarını kurtarın; aksi takdirde, verileri büyük/küçük harfe duyarlı olmayan bir şekilde okuyun.

Varsayılan değer: true
rescuedDataColumn

Tür: String

Veri türü uyuşmazlığı ve şema uyuşmazlığı (sütun büyük/küçük harf dahil) nedeniyle ayrıştırılmayan tüm verilerin ayrı bir sütuna toplanıp toplanmayacağı. Bu sütun, Otomatik Yükleyici kullanılırken varsayılan olarak eklenir. Daha fazla ayrıntı için kurtarılan veri sütunu nedir? konusuna bakın.

Varsayılan değer: Yok

BINARYFILE Seçenekler

İkili dosyalar ek yapılandırma seçeneklerine sahip değildir.

TEXT Seçenekler

Seçenek
encoding

Tür: String

METNEÇEVİr dosyalarının kodlama adı. Seçeneklerin listesi için bkz java.nio.charset.Charset .

Varsayılan değer: UTF-8
lineSep

Tür: String

Ardışık iki METNEÇEVİr kaydı arasındaki dize.

Varsayılan değer: Yok, ve'yi \r\n kapsar \r\n
wholeText

Tür: Boolean

Bir dosyanın tek bir kayıt olarak okunup okunmayacağı.

Varsayılan değer: false

ORC Seçenekler

Seçenek
mergeSchema

Tür: Boolean

Şemanın birden çok dosya arasında çıkarılıp çıkarılmayacağı ve her dosyanın şemasının birleştirilip birleştirmeyeceği.

Varsayılan değer: false

Buluta özgü seçenekler

Otomatik Yükleyici, bulut altyapısını yapılandırmak için çeşitli seçenekler sağlar.

AWS'ye özgü seçenekler

Aşağıdaki seçeneği yalnızca siz seçerseniz cloudFiles.useNotifications = true ve Otomatik Yükleyici'nin bildirim hizmetlerini sizin için ayarlamasını istiyorsanız sağlayın:

Seçenek
cloudFiles.region

Tür: String

Kaynak S3 demetinin bulunduğu ve AWS SNS ve SQS hizmetlerinin oluşturulacağı bölge.

Varsayılan değer: EC2 örneğinin bölgesi.

Aşağıdaki seçeneği yalnızca otomatik cloudFiles.useNotifications = true yükleyicinin önceden ayarlamış olduğunuz bir kuyruğu kullanmasını istiyorsanız belirtin:

Seçenek
cloudFiles.queueUrl

Tür: String

SQS kuyruğunun URL'si. Sağlanırsa, Otomatik Yükleyici kendi AWS SNS ve SQS hizmetlerini ayarlamak yerine bu kuyruktan gelen olayları doğrudan kullanır.

Varsayılan değer: Yok

IAM rolleri kullanılamadığında veya farklı bulutlardan veri alırken AWS SNS ve SQS'ye erişmek için kimlik bilgileri sağlamak için aşağıdaki seçenekleri kullanabilirsiniz.

Seçenek
cloudFiles.awsAccessKey

Tür: String

Kullanıcının AWS erişim anahtarı kimliği. Ile birlikte sağlanmalıdır
cloudFiles.awsSecretKey.

Varsayılan değer: Yok
cloudFiles.awsSecretKey

Tür: String

Kullanıcının AWS gizli erişim anahtarı. Ile birlikte sağlanmalıdır
cloudFiles.awsAccessKey.

Varsayılan değer: Yok
cloudFiles.roleArn

Tür: String

Varsaymak için bir IAM rolünün ARN'sini. Rol, kümenizin örnek profilinden veya ile kimlik bilgileri sağlanarak varsayılabilir
cloudFiles.awsAccessKey ve cloudFiles.awsSecretKey.

Varsayılan değer: Yok
cloudFiles.roleExternalId

Tür: String

kullanarak cloudFiles.roleArnbir rol varsayılırken sağlayabilecek bir tanımlayıcı.

Varsayılan değer: Yok
cloudFiles.roleSessionName

Tür: String

Bir rolün kullanıldığı varsayılırken kullanılacak isteğe bağlı oturum adı
cloudFiles.roleArn.

Varsayılan değer: Yok
cloudFiles.stsEndpoint

Tür: String

kullanarak cloudFiles.roleArnbir rol varsayılırken AWS STS'ye erişim sağlamak için isteğe bağlı bir uç nokta.

Varsayılan değer: Yok

Azure'a özgü seçenekler

Belirttiğinizde ve Otomatik Yükleyici'nin bildirim hizmetlerini sizin için ayarlamasını istiyorsanız aşağıdaki seçeneklerin cloudFiles.useNotifications = true tümü için değerler sağlamanız gerekir:

Seçenek
cloudFiles.clientId

Tür: String

Hizmet sorumlusunun istemci kimliği veya uygulama kimliği.

Varsayılan değer: Yok
cloudFiles.clientSecret

Tür: String

Hizmet sorumlusunun istemci gizli dizisi.

Varsayılan değer: Yok
cloudFiles.connectionString

Tür: String

Hesap erişim anahtarına veya paylaşılan erişim imzasını (SAS) temel alan depolama hesabının bağlantı dizesi.

Varsayılan değer: Yok
cloudFiles.resourceGroup

Tür: String

Depolama hesabının oluşturulduğu Azure Kaynak Grubu.

Varsayılan değer: Yok
cloudFiles.subscriptionId

Tür: String

Kaynak grubunun oluşturulduğu Azure Abonelik Kimliği.

Varsayılan değer: Yok
cloudFiles.tenantId

Tür: String

Hizmet sorumlusunun oluşturulduğu Azure Kiracı Kimliği.

Varsayılan değer: Yok

Önemli

Otomatik bildirim kurulumu, Databricks Runtime 9.1 ve sonraki sürümleriyle Azure Çin ve Kamu bölgelerinde kullanılabilir. Eski DBR sürümleri için bu bölgelerdeki dosya bildirimleriyle Otomatik Yükleyici'yi kullanmak için bir queueName sağlamanız gerekir.

Aşağıdaki seçeneği yalnızca otomatik cloudFiles.useNotifications = true yükleyicinin önceden ayarlamış olduğunuz bir kuyruğu kullanmasını istiyorsanız belirtin:

Seçenek
cloudFiles.queueName

Tür: String

Azure kuyruğunun adı. Sağlanırsa, bulut dosyaları kaynağı kendi Azure Event Grid ve Kuyruk Depolama hizmetlerini ayarlamak yerine doğrudan bu kuyruktan olayları kullanır. Bu durumda, sizin cloudFiles.connectionString için kuyrukta yalnızca okuma izinleri gerekir.

Varsayılan değer: Yok

Google'a özgü seçenekler

Otomatik Yükleyici, Google Hizmet Hesaplarından yararlanarak bildirim hizmetlerini sizin için otomatik olarak ayarlayabilir. Google hizmet kurulumunu izleyerek kümenizi bir hizmet hesabı varsayacak şekilde yapılandırabilirsiniz. Hizmet hesabınızın ihtiyaç duyduğu izinler Otomatik Yükleyici dosya bildirim modu nedir? bölümünde belirtilir. Aksi takdirde, Otomatik Yükleyici'nin bildirim hizmetlerini sizin için ayarlamasını istiyorsanız kimlik doğrulaması için aşağıdaki seçenekleri sağlayabilirsiniz.

Seçenek
cloudFiles.client

Tür: String

Google Hizmet Hesabının istemci kimliği.

Varsayılan değer: Yok
cloudFiles.clientEmail

Tür: String

Google Hizmet Hesabının e-posta adresi.

Varsayılan değer: Yok
cloudFiles.privateKey

Tür: String

Google Hizmet Hesabı için oluşturulan özel anahtar.

Varsayılan değer: Yok
cloudFiles.privateKeyId

Tür: String

Google Hizmet Hesabı için oluşturulan özel anahtarın kimliği.

Varsayılan değer: Yok
cloudFiles.projectId

Tür: String

GCS demetinin bulunduğu projenin kimliği. Google Cloud Pub/Sub aboneliği de bu proje içinde oluşturulacaktır.

Varsayılan değer: Yok

Aşağıdaki seçeneği yalnızca otomatik cloudFiles.useNotifications = true yükleyicinin önceden ayarlamış olduğunuz bir kuyruğu kullanmasını istiyorsanız belirtin:

Seçenek
cloudFiles.subscription

Tür: String

Google Cloud Pub/Sub aboneliğinin adı. Sağlanırsa, bulut dosyaları kaynağı kendi GCS Bildirimini ve Google Cloud Pub/Sub hizmetlerini ayarlamak yerine bu kuyruktan gelen olayları kullanır.

Varsayılan değer: Yok