Databricks lakehouse'a veri alma
Azure Databricks, Delta Lake destekli bir göl evinde veri almanıza yardımcı olmak için çeşitli yollar sunar. Databricks, bulut nesne depolama alanından artımlı veri alımı için Otomatik Yükleyici'nin kullanılmasını önerir. Veri ekleme kullanıcı arabirimi, yerel dosyaları hızlı bir şekilde karşıya yüklemek veya dış veri kaynaklarına bağlanmak için çeşitli seçenekler sağlar.
İlk ETL iş yükünüzü çalıştırma
Azure Databricks'te Otomatik Yükleyici'yi kullanmadıysanız bir öğreticiyle başlayın. Bkz. Azure Databricks'te ilk ETL iş yükünüzü çalıştırma.
Otomatik Yükleyici
Otomatik Yükleyici , ek kurulum olmadan bulut depolama alanına ulaşan yeni veri dosyalarını artımlı ve verimli bir şekilde işler. Otomatik Yükleyici adlı cloudFiles
bir Yapılandırılmış Akış kaynağı sağlar. Bulut dosya depolaması üzerindeki bir giriş dizini yolu göz önüne alındığında, cloudFiles
kaynak yeni dosyaları geldikçe otomatik olarak işler ve bu dizindeki mevcut dosyaları da işleme seçeneği vardır.
Delta Live Tabloları ve Otomatik Yükleyici ile ETL'yi otomatikleştirme
Otomatik Yükleyici ve Delta Live Tabloları ile ölçeklenebilir, artımlı alım altyapısının dağıtımını basitleştirebilirsiniz. Delta Live Tables'ın not defterlerinde bulunan standart etkileşimli yürütmeyi kullanmadığını, bunun yerine üretime hazır altyapı dağıtımını vurguladığını unutmayın.
Yerel veri dosyalarını karşıya yükleme veya dış veri kaynaklarını bağlama
Tablo oluşturmak için yerel veri dosyalarını güvenli bir şekilde karşıya yükleyebilir veya dış kaynaklardan veri alabilirsiniz. Bkz . Veri ekleme kullanıcı arabirimini kullanarak veri yükleme.
Üçüncü taraf araçlarını kullanarak Azure Databricks'e veri alma
Azure Databricks, Azure Databricks'e veri almanıza olanak tanıyan teknoloji iş ortağı tümleştirmelerini doğrular. Bu tümleştirmeler çeşitli kaynaklardan Azure Databricks'e düşük kodlu, ölçeklenebilir veri alımı sağlar. Bkz. Teknoloji iş ortakları. Bazı teknoloji iş ortakları, üçüncü taraf araçlarını lakehouse verilerinize bağlamayı kolaylaştıran bir kullanıcı arabirimi sağlayan Databricks İş Ortağı Bağlan'nde yer alır.
COPY INTO
COPY INTO , SQL kullanıcılarının bulut nesne depolamasından Delta tablolarına sürekli ve artımlı olarak veri almalarını sağlar. Databricks SQL, not defterleri ve Databricks İşlerinde kullanılabilir.
COPY INTO ne zaman kullanılır ve Otomatik Yükleyici ne zaman kullanılır?
Otomatik Yükleyici ile COPY INTO
arasında seçim yaparken göz önünde bulundurmanız gereken birkaç şey şunlardır:
Dosyaları binler sırasına göre alacaksanız kullanabilirsiniz
COPY INTO
. Zaman içinde milyonlarca veya daha fazla sırada dosya bekliyorsanız Otomatik Yükleyici'yi kullanın. Otomatik Yükleyici, dosyaları bulmak için ile karşılaştırıldığındaCOPY INTO
daha az toplam işlem gerektirir ve işlemeyi birden çok toplu işlemeye bölebilir; bu da Otomatik Yükleyici'nin uygun ölçekte daha düşük maliyetli ve daha verimli olduğu anlamına gelir.Veri şemanız sık sık gelişecekse, Otomatik Yükleyici şema çıkarımı ve evrimi hakkında daha iyi temel bilgiler sağlar. Daha fazla ayrıntı için bkz . Otomatik Yükleyici'de şema çıkarımı ve evrimi yapılandırma.
Yeniden yüklenen dosyaların bir alt kümesini yüklemek ile
COPY INTO
biraz daha kolay yönetilebilir. Otomatik Yükleyici ile belirli bir dosya alt kümesini yeniden işlemek daha zordur. Ancak, otomatik yükleyici akışı aynı anda çalışırken dosyaların alt kümesini yeniden yüklemek için kullanabilirsinizCOPY INTO
.Daha da ölçeklenebilir ve sağlam bir dosya alımı deneyimi için Otomatik Yükleyici, SQL kullanıcılarının akış tablolarını kullanmasına olanak tanır. Bkz . Databricks SQL'de akış tablolarını kullanarak veri yükleme.
Otomatik Yükleyici'ye kısa bir genel bakış ve tanıtımının yanı COPY INTO
sıra aşağıdaki YouTube videosunu (2 dakika) izleyin.
Veri alımı sırasında yakalanan dosya meta verilerini gözden geçirme
Apache Spark, veri yükleme sırasında kaynak dosyalar hakkındaki verileri otomatik olarak yakalar. Azure Databricks, Dosya meta verileri sütunuyla bu verilere erişmenizi sağlar.
Elektronik tablo dışarı aktarmalarını Azure Databricks'e yükleme
CSV, TSV veya JSON dosyalarını karşıya yüklemek için Dosya yükleme sayfasında tablo oluştur veya değiştir sayfasını kullanın. Bkz. Dosya yükleme kullanarak tablo oluşturma veya değiştirme.
Veri uygulamalarını Azure Databricks'e geçirme
Birçok kaynak sistemdeki verilerle tek bir platformda çalışabilmek için mevcut veri uygulamalarını Azure Databricks'e geçirin. Bkz. Veri uygulamalarını Azure Databricks'e geçirme.