Databricks lakehouse'a veri alma

Azure Databricks, Delta Lake destekli bir göl evinde veri almanıza yardımcı olmak için çeşitli yollar sunar. Databricks, bulut nesne depolama alanından artımlı veri alımı için Otomatik Yükleyici'nin kullanılmasını önerir. Veri ekleme kullanıcı arabirimi, yerel dosyaları hızlı bir şekilde karşıya yüklemek veya dış veri kaynaklarına bağlanmak için çeşitli seçenekler sağlar.

İlk ETL iş yükünüzü çalıştırma

Azure Databricks'te Otomatik Yükleyici'yi kullanmadıysanız bir öğreticiyle başlayın. Bkz. Azure Databricks'te ilk ETL iş yükünüzü çalıştırma.

Otomatik Yükleyici

Otomatik Yükleyici , ek kurulum olmadan bulut depolama alanına ulaşan yeni veri dosyalarını artımlı ve verimli bir şekilde işler. Otomatik Yükleyici adlı cloudFilesbir Yapılandırılmış Akış kaynağı sağlar. Bulut dosya depolaması üzerindeki bir giriş dizini yolu göz önüne alındığında, cloudFiles kaynak yeni dosyaları geldikçe otomatik olarak işler ve bu dizindeki mevcut dosyaları da işleme seçeneği vardır.

Delta Live Tabloları ve Otomatik Yükleyici ile ETL'yi otomatikleştirme

Otomatik Yükleyici ve Delta Live Tabloları ile ölçeklenebilir, artımlı alım altyapısının dağıtımını basitleştirebilirsiniz. Delta Live Tables'ın not defterlerinde bulunan standart etkileşimli yürütmeyi kullanmadığını, bunun yerine üretime hazır altyapı dağıtımını vurguladığını unutmayın.

Yerel veri dosyalarını karşıya yükleme veya dış veri kaynaklarını bağlama

Tablo oluşturmak için yerel veri dosyalarını güvenli bir şekilde karşıya yükleyebilir veya dış kaynaklardan veri alabilirsiniz. Bkz . Veri ekleme kullanıcı arabirimini kullanarak veri yükleme.

Üçüncü taraf araçlarını kullanarak Azure Databricks'e veri alma

Azure Databricks, Azure Databricks'e veri almanıza olanak tanıyan teknoloji iş ortağı tümleştirmelerini doğrular. Bu tümleştirmeler çeşitli kaynaklardan Azure Databricks'e düşük kodlu, ölçeklenebilir veri alımı sağlar. Bkz. Teknoloji iş ortakları. Bazı teknoloji iş ortakları, üçüncü taraf araçlarını lakehouse verilerinize bağlamayı kolaylaştıran bir kullanıcı arabirimi sağlayan Databricks İş Ortağı Bağlan'nde yer alır.

COPY INTO

COPY INTO , SQL kullanıcılarının bulut nesne depolamasından Delta tablolarına sürekli ve artımlı olarak veri almalarını sağlar. Databricks SQL, not defterleri ve Databricks İşlerinde kullanılabilir.

COPY INTO ne zaman kullanılır ve Otomatik Yükleyici ne zaman kullanılır?

Otomatik Yükleyici ile COPY INTOarasında seçim yaparken göz önünde bulundurmanız gereken birkaç şey şunlardır:

  • Dosyaları binler sırasına göre alacaksanız kullanabilirsiniz COPY INTO. Zaman içinde milyonlarca veya daha fazla sırada dosya bekliyorsanız Otomatik Yükleyici'yi kullanın. Otomatik Yükleyici, dosyaları bulmak için ile karşılaştırıldığında COPY INTO daha az toplam işlem gerektirir ve işlemeyi birden çok toplu işlemeye bölebilir; bu da Otomatik Yükleyici'nin uygun ölçekte daha düşük maliyetli ve daha verimli olduğu anlamına gelir.

  • Veri şemanız sık sık gelişecekse, Otomatik Yükleyici şema çıkarımı ve evrimi hakkında daha iyi temel bilgiler sağlar. Daha fazla ayrıntı için bkz . Otomatik Yükleyici'de şema çıkarımı ve evrimi yapılandırma.

  • Yeniden yüklenen dosyaların bir alt kümesini yüklemek ile COPY INTObiraz daha kolay yönetilebilir. Otomatik Yükleyici ile belirli bir dosya alt kümesini yeniden işlemek daha zordur. Ancak, otomatik yükleyici akışı aynı anda çalışırken dosyaların alt kümesini yeniden yüklemek için kullanabilirsiniz COPY INTO .

  • Daha da ölçeklenebilir ve sağlam bir dosya alımı deneyimi için Otomatik Yükleyici, SQL kullanıcılarının akış tablolarını kullanmasına olanak tanır. Bkz . Databricks SQL'de akış tablolarını kullanarak veri yükleme.

Otomatik Yükleyici'ye kısa bir genel bakış ve tanıtımının yanı COPY INTOsıra aşağıdaki YouTube videosunu (2 dakika) izleyin.

Veri alımı sırasında yakalanan dosya meta verilerini gözden geçirme

Apache Spark, veri yükleme sırasında kaynak dosyalar hakkındaki verileri otomatik olarak yakalar. Azure Databricks, Dosya meta verileri sütunuyla bu verilere erişmenizi sağlar.

Elektronik tablo dışarı aktarmalarını Azure Databricks'e yükleme

CSV, TSV veya JSON dosyalarını karşıya yüklemek için Dosya yükleme sayfasında tablo oluştur veya değiştir sayfasını kullanın. Bkz. Dosya yükleme kullanarak tablo oluşturma veya değiştirme.

Veri uygulamalarını Azure Databricks'e geçirme

Birçok kaynak sistemdeki verilerle tek bir platformda çalışabilmek için mevcut veri uygulamalarını Azure Databricks'e geçirin. Bkz. Veri uygulamalarını Azure Databricks'e geçirme.