Azure Databricks'te akış

Akış verileri için neredeyse gerçek zamanlı veri alımı, işleme, makine öğrenmesi ve yapay zeka için Azure Databricks'i kullanabilirsiniz.

Azure Databricks, akış ve artımlı işleme için çok sayıda iyileştirme sunar. Çoğu akış veya artımlı veri işleme veya ETL görevi için Databricks, Delta Live Tables'ı önerir. Bkz . Delta Live Tables nedir?.

Azure Databricks'te çoğu artımlı ve akış iş yükü, Delta Live Tabloları ve Otomatik Yükleyici de dahil olmak üzere Yapılandırılmış Akış tarafından desteklenir. Bkz. Otomatik Yükleyici nedir?.

Delta Lake ve Yapılandırılmış Akış, Databricks lakehouse'da artımlı işlemeye yönelik sıkı tümleştirmeye sahiptir. Bkz . Delta tablosu akış okuma ve yazma işlemleri.

Gerçek zamanlı model sunma için bkz . Azure Databricks ile model sunma.

Azure Databricks platformunda akış çözümleri oluşturma hakkında daha fazla bilgi edinmek için veri akışı ürün sayfasına bakın.

Azure Databricks, Avro, protokol arabellekleri ve JSON veri yüklerinde yer alan yarı yapılandırılmış veri alanlarıyla çalışmaya yönelik belirli özelliklere sahiptir. Daha fazla bilgi edinmek için şu makalelere bakın:

Yapılandırılmış Akış nedir?

Apache Spark Yapılandırılmış Akış, tanıdık Spark API'lerini kullanarak tam bir kez işleme garantileriyle uçtan uca hataya dayanıklılık sunan neredeyse gerçek zamanlı bir işleme altyapısıdır. Yapılandırılmış Akış, akış verileri üzerinde hesaplamayı statik verilerde toplu işlem ifade ettiğiniz gibi ifade etmenizi sağlar. Yapılandırılmış Akış altyapısı, hesaplamayı artımlı olarak gerçekleştirir ve akış verileri geldikçe sonucu sürekli güncelleştirir.

Yapılandırılmış Akış'ı yeni kullanıyorsanız bkz . İlk Yapılandırılmış Akış iş yükünüzü çalıştırma.

Unity Kataloğu ile Yapılandırılmış Akış kullanma hakkında bilgi için bkz . Unity Kataloğu'nu Yapılandırılmış Akış ile Kullanma.

Azure Databricks hangi akış kaynaklarını ve havuzları destekler?

Databricks, desteklenen dosya türlerini bulut nesne depolama alanından Delta Lake'e almak için Otomatik Yükleyici'nin kullanılmasını önerir. ETL işlem hatları için Databricks, Delta Live Tablolarının (Delta tabloları ve Yapılandırılmış Akış kullanan) kullanılmasını önerir. Artımlı ETL iş yüklerini Delta Lake tablolarına akışla aktararak da yapılandırabilirsiniz.

Yapılandırılmış Akış, Delta Lake ve Otomatik Yükleyici'ye ek olarak Apache Kafka gibi mesajlaşma hizmetlerine bağlanabilir.

Ayrıca foreachBatch kullanarak rastgele veri havuzlarına yazabilirsiniz.

Ek kaynaklar

Apache Spark, Yapılandırılmış Akış hakkında daha fazla bilgi içeren bir Yapılandırılmış Akış Programlama Kılavuzu sağlar.

Yapılandırılmış Akış hakkında başvuru bilgileri için Databricks aşağıdaki Apache Spark API başvurularını önerir: