Data Lake’lerData lakes

Bir veri gölü, yerel, ham biçimde büyük miktarda veri içeren bir depolama depodur.A data lake is a storage repository that holds a large amount of data in its native, raw format. Data lake Store, terabayt ve hatta Petabayt boyutlarındaki veriler için ölçeklendirme için en iyi duruma getirilmiş.Data lake stores are optimized for scaling to terabytes and petabytes of data. Veriler genellikle birden fazla heterojen kaynaklardan gelen ve yapılandırılmış, yarı yapılandırılmış veya yapılandırılmamış olabilir.The data typically comes from multiple heterogeneous sources, and may be structured, semi-structured, or unstructured. Bir data lake ile her şey, özgün, dönüştürülmemiş durumunda depolamak için olur.The idea with a data lake is to store everything in its original, untransformed state. Bu yaklaşım geleneksel yönetimden farklı veri ambarı, dönüştüren ve alım zamanında verileri işler.This approach differs from a traditional data warehouse, which transforms and processes the data at the time of ingestion.

Bir veri gölü avantajları:Advantages of a data lake:

  • Veriler, ham biçimde saklandığından verileri çalıştırmayı, hiçbir zaman atılır.Data is never thrown away, because the data is stored in its raw format. Önceden verilerden Öngörüler kullanılabilen bilmeyebilir bu büyük veri ortamında, özellikle kullanışlıdır.This is especially useful in a big data environment, when you may not know in advance what insights are available from the data.
  • Kullanıcılar verileri keşfedin ve kendi sorgularını oluşturabilir.Users can explore the data and create their own queries.
  • Geleneksel ETL araçları hızlı olabilir.May be faster than traditional ETL tools.
  • Daha esnek bir veri ambarı, daha olduğundan, yapılandırılmamış ve yarı yapılandırılmış verileri depolayabilirsiniz.More flexible than a data warehouse, because it can store unstructured and semi-structured data.

Tüm data lake çözüm, hem depolama ve işleme oluşur.A complete data lake solution consists of both storage and processing. Data lake Store, hataya dayanıklı, sonsuz ölçeklenebilirlik ve yüksek aktarım hızı alma değişen şekil ve boyuttaki veri için tasarlanmıştır.Data lake storage is designed for fault-tolerance, infinite scalability, and high-throughput ingestion of data with varying shapes and sizes. Bir Data lake işleme içerir veya daha fazla işleme altyapıları ile bu hedefleri düşünerek oluşturulmuş ve uygun ölçekte bir veri gölü'nde depolanan veriler üzerinde çalışabilir.Data lake processing involves one or more processing engines built with these goals in mind, and can operate on data stored in a data lake at scale.

Ne zaman bir veri gölü kullanılır?When to use a data lake

Bir veri gölü tipik kullanımları şunlardır veri keşfi, veri analizi ve makine öğrenimi.Typical uses for a data lake include data exploration, data analytics, and machine learning.

Bir veri gölü veri ambarı veri kaynağı olarak da işlev görebilir.A data lake can also act as the data source for a data warehouse. Bu yaklaşımda, ham verileri data lake alınan ve ardından yapılandırılmış sorgulanabilir bir biçime dönüştürülür.With this approach, the raw data is ingested into the data lake and then transformed into a structured queryable format. Genellikle bu dönüştürme kullanan bir ELT (Ayıkla-yükle-Dönüştür) işlem hattı, verilerin toplanma ve yerinde dönüştürülür.Typically this transformation uses an ELT (extract-load-transform) pipeline, where the data is ingested and transformed in place. İlişkisel olan kaynak verileri doğrudan veri ambarına veri gölü atlanıyor bir ETL işlemi kullanılarak gidebilir.Source data that is already relational may go directly into the data warehouse, using an ETL process, skipping the data lake.

Data lake Store, büyük miktarda ilişkisel ve ilişkisel olmayan verileri, dönüştürme veya şema tanımı olmadan devam edebilir çünkü çoğunlukla olay akışı veya IOT senaryolarını kullanılır.Data lake stores are often used in event streaming or IoT scenarios, because they can persist large amounts of relational and nonrelational data without transformation or schema definition. Bunlar büyük hacimlerde küçük yazma işlemlerini düşük gecikmeyle gerçekleştirmek için tasarlanmıştır ve devasa işlem hacmi için optimize edilmiş.They are built to handle high volumes of small writes at low latency, and are optimized for massive throughput.

ZorluklarChallenges

  • Bir şema veya açıklayıcı meta verileri eksik veri kullanan veya sorgu zor hale getirebilirsiniz.Lack of a schema or descriptive metadata can make the data hard to consume or query.
  • Kullanıcılara veri analizi son derece Kalifiye sürece veri arasında anlamsal tutarlılığı eksikliği, veriler üzerinde analiz gerçekleştirmek için zorlu zorlaştırabilir.Lack of semantic consistency across the data can make it challenging to perform analysis on the data, unless users are highly skilled at data analytics.
  • Verileri göle giderek veri kalitesini sağlamak zor olabilir.It can be hard to guarantee the quality of the data going into the data lake.
  • Doğru yönetişim, erişim denetimi ve gizlilik konuları sorunları olabilir.Without proper governance, access control and privacy issues can be problems. Hangi bilgilerin erişebilen bu verileri, data lake ve hangi kullanımlar için geçiyor?What information is going into the data lake, who can access that data, and for what uses?
  • Bir data lake, ilişkisel olan verileri tümleştirmek için en iyi yolu olmayabilir.A data lake may not be the best way to integrate data that is already relational.
  • Tek başına bir veri gölü tümleşik ya da bütünsel görünümler kuruluş genelinde sağlamaz.By itself, a data lake does not provide integrated or holistic views across the organization.
  • Bir veri gölü, hiçbir zaman gerçekten analiz veya için ınsights İncelenmiş veriler için dökümü alınıyor bir zemin hale gelebilir.A data lake may become a dumping ground for data that is never actually analyzed or mined for insights.

İlgili Azure HizmetleriRelevant Azure services