Etkileşimli veri inceleme

Birçok kurumsal iş zekası (BI) çözümlerinde, raporlar ve anlam modelleri bı uzmanları tarafından oluşturulur ve merkezi olarak yönetilir. Ancak kuruluşlar, kullanıcıların veri odaklı kararlar vermesini sağlamak istiyor. Ayrıca, artan sayıda kuruluş veri bilimcilerini veya veri analistlerini, verileri etkileşimli olarak keşfetmeye ve verilerdeki eğilimleri ve desenleri bulmak için istatistiksel modeller ve analitik teknikler uygulamaya yönelik olarak işledir. Etkileşimli veri araştırması, geçici sorgular ve veri görselleştirmeleri için düşük gecikmeli işleme sağlayan araçlar ve platformlar gerektirir.

Etkileşimli veri inceleme

Self servis BI

Self servis BI, kullanıcıların kurumsal bir genelindeki verileri bulma, bulma ve bu verilerden paylaşma konusunda bilgi edinmesine yönelik modern bir yaklaşım için sunulan bir addır. Bunu gerçekleştirmek için, veri çözümünün çeşitli gereksinimleri desteklemesi gerekir:

  • Veri Kataloğu aracılığıyla iş verileri kaynaklarını bulma.
  • Veri varlık tanımlarının ve değerlerinin tutarlılığını sağlamak için ana veri yönetimi.
  • İş kullanıcıları için etkileşimli veri modelleme ve görselleştirme araçları.

Bir self servis BI çözümünde, iş kullanıcıları genellikle kendi iş alanı ile ilgili olan veri kaynaklarını bulur ve kullanır ve kişisel veri modellerini ve iş arkadaşlarınızla paylaşabileceği raporları tanımlamak için sezgisel araçlar ve üretkenlik uygulamaları kullanır.

İlgili Azure hizmetleri:

Veri bilimi deneme

Bir kuruluş gelişmiş analiz ve tahmine dayalı modelleme gerektirdiğinde, ilk hazırlık işi genellikle uzman veri bilimcileri tarafından alınır. Veri bilimcı verileri araştırır ve veri özellikleri ile istenen tahmin edilen Etiketlerarasındaki ilişkileri bulmak için istatistiksel analitik teknikler uygular. Veri araştırması, genellikle, istatistiksel modelleme ve görselleştirmeyi yerel olarak destekleyen Python veya R gibi programlama dilleri kullanılarak yapılır. Verileri araştırmak için kullanılan betikler genellikle Jupyıter Not defterleri gibi özel ortamlarda barındırılır. Bu araçlar, veri bilimcilerinin, kullandıkları öngörüleri belgeleme ve paylaşma sırasında verileri programlı bir şekilde araştırmasını sağlar.

İlgili Azure hizmetleri:

Zorluklar

  • Veri gizliliği uyumluluğu. Self Servis analiz ve raporlama için kişisel verileri kullanıcılara açık hale getirme konusunda dikkatli olmanız gerekir. Kuruluş ilkeleri ve ayrıca yasal sorunlar nedeniyle uyumluluk değerlendirmeleri olabilir.

  • Veri hacmi. kullanıcılara tam veri kaynağına erişim sağlamak yararlı olsa da, çok fazla sayıda küme kaynağı kullanan çok uzun süreli Excel veya Power BI işlemlerine veya Spark SQL sorgularına yol açabilir.

  • Kullanıcı bilgisi. Kullanıcılar, iş kararlarını bilgilendirmek için kendi sorgularını ve toplamaları oluşturur. Kullanıcıların doğru sonuçları almak için gerekli analitik ve sorgulama becerileri olduğundan emin misiniz?

  • Sonuçlar paylaşılıyor. Kullanıcıların rapor veya veri görselleştirmeleri oluşturup paylaşabileceği konusunda güvenlik konuları olabilir.

Mimari

Bu senaryonun amacı etkileşimli veri analizini desteklemek olsa da, veri bilimi ile ilgili veri temizleme, örnekleme ve yapılandırma görevleri genellikle uzun süreli süreçler içerir. Bu, toplu işleme mimarisini uygun hale getirir.

Teknoloji seçimleri

Aşağıdaki teknolojiler, Azure 'da etkileşimli veri araştırması için önerilen seçimlerdir.

Veri depolama

  • Azure Depolama Blobu kapsayıcılar veya Azure Data Lake Store. Veri bilimcileri genellikle ham kaynak verileriyle birlikte çalışarak, tüm olası özelliklere, aykırı özelliklere ve verilerdeki hatalara erişebildiklerinden emin olabilir. Büyük bir veri senaryosunda, bu veriler genellikle bir veri deposundaki dosya biçimini alır.

Daha fazla bilgi için bkz. veri depolama.

Toplu işlem

  • R Server veya Spark. Çoğu veri bilimcileri, programlama dillerini R veya Python gibi matematik ve istatistiksel paketlere yönelik güçlü destek ile kullanır. Büyük hacimde verilerle çalışırken, bu dillerin dağıtılmış işlemeyi kullanmasını sağlayan platformları kullanarak gecikme süresini azaltabilirsiniz. R Server, R işleme işlevlerinin ölçeğini genişletmek için kendi veya Spark ile birlikte kullanılabilir ve Spark, bu dilin benzer ölçek genişletme özellikleri için Python 'u yerel olarak destekler.
  • Hive. Hive SQL benzeme semantiği kullanarak verileri dönüştürmek için iyi bir seçimdir. Kullanıcılar HiveQL deyimlerini kullanarak tablo oluşturabilir ve yükleyebilir, bu, SQL anlam ifade edebilir.

Daha fazla bilgi için bkz. Batch işleme.

Analitik veri deposu

  • Spark SQL. spark SQL, SQL söz dizimi kullanılarak sorgulanabilen veri çerçevelerinin ve tabloların oluşturulmasını destekleyen spark üzerinde oluşturulmuş bir apı 'dir. analiz edilecek veri dosyalarının ham kaynak dosyaları ya da bir toplu işlem tarafından temizlenen ve hazırlanan yeni dosyalar olup olmamasına bakılmaksızın, kullanıcılar bir analizi daha fazla sorgulamak için Spark SQL tabloları tanımlayabilir.

  • Hive. Hive kullanarak ham verilerin toplu olarak işlenmesine ek olarak, verilerin depolandığı klasörlere göre Hive tabloları ve görünümleri içeren bir Hive veritabanı oluşturabilirsiniz. bu sayede, analiz ve raporlama için etkileşimli sorgular etkinleştiriliyor. HDInsight, Hive sorgusu yanıt sürelerini azaltmak için bellek içi önbelleğe alma kullanan etkileşimli bir Hive kümesi türü içerir. SQL benzeri sözdizimi konusunda rahat olan kullanıcılar verileri araştırmak için etkileşimli Hive kullanabilir.

Daha fazla bilgi için bkz. analitik veri depoları.

Analiz ve raporlama

  • Jupyıter. Jupi Not defterleri, kod çalıştırmak için R, Python veya Scala gibi dillerde tarayıcı tabanlı bir arabirim sağlar. veri işlemek için R Server veya spark kullanırken veya sorgulama için bir tablo şeması tanımlamak üzere spark SQL kullanılırken, juprivter verileri sorgulamak için iyi bir seçenek olabilir. spark kullanırken, verileri sorgulamak ve görselleştirmeler üretmek için standart spark dataframe apı 'sini veya Spark SQL apı 'sini ve katıştırılmış SQL deyimlerini kullanabilirsiniz.

  • Detaya git. geçici veri araştırması gerçekleştirmek istiyorsanız Apache detaylaması , şema içermeyen bir SQL sorgu altyapısıdır. Bir şema gerektirmediğinden, çeşitli veri kaynaklarından veri sorgulayabilirsiniz ve motor verilerin yapısını otomatik olarak anlayacaktır. azure blob Depolama eklentisinikullanarak azure blob Depolama ile detaya gitmeyi kullanabilirsiniz. bu, verileri taşımak zorunda kalmadan Blob Depolama veriye karşı sorgu çalıştırmanızı sağlar.

  • Etkileşimli Hive istemcileri. verileri sorgulamak için etkileşimli bir Hive kümesi kullanıyorsanız, hive kümesi panosu, beeline komut satırı aracı veya Microsoft Excel ya da Power BI gibi herhangi bir odbc tabanlı aracı (hive odbc sürücüsü kullanarak) kullanabilirsiniz.

Daha fazla bilgi için bkz. veri analizi ve raporlama teknolojisi.