Senaryoları ve gelişmiş analiz verileri işleme planını tanımla
Bir veri kümesinde gelişmiş analiz işleme gerçekleştirebilen bir ortam oluşturmak için hangi kaynaklar gereklidir? Bu makalede, senaryolarınızla ilgili görevleri ve kaynakları belirlemenize yardımcı olabilecek bir dizi soru önerisinde bulunulur.
Tahmine dayalı analizler için üst düzey adımların sırası hakkında bilgi edinmek için bkz. Team Data Science süreci nedir (TDSP). Her adım, belirli senaryolarınızla ilgili görevler için belirli kaynaklar gerektirir.
Senaryonuzu tanımlamak için aşağıdaki alanlardaki önemli soruları yanıtlayın:
- veri lojistik
- veri özellikleri
- veri kümesi kalitesi
- tercih edilen araçlar ve diller
Lojistik soruları: veri konumları ve taşıma
Lojistik soruları aşağıdaki öğeleri kapsar:
- veri kaynağı konumu
- Azure 'da hedef hedef
- zamanlama, miktar ve dahil edilen kaynaklar dahil olmak üzere verileri taşıma gereksinimleri
Analiz işlemi sırasında verileri birkaç kez taşımanız gerekebilir. yaygın bir senaryo, yerel verileri Azure 'daki bir depolama formuna ve sonra Machine Learning Studio 'ya taşımadır.
Veri kaynağınız nedir?
Verileriniz yerel mi yoksa bulutta mı? Olası konumlar şunlardır:
- genel kullanıma açık bir HTTP adresi
- Yerel veya ağ dosya konumu
- bir SQL Server veritabanı
- Azure Depolama kapsayıcısı
Azure hedefi nedir?
Verilerinizin işlenmek veya modellemesi için nerede olması gerekir?
- Azure Blob Depolama
- SQL Azure veritabanları
- Azure Sanal Makinesi üzerinde SQL Server
- HDInsight (Azure 'da Hadoop) veya Hive tabloları
- Azure Machine Learning
- Takılamaz Azure sanal sabit diskleri
Verileri nasıl taşıyacağınız?
Çeşitli farklı depolama ve işleme ortamlarına veri almak veya bunları yüklemek için yordamlar ve kaynaklar için, bkz.:
- Analiz için depolama ortamlarına veri yükleme
- eğitim verilerinizi çeşitli veri kaynaklarından Machine Learning Studio 'ya (klasik) aktarın
Verilerin düzenli bir zamanlamaya göre taşınması veya geçiş sırasında değiştirilmesi gerekiyor mu?
Verilerin sürekli geçirilmesi gerektiğinde Azure Data Factory (ADF) kullanmayı düşünün. ADF şu şekilde yararlı olabilir:
- hem şirket içi hem de bulut kaynaklarını içeren karma bir senaryo
- geçiş sırasında verilerin işlenen, değiştirildiği veya iş mantığı tarafından değiştirildiği bir senaryo
daha fazla bilgi için bkz. Azure Data Factory ile SQL Azure SQL Server veritabanından verileri taşıma.
Verilerin ne kadarını Azure 'a taşınacak?
Büyük veri kümeleri belirli ortamların depolama kapasitesini aşabilir. bir örnek için, sonraki bölümde Machine Learning Studio (klasik) için boyut sınırları tartışmalarına bakın. Bu gibi durumlarda, analiz sırasında verilerin bir örneğini kullanabilirsiniz. Çeşitli Azure ortamlarında bir veri kümesinin nasıl azaltılabilen hakkında daha fazla bilgi için, bkz. takım veri bilimi Işlemindeki örnek veriler.
Veri özellikleri soruları: tür, biçim ve boyut
Bu sorular, depolama ve işleme ortamlarınızı planlamaya yönelik bir anahtarlardır. Veri türü için uygun senaryoyu seçmenize ve tüm kısıtlamaları anlamanıza yardımcı olur.
Veri türleri nelerdir?
- Sayısal
- Kategorik
- Dizeler
- İkili
Verileriniz nasıl biçimlendirilir?
- Virgülle ayrılmış (CSV) veya sekmeyle ayrılmış (TSV) düz dosyalar
- Sıkıştırılmış veya sıkıştırılmamış
- Azure blobları
- Hadoop Hive tabloları
- SQL Server tabloları
Verileriniz ne kadar büyük?
- Küçük: 2 GB 'den az
- Orta: 2 GB 'den büyük ve 10 GB 'tan az
- Büyük: 10 GB 'tan büyük
örnek olarak Machine Learning Studio (klasik) ortamını alın:
- Machine Learning Studio (klasik) tarafından desteklenen veri biçimlerinin ve türlerinin bir listesi için bkz. veri biçimleri ve veri türleri destekleniyor bölümü.
- Analiz işleminde kullanılan diğer Azure hizmetlerinin sınırlamaları hakkında daha fazla bilgi için bkz. Azure aboneliği ve hizmet limitleri, Kotalar ve kısıtlamalar.
Veri kalitesi soruları: araştırma ve ön işleme
Verileriniz hakkında ne bilmeniz gerekir?
Verileriniz hakkındaki temel özellikleri anlayın:
- Hangi desenleri veya eğilimleri sergiler
- Ne kadar aykırı Özellikler
- Kaç değer eksik
Bu adım size yardımcı olmak için önemlidir:
- Ne kadar ön işleme gerekli olduğunu belirleme
- En uygun özellikleri veya analiz türünü öneren hipotezleri formül oluştur
- Ek veri toplama için planları formül oluştur
Veri incelemesi için faydalı teknikler, açıklayıcı istatistik hesaplama ve görselleştirme çizimleri içerir. Çeşitli Azure ortamlarında veri kümesini keşfetmeye ilişkin ayrıntılar için bkz. Team Data Science işleminde verileri araştırma.
Veriler ön işleme veya temizleme gerektiriyor mu?
Makine öğrenimi için veri kümesini etkin bir şekilde kullanabilmeniz için önce verilerinizi önceden işleyin ve temizlemeniz gerekebilir. Ham veriler genellikle gürültülü ve güvenilmez olur. Eksik değerler olabilir. Modelleme için bu tür verilerin kullanılması yanıltıcı sonuçlar verebilir. Bir açıklama için bkz. Gelişmiş makine öğrenimi için veri hazırlama görevleri.
Araçlar ve diller soruları
Diller, geliştirme ortamları ve araçlar için birçok seçenek vardır. Gereksinimlerinize ve tercihlerinize dikkat edin.
Analiz için hangi dilleri kullanacağınızı tercih ediyorsunuz?
- R
- Python
- SQL
Veri analizi için hangi araçları kullanmanız gerekir?
- Microsoft Azure PowerShell -bir betik dilinde Azure kaynaklarınızı yönetmek için kullanılan bir betik dili
- Azure Machine Learning Studio
- Devrimanalytics
- RStudio
- Visual Studio için Python Araçları
- Anaconda
- Jupyter not defterleri
- Microsoft Power BI
Gelişmiş analiz senaryonuzu tanımla
Önceki bölümde verilen soruları yanıtladıktan sonra, hangi senaryonun büyük/küçük harflere en uygun olduğunu tespit etmeye hazırsınızdır. Örnek senaryolar Azure Machine Learning gelişmiş analizler Için senaryolarbölümünde özetlenmiştir.