Farklı veri türlerini inceleme

Tamamlandı

Veriler, toplanan bilgiler için yalnızca bir diğer sözcükdür. Birçok farklı bilgi türünü kapsayan hacimler ve kullanılabilir bilgi yığınları çok büyüktür.

Verileri birçok şekilde kategorilere ayırabiliriz. Makine öğrenmesi alanında çalışmak için, kullanabileceğimiz verilerin türünü ve dijital depolama sistemlerini anlamamız gerekir.

Sürekli, sıralı ve kategorik veriler

Veri işlemleri için bazen verilerin tam olarak neyi temsil ettiği konusunda farkında olmamız gerekir. Bu farkındalık, doğru makine öğrenmesi modelini seçmemize yardımcı olabilir. Ayrıca verilerimizi belirli ve yararlı yollarla düzenlememize de yardımcı olabilir.

Sürekli veriler , herhangi bir miktar artırabilen veya azaltabilen sayısal bilgileri ifade eder. Örneğin, 1 metreye 1 milimetre ekleyebilir ve toplamı 1,001 metre olarak hesaplayabilirsiniz.

Kategorik veriler , sürekli bir spektruma düşmeyen verileri ifade eder. Senaryomuzda veriler Titanic'teki insanları "mürettebat" veya "yolcu" olarak kategorilere ayırıyor. Kategorik veriler açıkça belli bir şekilde sayı olarak depolanamaz.

Sıralı veriler , tanımlanmış bir düzene sahip olan ve dolayısıyla depolamayı sayısal değerler olarak destekleyebilecek kategorik verileri ifade eder. Örneğin, büyük, orta ve küçük değerlerini sıralı veriler olarak tanımlayabiliriz çünkü bunları sayısal olarak dereceleyebiliriz: büyük > orta > küçük. Buna karşılık elma, portakal ve hindistan cevizi değerleri kategoriktir çünkü bunları dereceleyemiyoruz. Sıralı veriler, artırabilen veya azaltabilen sayılara da başvurabilir, ancak yalnızca miktarları ayarlayabilir. Örneğin, tekneye binen kişi sayısının tamsayı olması garanti edilir: hiç kimse yarım binemez.

Kimlikler , her örneğin kendi benzersiz kimliğine sahip olduğu özel bir kategorik veri türüne başvurur. Örneğin, veri kümemizde, Titanic'teki her kişi, başka biriyle aynı ada sahip olsa bile belirli bir kimlik değerine sahiptir. Kimlik değerleri bir veri kümesinde gezinmemize yardımcı olur, ancak veri analizimiz bu değerleri doğrudan içermez.

Veri türleri

Bir bilgisayarın makine öğrenmesi için kullandığımız tüm verileri depolaması ve işlemesi gerekir. Kalemle bir kağıda neredeyse tüm verileri yazabiliyor olsak da bilgisayarlar bilgileri 0 ve 1 serisi olarak depolar. Bu, bilgileri kullanma şeklimizde kısıtlamalar uygular.

Veri türü , bir bilgisayarın depoduğu veri türünü ifade eder. Veri türleri genellikle şu kategorilere sahiptir:

  • tamsayılar: sayıları sayma: örneğin, 2
  • kayan noktalı sayılar: ondalık basamaklı sayılar: örneğin, 2,43
  • dizeler: harfler ve sözcükler
  • booleanlar: true ve false
  • Hiçbiri, geçersiz veya null: veri değil, veri yokluğu

Bu kavramlar için tam terimler ve uygulama, dilden dile farklılık gösterir, ancak hepsi tüm bilgisayar dillerinde benzer şekilde çalışır.

Bazen iki farklı veri türü eşdeğer işlevler sunar. Örneğin, bilgisayarlar true/false değerlerini Boolean (true veya false), dizeler ('y' veya 'n'), tamsayılar (0 veya 1) ve hatta kayan noktalı sayılar (0,0 veya 1,0) olarak işleyebilir.

Türetilmiş veri türleri

Teknolojiyi kullanırken, yukarıdaki listenin ötesinde çok daha temel, 'ilkel' veri türleriyle karşılaşıyoruz. Bilgisayarlar tarihleri, görüntüleri, 3B modelleri vb. depolayabilir. Bunları türetilmiş veri türleri olarak adlandırıyoruz. Türetilmiş bir veri türü oluşturmak için bir veya daha fazla temel veri türüyle başlayacağız.

Genellikle makine öğrenmesinde türetilmiş türleri daha basit gösterimlere dönüştürmeye yardımcı olur. Örneğin, tanımlı bir tarih değerini (örneğin, 1 Ocak 2017) tamsayı veya kayan noktalı sayı olarak depolayabiliriz: 20170101. Tamsayı veya kayan nokta sayıları modellerimizin arkasındaki hesaplamaları kolaylaştırır.

Çok fazla seçenek var mı?

Kullanabileceğiniz veri türlerini bilmek, doğru veri türünü seçmenize yardımcı olabilir.

Doğru veri türü, modellerinizi çalıştırmak için kullandığınız pakete bağlı olabilir, ancak genellikle paketler izin verilebilir. Genellikle:

  • Sürekli verilerle çalışmak için kayan nokta sayıları en iyi seçenek haline gelir.
  • Sıralı veriler genellikle tamsayı değerleriyle kodlanır.
  • Yalnızca iki kategori içeren kategorik veriler genellikle Boole veya tamsayı verileri olarak kodlanabilir. Üç veya daha fazla kategoriyle çalışmak biraz daha karmaşık hale gelebilir. Endişelenmeyin - bir sonraki ders bu konuyu ele alacaktır!

Sonraki alıştırmada, verilerin kendisini daha iyi anlamak için veri görselleştirme alıştırması yapacağız. Bunu yaptığımızda, ilgili veri türlerini dikkatle not edin ve sürekli, sıralı veya kategorik veri türlerini belirlemeye çalışın.