Veri Madenciliğinde Sınıflandırma

Sınıflandırma, daha doğru tahminlere ve analizlere yardımcı olmak için kategorileri bir veri koleksiyonuna atayan bir veri madenciliği tekniğidir. Ayrıca, bazen bir Karar Ağacı olarak da adlandırılır, sınıflandırma, çok büyük veri kümelerinin analizini etkili kılacak çeşitli yöntemlerden biridir.

Neden Sınıflandırma?

Günümüzün "büyük veri" dünyasında çok büyük veritabanları norm haline geliyor. Birden fazla terabayt veri içeren bir veritabanı düşünün; terabyte bir trilyon bayt veridir.

Facebook tek başına her gün 600 terabayt yeni veriyi sundu (2014'ten bu yana, bu özellikleri bildirdiği son kez). Büyük verinin temel sorunu, bunun nasıl anlaşılacağıdır.

Ve büyük hacim tek sorun değil: büyük veri de farklı, yapılandırılmamış ve hızlı değişen olma eğilimindedir. Ses ve video verilerini, sosyal medya gönderilerini, 3D verilerini veya coğrafi verileri göz önünde bulundurun. Bu tür veriler kolayca kategorize edilmez veya organize edilmez.

Bu zorluğu karşılamak için, aralarında sınıflandırma dahil olmak üzere yararlı bilgilerin çıkarılması için bir dizi otomatik yöntem geliştirilmiştir.

Sınıflandırma Nasıl Çalışır?

Teknik konuşmak için çok uzaklara gitme tehlikesinde, sınıflamanın nasıl işlediğini tartışalım. Amaç, bir soruyu cevaplayacak, bir karar verecek veya davranışı tahmin edecek bir dizi sınıflandırma kuralları oluşturmaktır. Başlamak için, belli bir özellik dizisini ve olası sonucu içeren bir dizi eğitim verisi geliştirilmiştir.

Sınıflandırma algoritmasının görevi, bu özellik dizilerinin sonuca nasıl ulaştığını keşfetmek.

Senaryo : Belki bir kredi kartı şirketi bir kredi kartı teklifi almak için hangi olasılıkları belirlemeyi deniyor.

Bu, eğitim verisi kümesi olabilir:

Eğitim verileri
isim Yaş Cinsiyet Yıllık gelir Kredi Kartı Teklifi
John Doe 25 M $ 39.500 Yok hayır
Jane Doe 56 F $ 125,000 Evet

"Kestirici" sütunları Yaş , Cinsiyet ve Yıllık Gelir , "kestirici özellik" Kredi Kartı Teklifi'nin değerini belirler. Bir eğitim setinde, tahmin edici özellik bilinir. Sınıflandırma algoritması daha sonra yordayıcı özniteliğinin değerine nasıl ulaşıldığını belirlemeye çalışır: yordayıcılar ve kararlar arasında hangi ilişkiler vardır? Örneğin bir IF / THEN ifadesi olan bir dizi tahmin kuralı geliştirecektir, örneğin:

IF (Yaş> 18 VEYA Yaş <75) VE Yıllık Gelir> 40.000 THEN Kredi Kartı Teklifi = evet

Açıkçası, bu basit bir örnektir ve algoritma burada gösterilen iki kayıttan çok daha büyük bir veri örneklemesine ihtiyaç duyacaktır. Ayrıca, tahmin kurallarının özellik ayrıntılarını yakalamak için alt kurallar da dahil olmak üzere çok daha karmaşık olması muhtemeldir.

Ardından, algoritmaya analiz edilecek bir "tahmin kümesi" verilir, ancak bu küme öngörü niteliğinden (veya karardan) yoksundur:

Tahmin Verisi Verileri
isim Yaş Cinsiyet Yıllık gelir Kredi Kartı Teklifi
Jack Frost 42 M $ 88,000
Mary Murray 16 F $ 0

Bu yordayıcı veri tahmin kurallarının doğruluğunu tahmin etmeye yardımcı olur ve geliştiriciler tahminleri etkili ve yararlı olarak görene kadar kurallar daha sonra düzeltilir.

Güne Gün Sınıflandırma Örnekleri

Sınıflandırma ve diğer veri madenciliği teknikleri, tüketiciler olarak günlük deneyimimizin çoğunun arkasındadır.

Hava tahminleri, günün yağmurlu, güneşli veya bulutlu olacağını bildirmek için sınıflandırmadan yararlanabilir. Tıp mesleği, tıbbi sonuçları tahmin etmek için sağlık koşullarını analiz edebilir. Bir sınıflandırma yöntemi olan Naive Bayesian, istenmeyen e-postaları kategorilere ayırmak için koşullu olasılık kullanır. Sahtecilik tespitinden ürün tekliflerine kadar, her gün, verilerin analiz edilmesi ve tahminlerin üretilmesi sahnelerin arkasındadır.