K-Kümelenme Nedir?

K-means algoritması ile veri madenciliği

K- kümelenme algoritması, gözlemleri herhangi bir ön bilgi olmadan, gözlemleri ilgili gözlem gruplarına kümelemek için kullanılan bir veri madenciliği ve makine öğrenme aracıdır. Örnekleme yoluyla, algoritma, hangi kategorideki veya kümedeki verilerin ait olduğu, k sayısıyla tanımlanan küme sayısı ile gösterilmeye çalışılır .

K - aracı algoritması en basit kümeleme tekniklerinden biridir ve tıpta, medikal görüntüleme, biyometri ve ilgili alanlarda yaygın olarak kullanılır. K - anlamına gelen kümelenmenin avantajı, verilerin başlangıçta (algoritmanın denetlenen formunu kullanarak) algoritma hakkında bilgi vermek zorunda kalmanız yerine verilerinizi (denetimsiz formu kullanarak) anlatmasıdır.

Bazen bilgisayar bilimi çevrelerinde Lloyd algoritması olarak anılır, çünkü standart algoritma ilk olarak 1957 yılında Stuart Lloyd tarafından önerilmiştir. "K-araçları" terimi 1967 yılında James McQueen tarafından yapılmıştır.

K-Algoritma Fonksiyonları nasıldır?

K- aracı algoritması, adını çalışma yönteminden alan bir evrimsel algoritmadır. Algoritma gözlemleri k gruplarına ayırır, burada k bir giriş parametresi olarak sağlanır. Daha sonra, gözlemin kümenin ortalamasına olan yakınlığına dayalı olarak her bir gözlemi kümelere atar. Kümenin ortalaması daha sonra yeniden hesaplanır ve işlem tekrar başlar. Algoritmanın işleyişi şöyle:

  1. Algoritma, k noktaları başlangıç ​​küme merkezleri (araçlar) olarak rasgele seçer.
  2. Veri kümesindeki her nokta, her nokta ve her küme merkezi arasındaki Öklid mesafesine bağlı olarak kapalı kümeye atanır.
  3. Her küme merkezi, o kümedeki noktaların ortalaması olarak yeniden hesaplanır.
  4. Kümeler yakınlaşana kadar 2 ve 3 numaralı adımları tekrarlayın. Yakınsama, uygulamaya bağlı olarak farklı şekilde tanımlanabilir, ancak normal olarak, 2 ve 3 numaralı adımlar tekrarlandığında hiçbir gözlemin kümeleri değiştirmemesi veya değişikliklerin kümelerin tanımında önemli bir fark yaratmaması anlamına gelir.

Küme Sayılarını Seçme

K- kümelenmesinin ana dezavantajlarından biri, küme sayısını algoritmaya bir girdi olarak belirtmeniz gerektiği gerçeğidir. Tasarlandığı gibi, algoritma uygun sayıda kümeyi belirleyememektedir ve kullanıcının bunu önceden tanımlamasına bağlıdır.

Örneğin, erkek veya dişi olarak ikili cinsiyet kimliğine dayalı olarak kümelenecek bir grup insan olsaydı, k = 3 girişini kullanarak k- aracı algoritmasını çağırmak, insanları yalnızca iki grupta üç kümeye zorlar. k = 2'nin girişi daha doğal bir uyum sağlar.

Benzer şekilde, eğer bir grup birey, ana duruma göre kolayca kümelenmişse ve k = 20 girdisi ile k- aracı algoritması dediyseniz , sonuçlar etkili olmak için çok genelleştirilebilir.

Bu nedenle, verilerinize en uygun değeri tanımlamak için farklı k değerleri ile deneme yapmak genellikle iyi bir fikirdir. Ayrıca, makine tarafından öğrenilen bilgiler için başka veri madenciliği algoritmalarının kullanımını da araştırmak isteyebilirsiniz.