Bayes Spam Filtreleme Hakkında Bilmeniz Gerekenler

by Heinz Tschabitscher

İstatistiklerin gelen kutunuzu temiz tutmaya nasıl yardımcı olduğunu öğrenin

Bayesian spam filtreleri, içeriğine göre spam olan bir iletinin olasılığını hesaplar. Basit içerik tabanlı filtrelerin aksine, Bayesian spam filtreleme, spam'den ve iyi postalardan öğrenir, sonuçta, her şeyden önce yanlış pozitif sonuç veren çok güçlü, uyarlamalı ve etkili bir anti-spam yaklaşımıyla sonuçlanır.

Önemsiz E-postayı Nasıl Anlıyorsunuz?

Spam'i nasıl algıladığınızı düşünün. Hızlı bir bakış genellikle yeterlidir. Spam'in neye benzediğini biliyorsun ve iyi postaların neye benzediğini biliyorsun.

İyi postalara benzeyen spam olasılığı yaklaşık… sıfırdır.

İçerik Tabanlı Filtrelerin Puanlandırılması Uyumsuz

Otomatik spam filtreleri de böyle çalışsaydı harika olmaz mıydı?

İçerik tabanlı spam filtrelerini puanlamak sadece bunu dener. Spam gibi tipik kelimeler ve diğer özellikler ararlar. Her karakteristik öge bir puan atar ve tüm mesaj için bir istenmeyen posta puanı bireysel puanlardan hesaplanır. Bazı puanlama filtreleri de meşru postanın özelliklerini arar, bir mesajın final skorunu düşürür.

Puanlama filtreleri yaklaşımı çalışır, ancak aynı zamanda bazı dezavantajları vardır:

Özelliklerin listesi, filtrenin mühendisleri tarafından sağlanan spam (ve iyi postalar) tarafından oluşturulmuştur. Herkesin alabileceği tipik spam'leri iyi anlamak için, postaların yüzlerce e-posta adresinden toplanması gerekir. Bu, filtrelerin verimliliğini zayıflatır, özellikle de iyi postaların özellikleri her bir kişi için farklı olacaktır , ancak bu dikkate alınmaz.
Aramak için özellikleri daha çok veya daha az taş olarak belirlenir . Spam gönderenler uyum sağlama çabasında bulunurlarsa (ve spam'lerini filtrelere iyi postalar gibi gösterirlerse), filtreleme özelliklerinin elle ayarlanması gerekir - daha da büyük bir çaba.
Her bir kelimeye verilen puan büyük olasılıkla iyi bir tahmine dayanmaktadır, ancak yine de keyfi. Ve özelliklerin listesi gibi, genel olarak istenmeyen posta dünyasına ve bireysel bir kullanıcının ihtiyaçlarına da uyum sağlamıyor.

Bayes Spam Filtreleri Kendilerini İyileştiriyor, Daha İyi ve Daha İyi Oluyor

Bayes spam filtreleri de bir çeşit içerik tabanlı filtrelerdir. Yaklaşımları, basit skorlama spam filtreleri sorunlarıyla birlikte ortadan kaldırıyor ve çok köklü bir şekilde yapıyor. Puanlama filtrelerinin zayıflığı el ile oluşturulan özellikler listesinde ve puanlarında olduğundan, bu liste elenir.

Bunun yerine, Bayesian spam filtreleri listeyi kendileri oluşturur. İdeal olarak, spam olarak sınıflandırdığınız (büyük) bir grup e-posta ile başlıyorsunuz ve bir grup iyi mail. Filtreler, hem spam hem de spam olarak görünen çeşitli özelliklerin olasılığını hesaplamak için hem meşru postayı hem de spam'i inceler.

Bayesian Spam Filtresi bir E-postayı Nasıl İnceler?

Bayes spam filtresinin özellikleri şöyle olabilir:

Mesajın gövdesindeki kelimeler, elbette ve
başlıkları (örneğin gönderenler ve mesaj yolları !)
HTML / CSS kodu gibi diğer özellikleri (renkler ve diğer biçimlendirme gibi) veya
kelime çiftleri, ifadeler ve
meta bilgileri (örneğin belirli bir ifadenin göründüğü).

Örneğin, "Kartezyen" kelimesi, spam olarak görünmez, ancak genellikle aldığınız meşru e-postada "Kartezyen" ifadesinin spam olduğunu gösteren olasılık sıfırdır. Öte yandan "Toner", sadece ve genellikle spam olarak görünür. "Toner", spamde bulunma olasılığının çok yüksek olduğunu, 1'in (% 100) çok altında değildir.

Yeni bir mesaj geldiğinde, Bayes spam filtresi ile analiz edilir ve tüm mesajın spam olma olasılığı bireysel özellikler kullanılarak hesaplanır.

Bir mesajın hem "Kartezyen" hem de "toner" içerdiğini varsayalım. Bu sözlerden, spam ya da okunaklı postalarımız olup olmadığı henüz belli değil. Diğer özellikler (umarız ve muhtemelen), filtrenin iletiyi spam veya iyi posta olarak sınıflandırmasına olanak veren bir olasılığı belirtir.

Bayes Spam Filtreleri Otomatik Olarak Öğrenebilir

Artık bir sınıflandırmaya sahip olduğumuza göre, mesaj filtrenin daha da ilerletilmesi için kullanılabilir. Bu durumda, iyi postayı belirten "Kartezyen" olasılığı düşürülür (hem "Kartezyen" hem de "toner" mesajını içeren mesajlar spam ise) veya "spam" e-postanın spam olduğunu belirleme olasılığı yeniden değerlendirilmelidir.

Bu otomatik uyarlama tekniğini kullanarak, Bayesian filtreleri hem kendi hem de kullanıcının kararlarından öğrenebilir (filtreler tarafından yanlış bir kararı manuel olarak düzeltirse). Bayesian filtrelemenin uyarlanabilirliği, bireysel e-posta kullanıcısı için en etkili olduklarını da garanti eder. Çoğu kişinin spam'i benzer özelliklere sahip olsa da, meşru posta herkes için karakteristik olarak farklıdır.

Spamcılar Geçmiş Bayes Filtrelerini Nasıl Alabilir?

Yasal postanın özellikleri, spam olduğu için Bayes spam filtreleme işlemi için de önemlidir. Filtreler, her kullanıcı için özel olarak eğitilmişse, spam gönderenler, herkesin (veya çoğu insanın) spam filtrelerini çalıştıran daha da zor bir süreye sahip olacak ve filtreler, spam göndericilerin denediği hemen hemen her şeye uyarlanabilir.

Spam göndericiler, spam mesajlarını herkesin alabileceği sıradan e-postalara mükemmel bir şekilde benzetmeleri durumunda, yalnızca iyi eğitimli Bayes filtrelerinden geçirir.

Spam gönderenler genellikle bu tür normal e-postalar göndermez. Bunun, e-postaların önemsiz e-posta olarak çalışmadığı için olduğunu varsayalım. Yani, sıradan, sıkıcı e-postalar, spam filtrelerini geçmiş olmanın tek yolu olduğunda, bunu yapmayacaklar.

İstenmeyen postalar genellikle normal görünen e-postalara geçiyorsa, Gelen Kutularında bir çok spam göreceğiz ve e-posta, Bayes öncesi günlerde olduğu gibi (veya daha da kötüsü) rahatsız edici hale gelebilir. Yine de birçok türde spam için pazarı mahvedecek ve bu yüzden uzun sürmeyecek.

Güçlü Göstergeler bir Bayesian Spam Filtresi Olabilir Aşil & # 39; Topuk

Bir istisna, spam gönderenlerin, normal içeriğiyle olsa bile, Bayesian filtrelerinden geçecek şekilde çalışabilmeleri için algılanabilir. Bayes istatistiklerinin doğasında, iyi postada çok sık görülen bir kelimenin veya özelliğin, herhangi bir iletinin spam gibi görünmesini filtreyle jam olarak derecelendirilmeye dönüştürecek kadar önemli olabileceği düşünülmektedir.

Eğer spam gönderenler, iyi-mail kelimelerinizi belirlemek için bir yol buluyorsa, örneğin hangi postaları açtığınızı görmek için HTML getiri makbuzlarını kullanarak, bunlardan birini gereksiz postaya ekleyebilir ve bir kuyudan bile size ulaşabilirler. eğitimli Bayes filtresi.

John Graham-Cumming, bunu iki Bayesian filtresinin birbirlerine karşı işleyişini sağlayarak denedi, "kötü" biri hangi mesajların "iyi" filtreden geçtiği tespit edildi. İşlemin zaman alıcı ve karmaşık olmasına rağmen işe yaradığını söylüyor. Bu olayın çoğunu, en azından büyük ölçekte değil, bireylerin e-posta özelliklerine göre uyarlayacağımızı düşünmüyoruz. İstenmeyenler, IBM (bazı kişiler için "Almaden" gibi bir şeyler) için bazı anahtar kelimeleri (belki de belki de?) Kullanabilirler.

Genellikle, spam her zaman (önemli ölçüde) normal postadan farklı olacak veya spam olmayacaktır.

Alt Satır: Bayesian Filtreleme Gücünün Zayıflığı Olabilir

Bayes spam filtreleri, aşağıdaki içerik tabanlı filtrelerdir :

bireysel e-posta kullanıcılarının spam ve iyi postalarını tanımak için özel olarak eğitilmiştir , bu da spam göndericilere uyum sağlamalarını son derece etkili ve zor hale getirir.
Sürekli ve çok çaba sarf etmeden veya el ile analiz yapmadan spam göndericilerin son numaralarına uyum sağlayabilirsiniz .
Bireysel kullanıcının iyi postalarını hesaba katın ve çok düşük yanlış pozitif oranlara sahip olun .
Ne yazık ki, eğer Bayes anti-spam filtrelerinde kör güvene neden oluyorsa, ara sıra meydana gelen hataları daha da ciddi hale getirir. Yanlış negatiflerin tam tersi (tam olarak normal postaya benzeyen spam), kullanıcıları rahatsız etme ve engelleme potansiyeline sahiptir.