Regresyon Analizleri Değişkenler Arasındaki İlişkiler
Regresyon, belirli bir veri kümesi verildiğinde bir dizi sayısal değeri ( sürekli değerler olarak da adlandırılır) öngörmek için kullanılan bir veri madenciliği tekniğidir. Örneğin, diğer değişkenler göz önüne alındığında, bir ürünün veya hizmetin maliyetini tahmin etmek için regresyon kullanılabilir.
Regresyon, iş ve pazarlama planlaması, finansal tahmin, çevresel modelleme ve trendlerin analizi için birçok endüstride kullanılmaktadır.
Regresyon Vs. sınıflandırma
Regresyon ve sınıflandırma , benzer problemleri çözmek için kullanılan veri madenciliği teknikleridir, ancak sıklıkla karışırlar. Her ikisi de tahmin analizinde kullanılır, ancak sınıflandırma, ayrı kategorilere veri atarken sayısal veya sürekli bir değeri tahmin etmek için regresyon kullanılır.
Örneğin, bir evin değerini, bulunduğu yere, kare ayaklara, son satılan fiyatlara, benzer evlerin fiyatına ve diğer faktörlere göre tahmin etmek için regresyon kullanılacaktır. Sınıflandırmayı, yürürlüğe girebilirlik, parti büyüklüğü veya suç oranları gibi kategorilere ayırmak istiyorsanız, sırayla olacaktır.
Regresyon Teknikleri Türleri
En basit ve en eski regresyon şekli, iki değişken arasındaki ilişkiyi tahmin etmek için kullanılan doğrusal regresyondur. Bu teknik düz bir çizginin matematiksel formülünü kullanır (y = mx + b). Basit bir ifadeyle, bu basitçe, Y ve X ekseni ile bir grafik verildiğinde, X ve Y arasındaki ilişkinin az sayıda aykırı olan düz bir çizgi olduğu anlamına gelir. Örneğin, popülasyonda bir artış göz önüne alındığında, gıda üretiminin aynı oranda artacağını varsayabiliriz - bu, iki rakam arasında güçlü ve doğrusal bir ilişkiyi gerektirir. Bunu görselleştirmek için Y ekseninin izlediği popülasyonun arttığını ve X ekseninin gıda üretimini izlediği bir grafiği düşünün. Y değeri arttıkça, X değeri aynı oranda artacak ve aralarındaki ilişkiyi düz bir çizgi haline getirecektir.
Çoklu regresyon gibi ileri teknikler, çoklu değişkenler arasındaki ilişkiyi tahmin eder - örneğin, gelir, eğitim ve hangisinin yaşamayı tercih ettiği arasında bir ilişki var mıdır? Daha fazla değişkenlerin eklenmesi, tahminin karmaşıklığını önemli ölçüde artırır. Her biri kendi uygulamasına sahip, standart, hiyerarşik, ayarlı ve kademeli olmak üzere çeşitli çoklu regresyon teknikleri vardır.
Bu noktada, tahmin etmeye çalıştığımız şeyi (bağımlı veya tahmin edilen değişken) ve tahmin yapmak için kullandığımız verileri (bağımsız veya yordayıcı değişkenler) anlamak önemlidir. Örneğimizde, bir insanın yaşadığı yeri ( tahmin edilen değişken), gelir ve eğitim (her iki tahmin edici değişken) olarak tahmin etmeyi istiyoruz.
- Standart çoklu regresyon , tüm tahmin edici değişkenleri aynı anda dikkate alır. Örneğin 1) gelir ve eğitim (kestiriciler) ve mahalle seçimi (tahmin edilen) arasındaki ilişki nedir; ve 2) her bir bireysel belirleyicinin bu ilişkiye ne ölçüde katkıda bulunduğu?
- Adım adım çoklu regresyon tamamen farklı bir soruyu yanıtlıyor. Aşamalı bir regresyon algoritması, hangi belirleyicilerin mahalle seçimini tahmin etmek için en iyi şekilde kullanılacağını analiz eder - yani adım adım modelin, yordayıcı değişkenlerin önem sırasını değerlendirdiği ve daha sonra ilgili bir alt kümesi seçtiği anlamına gelir. Bu tür regresyon problemi regresyon denklemini geliştirmek için "adımlar" kullanır. Bu tür bir regresyon göz önüne alındığında, tüm yordayıcılar son regresyon denkleminde bile görünmeyebilir.
- Hiyerarşik regresyon , adım adım gibi, ardışık bir süreçtir, ancak tahmin edici değişkenler önceden tanımlanmış önceden belirlenmiş bir sırayla modele girilir, yani algoritma, siparişin hangi sırayla belirlendiğini belirlemek için yerleşik bir dizi denklem içermez. yordayıcıları girin. Bu, regresyon denklemini yaratan bireyin alan hakkında uzman bilgisi olduğunda en çok kullanılır.
- Setwise regresyon da adımlara benzer, ancak bireysel değişkenlerden ziyade değişkenlerin kümelerini analiz eder.