İlk 2 aşamamızı bir önceki makalemizde anlatmıştık ,şimdi kaldığımız yeren itibaren (3.aşamadan itibaren) incelemeye devam ediyoruz. 3)Model Oluşturma (Model Building):Veriler temizlendikten ve değişkenler yeniden düzenlendikten sonra sıra geldi Veri Madenciliği Modelimizi oluşturmaya.Veri Madenciliği projemizde modelimizi oluştururken hedeflerimizin neler olduğunu ve hangi tip verilerle nasıl bir veri madenciliği görevini gerçekleştireceğimizi asla unutmamalıyız.Projemizin;bir sınıflandırma(classification) mı ? Birliktelik(Association,Market Basket Analyse) mi ? yoksa bir segmentasyon projesi mi olacağı gerçeğinden yola çıkarak modelimizi oluşturmalıyız.Model oluştururken iş analistlerimizle beraber ortak kararlar almak zorundayız.Örneğin telekom sektörü için bir proje gerçekleştiriyorsak;ilgili uzmanlık yetkinliklerine sahip ,bölüm yöneticilerini de proje ekibine dahil etmek akıllıca olacaktır. Model oluşturmak veri madenciliği için çok önemli bir aşamadır.Bu aşamada öncelikle hangi tip veriyle,hangi tip veri madenciliği görevini gerçekleneceği çok iyi anlaşılmalı ve buna uygun algoritmalar seçilmelidir.Bazı durumlarda,modelin eğitilmesi öncesinde,hangi algoritmanın elimizdeki data için uygun olduğu bilinmeyebilir.Bu gibi durumlarda attribute’ların ilişkileri incelenerek hangi alogitmanın kullanılacağına karar verilebilir.Örneğin input attributelar ve tahmin edilecek(class attribute) arasında liner bir ilişki mevcutsa karar ağaçları(Decision Tree,classification algorithm) kullanılması yerinde olacaktır.Bir başka örnek için attribute’lar arasında ilişki karmaşık ise yapay sinir ağı algoritmaları kullanılmalıdır. Modelimizin oluşturulmasında kullanacağınız algoritmanın projeniz için doğru algoritma olup olmadığını ;farklı algoritmaları “lift chart” gibi toollarda kullanarak görebilirsiniz.(Bir sonra ki adımda lift chart’dan bahsedeceğim. 4) Modelin Keşfi (Model Assessment) : Bir önceki adımımızda (Modelin Oluşturulması) farklı algoritmalara ve parametrelere göre modelimizi oluşturmaya çalıştık.Peki seçmiş olduğumuz algoritmanın bizim projemiz için en doğru algoritma olduğuna nasıl karar vereceğiz.İşte bu noktada karşılaştırma yapmak amacıyla bazı toollar karşımıza çıkıyor. Bu toollar arasında en sık kullanılan Lift Chart adlı tooldur.Lift Chart ile değerlerin tahmin edilmesi için model eğitilmekte ve dataset test edilmektedir.Lift Chart değerlerin tahmin edilmesi ve olasılıklarının hesaplanması esasına dayanarak,grafiksel olarak modeli bize göstermektedir.
Başka bir İş Zekası makalesinde görüşmek dileğiyle...
Bilgehan Gürünlü
www.gurunlu.com bilgehan@gurunlu.com