Clustering, unsupervised bir veri madenciliği görevidir (Yani kullanılan model eğitilerek birşeyler öğrenmeye çalışmaz). Training sürecine rehberlik etmek için tek bir attribute kullanılmaz. Bütün input attribute’ları eşit görülür. Birçok clustering algoritması, sayısız döngü kullanıp model yakınsayınca durarak modeli oluşturur. Modelin yakınsamasından kasıt; segment sınırlarının stabil hale gelmesidir.
Kümeleme sonucu:
Association: Popüler bir veri madenciliği görevidir. Diğer adı market basket analyse dır. Tipik bir association iş problemi, satış hareketlerini analiz etmek ve satılan ürünlerin bazen aynı alış-veriş sepetinde yer aldığını tespit etmektir. Association tekniğinin yaygın kullanımı; birlikte alınan parça setlerinin ve cross-satış kurallarının tespitidir. Association açısından, her ürün (ya da daha genel olarak her attribute/değer çifti), bir item olarak ele alınır.
Association görevinin iki temel amacı vardır: 1) Sık karşılaşılan item set’leri bulmak 2) İlişki kurallarını bulmak
Birçok association tipindeki algoritma, sık karşılaşılan item set’leri bulmak için veri kümesini (dataset) defalarca tarar. Frequency threshold (sıklık desteği), model process edilmeden önce kullanıcı tarafından belirlenir. Örneğin support = 2% ‘ nin anlamı şudur : Model, alış-veriş kartının minimum yüzde 2’sinde bulunan ürünleri analiz eder. Sık sık karşılaşılabilcek olan bir item-set şöyle olabilir:
{Ürün = “Cola-Turka” , Ürün = “Cips” , Ürün = “Meyva suyu”}.
Her item-set’in (ürün paketinin) bir boyutu vardır; bu da item-set’in içerdiği ürünlerin (items) sayısıdır. Yukarıdaki item-set’in boyutu (size) 3’tür. Belirlenen support yüzdesindeki sık karşılaşılan item-set’lerin tespiti dışında birçok association algoritması aynı zamanda kurallar bulur. Bir association kuralı şu şekiledir : Belli bir olasılıkla A, B => C. Burada A,B ve C her biri ayrı item-set’ler, yani ürün paketleri.
Veri madenciliği literatüründe olasılık (probability) aynı zamanda güvenilirlik (confidence) olarak da adlandırılır. Güvenilirlik düzeyi, kullanıcının bir association modelini train etmeden önce belirlemesi gereken bir sıklık destek değeridir. Yani analiz sonucunun % kaç güvenilirlik düzeyindeki sonuçları getirmesi istenildiği belirlenir.
Tipik bir ilişki kuralı şöyledir : %80 güvenilirlikle Ürün = “Cola-Turka”, Ürün = “Cips” => Ürün = “Meyva Suyu“. Bu kuralın açıklaması gayet basittir. Kola ve cips alan bir müşterinin bunlarının yanında meyva suyu alma şansı %80’dir.
Yukarıdaki şekil, bir ürün ilişki desenini göstermektedir. Şekildeki her node bir ürünü; her çizgi ise ilişkiyi temsil etmektedir. Çizginin yönü, ilişkinin yönünü belirler. Örneğin Milk’den Cheese’e giden çizgi, süt alan birinin aynı zamanda peynir de aldığını gösterir.
Regression: Classification’a benzer. Temel fark, tahmin edilecek olan attribute’un continious number (parçalanabilir birimler -1.5, 23.8 gibi-) olmasıdır. Regresyon tekniği yüzyıllardır istatistik ana bilim dalının bir kolu olarak öğretilmektedir.Lineer ve lojistik regresyon, en popüler regresyon metotlarındandır. Diğer regresyon teknikleri ise regresyon ağaçları ve sinir ağlarıdır (neural network). Regresyon görevi ile birçok iş problemi çözülebilir. Örneğin nominal değerine, dağılım metoduna, dağılım hacmine bakarak bono ödeme oranları tahmin edilebilir. Ya da sıcaklık, hava basıncı ve nem değerlerine göre sıcaklık tahmini yapılabilir.
Forecasting: Yarın ki borsa değeri ne olacak?... A şirketinin önümüzdeki ay toplam satış miktarı ne olacak?... Forecasting bu tarz soruların cevaplanmasına yardımcı olur. Genellikle girdi olarak bir zaman serisi veri kümesi alır; örneğin zamanı temsil eden bir attribute ile bir dizi sayı. Zaman serileri verileri genellikle sıra bağımlı bir şekilde birbirine yakın değerlere sahip olurlar. Forecasting teknikleri, genel trendler, periyodiklik ve gürültülü gürültü filtreleme (noisy noise filtering) ile uğraşır. En popüler zaman serileri tekniği ARIMA’dır. (AutoRegressive Integrated Moving Average)
Diğer: Sequence Analysis, Deviation Analysis
Kaynak : Data Mining with Sql Server 2005