Makale Özeti

Veri madenciliği yüzlerce iş problemini çözmek için kullanılabilir. Problemin doğasına bağlı olarak bu görevleri gruplamak mümkündür. Bu gruplama makalede Microsoft Sql Server 2005 ile veri madenciliğinden bağımsız olarak ele alınmaktadır. Bunları inceleyerek veri madenciliği ile yapılabilecekler konusunda ufkumuzun açılmasını hedefliyoruz.

Makale


Classification:
Sınıflandırma, en popüler veri madenciliği görevlerinden biridir. Churn analyze, risk management, ad targeting, çoğunlukla sınıflandırma yapmayı gerektirir. Sınıflandırma, tahmin edilebilir bir kolon tabanlı olarak kategorilere case’ler atanması ile ilgilidir. Her case, birkaç tane attribute’dan oluşur ve bu attribute’lardan bir tanesi class attribute’udur (yani tahmin edilecek olan kolon). Bu görev, input attribute’larının bir fonksiyonu olarak class attribute’unu tanımlayan bir model bulmayı gerektirir. Bir sınıflandırma modelini eğitmek için training dataSet’i içerisindeki input case’lerinin class value’su bilinmelidir. (Yani input case’leri iq, aile teşviki ise bu case’lerdeki lise öğrencileri koleje devam etmişler mi bilgisi elimizde olmalı. Bu veri de çoğunlukla geçmiş verilerdir). Bir şeyler öğrenmeye çalışan veri madenciliği algoritmaları supervised algorithm olarak bilinir. Tipik sınıflandırma algoritmaları : Decision tree, neural network, naive bayes olabilir.

Clustering:
Aynı zamanda segmentation adıyla da bilinir. Birkaç tane attribute tabanlı case’lerin doğal gruplaşmasını tespit etmek için kullanılır. Aynı gruptaki case’ler, çok ya da az benzer attribute değerlerine sahiptir. Aşağıdaki basit müşteri veri kümesi iki tane attribute içermektedir: Yaş ve gelir. Clustering algoritması, bu iki attribute tabanlı olarak veri kümesini 3 segmentte gruplar. 

  • Cluster 1, düşük gelir grubuna sahip genç popülasyon
  • Cluster 2, daha yüksek gelirli ve orta-yaşlı popülasyon
  • Cluster 3 ise daha düşük gelirli ve yaşlı popülasyonu temsil ediyor.

Clustering, unsupervised bir veri madenciliği görevidir (Yani kullanılan model eğitilerek birşeyler öğrenmeye çalışmaz). Training sürecine rehberlik etmek için tek bir attribute kullanılmaz. Bütün input attribute’ları eşit görülür. Birçok clustering algoritması, sayısız döngü kullanıp model yakınsayınca durarak modeli oluşturur. Modelin yakınsamasından kasıt; segment sınırlarının stabil hale gelmesidir.

Kümeleme sonucu:

 

 

Association:
Popüler bir veri madenciliği görevidir. Diğer adı market basket analyse dır. Tipik bir association iş problemi, satış hareketlerini analiz etmek ve satılan ürünlerin bazen aynı alış-veriş sepetinde yer aldığını tespit etmektir. Association tekniğinin yaygın kullanımı; birlikte alınan parça setlerinin ve cross-satış kurallarının tespitidir. Association açısından, her ürün (ya da daha genel olarak her attribute/değer çifti), bir item olarak ele alınır.

Association görevinin iki temel amacı vardır:
  1) Sık karşılaşılan item set’leri bulmak
  2) İlişki kurallarını bulmak

Birçok association tipindeki algoritma, sık karşılaşılan item set’leri bulmak için veri kümesini (dataset) defalarca tarar. Frequency threshold (sıklık desteği), model process edilmeden önce kullanıcı tarafından belirlenir. Örneğin support = 2% ‘ nin anlamı şudur : Model, alış-veriş kartının minimum yüzde 2’sinde bulunan ürünleri analiz eder. Sık sık karşılaşılabilcek olan bir item-set şöyle olabilir:

{Ürün = “Cola-Turka” , Ürün = “Cips” , Ürün = “Meyva suyu”}.

Her item-set’in (ürün paketinin) bir boyutu vardır; bu da item-set’in içerdiği ürünlerin (items) sayısıdır. Yukarıdaki item-set’in boyutu (size) 3’tür. Belirlenen support yüzdesindeki sık karşılaşılan item-set’lerin tespiti dışında birçok association algoritması aynı zamanda kurallar bulur. Bir association kuralı şu şekiledir : Belli bir olasılıkla A, B => C. Burada A,B ve C her biri ayrı item-set’ler, yani ürün paketleri.

Veri madenciliği literatüründe olasılık (probability) aynı zamanda güvenilirlik (confidence) olarak da adlandırılır. Güvenilirlik düzeyi, kullanıcının bir association modelini train etmeden önce belirlemesi gereken bir sıklık destek değeridir. Yani analiz sonucunun % kaç güvenilirlik düzeyindeki sonuçları getirmesi istenildiği belirlenir.

Tipik bir ilişki kuralı şöyledir : %80 güvenilirlikle Ürün = “Cola-Turka”, Ürün = “Cips” => Ürün = “Meyva Suyu“. Bu kuralın açıklaması gayet basittir. Kola ve cips alan bir müşterinin bunlarının yanında meyva suyu alma şansı %80’dir.

 

Yukarıdaki şekil, bir ürün ilişki desenini göstermektedir. Şekildeki her node bir ürünü; her çizgi ise ilişkiyi temsil etmektedir. Çizginin yönü, ilişkinin yönünü belirler. Örneğin Milk’den Cheese’e giden çizgi, süt alan birinin aynı zamanda peynir de aldığını gösterir.

Regression:
Classification’a benzer. Temel fark, tahmin edilecek olan attribute’un continious number (parçalanabilir birimler -1.5, 23.8 gibi-) olmasıdır. Regresyon tekniği yüzyıllardır istatistik ana bilim dalının bir kolu olarak öğretilmektedir.Lineer ve lojistik regresyon, en popüler regresyon metotlarındandır. Diğer regresyon teknikleri ise regresyon ağaçları ve sinir ağlarıdır (neural network). Regresyon görevi ile birçok iş problemi çözülebilir. Örneğin nominal değerine, dağılım metoduna, dağılım hacmine bakarak bono ödeme oranları tahmin edilebilir. Ya da sıcaklık, hava basıncı ve nem değerlerine göre sıcaklık tahmini yapılabilir.

Forecasting:
Yarın ki borsa değeri ne olacak?... A şirketinin önümüzdeki ay toplam satış miktarı ne olacak?... Forecasting bu tarz soruların cevaplanmasına yardımcı olur. Genellikle girdi olarak bir zaman serisi veri kümesi alır; örneğin zamanı temsil eden bir attribute ile bir dizi sayı. Zaman serileri verileri genellikle sıra bağımlı bir şekilde birbirine yakın değerlere sahip olurlar. Forecasting teknikleri, genel trendler, periyodiklik ve gürültülü gürültü filtreleme (noisy noise filtering) ile uğraşır. En popüler zaman serileri tekniği ARIMA’dır. (AutoRegressive Integrated Moving Average)

Diğer:
Sequence Analysis, Deviation Analysis

Kaynak : Data Mining with Sql Server 2005