Makale Özeti

Veritabanı sistemlerinin gelişmesine paralel olarak artık şirketler çok daha fazla veri topluyor. Bu veritabanları içerisinde yer alan faydalı bilgileri bulmak ise günümüz endüstrisinin ilgi odağı haline geldi. Veri madenciliği, bu bilgi keşfinin anahtar bileşeni olarak kullanılmaktadır. Sunduğu istatistiksel algoritmalar ile büyük miktar veri içerisindeki gizli desenleri ortaya çıkarmak, bunları görsel araçlar ile yorumlamak ve faydalı tahminler yapmak için Microsoft, içinde MS Office Excel ve MS Sql Server'ın bulunduğu zengin bir çözüm yelpazesi sunmaktadır.

Makale

Bu makalede veri madenciliği (data mining) kavramınının temellerini irdeleyeceğiz. Sql Server Analyse Service ve MS Office Excel ile veri madenciliğinin nasıl ele alınacağından önce veri madenciliğinin ne olduğu ve hangi iş problemlerine çözüm getirdiğini inceliyor olacağız.

Veri Madenciliği Nedir ve Neden Veri Madenciği

Business intelligence (kurumsal iş zekası) ürün ailesinin anahtar üyelerinden birisidir. Bu ailenin diğer üyeleri; etl, olap ve enterprise raporlamadır (MS Sql Server'ın bu üyeler için var olan çözüm araçları sırasıyla Sql Server Integration Service, Sql Server Analyse Service ve Sql Server Reporting Service'dir). Veri madenciliğinden, veriyi analiz etmek ve veri kümesi içinde yer alan gizli modelleri keşfetmek için faydalanılır. Daha sonra bu modeller, veriyi daha detaylı bir şekilde yorumlamak ve geleceğe yönelik tahminler yapmak için kullanılır. Yani esas amaç, veriyi bilgiye dönüştürmektir.

Örneğin, <<lise mezunlarının üniversiteye devam etmelerini etkileyen faktörler nelerdir>> sorusu sorulduğunda bunun için tabloda kaç tane erkek öğrencinin üniversiteyeye devam ettiğini, kaç tane kız öğrencinin üniversiteye devam ettiğini elde eden sorgular yazarız. Bunun yanında aile desteğinin etkisini test edecek bir sorgu yazarız. Peki ya aile desteği alan erkek öğrenciler ve aile desteği almayan bayan öğrenciler? Bütün bu kombinasyonları ele almak için satırlarca sorgu yazmak gerekir. Ayrıca IQ, aile geliri gibi sayısal formattaki alanların analiz edilmesi daha sıkıntıldır. Bu numerik alanlar için isteğe bağlı aralıklar seçmek gerekir. Peki ya onlarca kolon varsa? Elinizdeki tabloda yer alan veriniz hakkında sorulan basit bir sorunun cevabını verebilmek için yönetmesi imkansız hale gelen sayısız sorguya sahip oluruz.

Buna karşın veri madenciliği ile herşey çok daha basittir. Tek yapılması gereken, doğru veri madenciliği algoritmasını seçmek ve kolon kullanımlarını belirlemektir (Analizin amacı olan tahmin kolonları ve bu amaç için kullanılacak input kolonlarını belirlemek). Bir öğrencinin koleje devam kararında ailenin etkisini belirlemek için karar ağaçları (decision tree) işe yarayacaktır. IQ, cinsiyet, aile geliri ve aile desteği input kolonlar olarak belirlenir; koleje devam kararı kolonu ise tahmin kolonu olarak belirlenir. Karar ağaçları algoritması veriyi tararken, amaç ile ilgili input attribute’larının (kolonlarının) her birinin etkisini analiz eder ve bölmek için en anlamlı attribute’u seçer. Her bölüm, dataset’i iki alt parçaya böler. Böylece kolej planının değer dağılımı birbirinden olabildiğince farklı olur. Ağaç tamamen oluşuncaya kadar bu süreç, her alt parça üzerinde iç içe tekrar edilir. Öğrenme (training) süreci tamamlanınca ağacı gezerek, ortaya çıkan model (pattern) incelenebilir.



Kolej planı dataset’inin yukarıdaki karar ağacında root node‘dan leaf node’a kadar olan her yol ayrı birer kural anlamına gelmektedir. Yani IQ’su 100’den büyük olan ve ailesi destek veren çocuklar, % 94 olasılıkla koleje devam etmektedirler. Veriden bu bilgiyi keşfettik.

Anlatılan örnekte olduğu gibi veri madenciliği, veri kümelerine decision trees (karar ağaçları), clustering (gruplama), association (ilişkilendirme), time series (zaman serileri) gibi algoritmalar uygular ve içeriklerini analiz eder. Bu analizler, değerli bilginin keşfi için modeller üretir. Kullanılan algoritmaya bağlı olarak üretilen model, ağaçlar, kurallar, gruplar ya da basit bir matemetik formülü olabilir. Model içerisinde bulunan veri, satış stratejisi oluşturmaya rehberlik etmesi ve en önemlisi tahmin için raporlamada kullanılabilir. Örneğin önceki karar ağacının ürettiği kurallara bağlı olarak, orjinal dataset’de yer almayan lise öğrencilerinin koleje devam edip etmeyeceğinin tahmini yapılabilir.

Neden Veri Madenciliği?

Elde var olan büyük miktardaki veri: 

Harddisk fiyatları son on yılda iyice düştü. Buna bağlı olarak şirketler, uygulamalar aracılığıyla büyük miktarda veri topladılar. Şirketler, keşfedilmeyi bekleyen bu verilerin iş stratejilerine rehberlik etmesi için gizli modelleri bulmak istiyorlar.
Rekabetin artması :
Modern satış ile internet ve iletişim gibi dağıtım kanallarının bir sonucu olarak rekabet çok yüksek. Şirketler uluslararası rekabet ile karşı karşıyalar ve bu noktada başarının anahtarı; var olan müşterileri korumak ve yenilerini elde etmek. Veri madenciliği, şirketlerin bu konuları etkileyen faktörleri analiz edebilmelerine izin veren teknolojiler içermektedir.
Hazır teknoloji :
Veri madenciliği teknoljileri, önceleri sadece akademik çevrede kabul görmekteydi. Ancak bu teknoljiler son yıllarda olgunlaştı ve günümüz endüstrisinde kullanılmak için hazır hale geldi. Algoritmalar daha doğru, daha etkili ve gittikçe artan karmaşıklıktaki veriyi ele alabilmektedir. Ayrıca veri madenciliği için kullanılan programlama arayüzleri standartlaşmakta, böylece geliştiriciler daha iyi veri madenciliği uygulamaları geliştirebilmektedirler.

Veri Madenciliğinin Çözüm Ürettiği İş Problemleri

Churn analyse :

Hangi müşterilerimiz rakiplerimize kaymaya daha çok meğilli... Telekom, bankacılık ve sigorta sektörleri günümüzde bu tehlike ile sürekli karşı karşıyalar. Churn analizi, şirketlere müşterilerinin neden başka şirletler ile çalışmak üzere göç ettiklerini anlamaları için yardımcı olur, müşteri ilişkilerini kuvvetlendirir ve sonunda müşteri sadakatini arttırır.
Cross selling :
Müşterilerimiz daha çok hangi ürünleri almaya meğilliler... Ürün satan şirketler için cross-selling önemli bir dinamiktir. Özellikle online satıcılar, satışlarını arttırmak için bu tekniği kullanırlar. Örneğin online olarak kitap satın almak için amazon.com gibi bir siteye girdiğinizde web sitesi o ana kadar ilgilendiğiniz kitaplarla ilgili olan başka kitaplar hakkında size çeşitli tavsiyelerde bulunur. Bu tavsiyeler veri madenciliği sonucu çıkarsanabilir.
Fraud Detection :
Acaba bu müşteri, sigorta talep eden bir sahtekar mı... Sigorta şirketleri günde binlerce talebi işleme alırlar. Her birinin gerçekliğini ayrı ayrı araştırmak çok da mümkün değildir. Veri madenciliği, gelen talebin sahte olabileceğini tanımlamak için yardımcı olabilir.
Risk Management :
Bu müşterinin kredi talebini onaylamalı mıyım... Bankacılıktaki en sık karşılaşılan sorulardan birisidir. Veri madenciliği teknikleri, müşteriye risk seviyesi skorlamak için yardımcı olabilirler. Böylece her müşteri için doğru kararın verilmesine yardımcı olunabilir.
Customer Segmentation :
Benim müşterilerim kimler... Müşteri kümeleme , satış yöneticilerinin farklı müşteri profillerini anlamaları ve bu profillere göre farklı aksiyon almaları konusunda yardımcı olur.
Targeted ads :
Spesifik bir kullanıcıya hangi reklamları göstermeliyim... Online satış yapan şirketler ve web portalları, web müşterileri için içeriklerini özelleştirmekten hoşlanırlar. Müşterinin sayfalar ve ürünler arası navigasyonu ve satın alma modellerini kullanarak müşteriye uygun ürünlerin reklamlarını göstermek için bu siteler veri madenciliği çözümlerini kullanabilirler.
Sales Forecast :
Gelecek ay bu mağazada kaç şişe şarap satacağım... Bir aydaki stok miktarım ne olacak? Veri madenciliği tahmin teknikleri, bu tarz zaman ilişkili sorulara cevap vermek için kullanılabilir.

Kaynak : Data Mining with Sql Server 2005