Data’yı toplayacağımız kaynaklar yada kullanabileceğimiz data çeşitleri ise şunlardan oluşabilir.(bunlara bağlı olarak data’yı alacağımız yere göre de Veri Madenciliği imkanları değişiklik göstermektedir.)
a) İlişkisel Veri Tabanları : RDMS (Relational Database Management System) olarak adlandırılan Veri Tabanı ,temel veri işlemlerinin yapıldığı (DML) yerdir.Bu tip veritabanlarında Normal Formların kurallarına göre (genelde 3. NF ‘ye kadar) tasarlanmıştır. İlişkisel Veri Tabanları için Entity-Relationship (ER) veri modeli tasarlanmıştır ve bu model, tablolar arasındaki ilişkileri gösterir.(İlişkisel Veri Tabanları hepimizin günlük hayatımızda kullandığımız MS-SQL Server , Oracle ,DB2 ,MySql gibi sistemlerdir ) b) Veri Ambarları : Veri Ambarları farklı kaynaklardan (örneğin RDMS ‘lerden ) bilgilerin toplandığı ortak bir alandır.
Bunlar dışında da birçok veri temizleme ve verileri yeniden yapılandırma tekniği mevcutdur.SQL Server Integration Services (SSIS ) yardımıyla,bu makalede saymış olduğum teknikler uygulanabilmektedir. Bu makalemizde Veri Madenciliği yaşam döngüsünün ilk 2 aşaması hakkında (Data’nın toplanması ve Temizlenmesi ,Yeniden Düzenlenmesi) bilgiler vermeye çalıştım.Bir sonra ki bağlantılı makalemde ,sonraki aşamalar hakkında detaylı bilgiler sunmaya devam edeceğim
Başka bir İş Zekası makalesinde görüşmek dileğiyle...
Bilgehan Gürünlü
www.gurunlu.com bilgehan@gurunlu.com
Kaynaklar :
Data Mining with Sql Server 2005. Data Mining:Concepts and Techniques. Kavram ve Algoritmalarıyla Veri Madenciliği (G.Silahtaroğlu)