26 Mart 2018 Pazartesi

Türkiye'de Veri Madenciliği Uygulamaları Ve Çalışmaları

  Pek çok alanda etkili bir şekilde kullanılmaya başlanan veri madenciliği, günümüzün en çok uygulanan disiplinlerinden birisi olmuştur. Her geçen sene kendisine daha da yaygın bir kullanım alanı bulmakla birlikte, kolay uygulanabilirliği ve etkili sonuçlar ortaya çıkarması sayesinde, kurum ve kuruluş yöneticileri tarafından en çok başvurulan yöntemlerden bir tanesidir. Literatür taramasıyla ulaşılan veri madenciliği ile gerçekleştirilmiş uygulamaları, eğitim, ticaret, mühendislik, bankacılık ve borsa, tıp ve telekomünikasyon başlıkları arasında sınıflandırarak şu şekilde özetleyebiliriz.




 Mühendislik Alanında Gerçekleştirilen Veri Madenciliği Uygulamaları 

  Kıyas Kayaalp tarafından 2007 yılında yapılan bir yüksek lisans çalışmasında, veri madenciliği tekniği ile üç fazlı asenkron motordaki sargı spirleri arasında oluşabilecek kısa devre veya yalıtım bozuklukları ve motor milinde oluşabilecek mekanik dengesizlik hatalarının tespiti gerçekleştirilmiştir (Kayaalp, 2007).

  Ali İnan tarafından 2006 yılında yapılan bir çalışmada şu bulgulara ulaşılmıştır: Kişilerin konum bilgilerinin toplanması, kullanımı ve dağıtılması ile ilgili gizlilik kaygıları zaman-mekân bilgisi içeren verilerde veri madenciliği teknikleri uygulanmasının önündeki tek engeldir. Kimlik belirteçlerinin veriden temizlenmesi kişisel gizliliğin sağlanmasında tek başına yeterli olamıyor çünkü umuma açık ev ve işyeri adresleri kullanılarak kişilerin hareket yörüngeleri ile kimliklerinin eşlenmesi mümkündür. Var olan gizliliği koruyan veri madenciliği teknikleri de yeterli olmuyor çünkü bu tekniklerin zaman-mekân bilgisi içeren verilere uygulanabilmesi için ardışık konum gözlemlerinin kişilerin birbirinden bağımsız nitelikleri olduğunu varsaymak gerekmektedir. Ancak bu varsayım hatalı olacaktır. Bu nedenle konumzaman veri tabanlarında veri madenciliğini mümkün kılmak, bu tip veriler için özel olarak tasarlanmış algoritmalar gerektirir. Bu çalışmada zaman-mekân nitelikleri olan veriler için bir gizliliği koruyan veri madenciliği tekniği ve iki ön-işleme tekniği önerilmiştir: (1) Dağıtık kümeleme, (2) Merkezi anonimleştirme ve (3) Dağıtık anonimleştirme. Önerilen tekniklerin güvenlik ve performans analizleri de yapılmış ve sonuçta mantıklı varsayımlar altında minimum mahrem bilgi kaybıyla veri madenciliğinin mümkün olduğu gözlemlenmiştir (İnan, 2006). Gökhan Yavaş tarafından 2003 yılında gerçekleştirilen başka bir çalışmada ise mobil kullanıcıların hareket modellerinin veri madenciliği kullanılarak çıkarılması ve bu modeller kullanılarak mobil kullanıcıların daha sonraki hareketlerinin tahmin edilmesi için yeni bir algoritma geliştirilmiştir. Üç aşamadan oluşan bu algoritmanın ilk aşamasında kullanıcı hareket modelleri, kullanıcıların önceden kaydedilmiş mobil yörüngelerinden veri madenciliği kullanılarak çıkarılmaktadır. İkinci aşamada bulunan hareket modellerinden hareket kuralları üretilmekte, son aşamada ise bu hareket kuralları kullanıcının bir sonraki hücreler arası hareketinin tahmini için kullanılmaktadır. Sunulan algoritmanın performansı simülasyonlar yardımıyla iki farklı tahmin yöntemiyle karşılaştırılmıştır. Performans sonuçları algoritmanın diğer metotlardan daha doğru tahminler yapabildiğini göstermiştir (Yavaş, 2003).





  Sibel Kırmızıgül Çalışkan ve İbrahim Soğukpınar 2008 yılında, veri madenciliği yöntemlerinden “K-means” ve “K en yakın komşu” yöntemlerinin iyileştirilmesi amacıyla; nüfuz tespiti için kümelemeyi ve sınıflandırmayı, denetimli ve denetimsiz öğrenimi, k-means ve k en yakın komşu yöntemlerini bir arada kullanan hibrit bir yapı geliştirmiştir. Farklı boyutlardaki veri gruplarında düşük performans gösterebilen, fakat gerçeklemesi kolay ve zaman karmaşası az olan “K- means” ile tek ve geniş bir küme için belirlenen k ve eşik değeri, küme içindeki farklı özelliklere sahip normal davranış ve saldırı verileri için zorunlu kılan ve zaman karmaşası çok olan, fakat k komşu ortalaması aldığı için gürültülü verilerden az etkilenen “k en yakın komşu” yöntemleri bir arada kullanılmıştır. Geliştirilen uygulamada en hızlı sonucu veren k-means uygulaması ile test kümesi daha küçük alt kümelere ayrılarak k en yakın komşu yönteminin zaman karmaşası ve bellek gereksinimi azaltılmıştır (Çalışkan ve Soğukpınar, 2008).

  N. Duru ve M. Canbay 2007 yılında veri madenciliği ile deprem verilerinin analizi üzerine bir çalışma gerçekleştirmiştir. Bu çalışma deprem verileri kullanılarak seçilen bir bölgeye ait sismik tehlikenin diğer deyişle gerçekleşme olasılığının veri madenciliği yönünden ele alınarak incelenmesini kapsamaktadır. Çalışma sonuçları jeofizik sonuçlar ile korele edilerek doğruluk payı da araştırılmıştır. Her gelecek 10 yıl için % sismik tehlike değeri artış göstererek devam etmiş, örneğin 6 magnitüdündeki bir depremin olma olasılığı 10 yıl içinde %27 iken, 30 yıl içinde %60 ve 60 yıl için de %80’leri bulmaktadır.  Bu değerler daha önce çalışma bölgesinde yapılmış çalışmalarla uyum göstermektedir. Ancak burada unutulmaması gereken bu çalışmanın deprem tahmini için kullanılan tekniklerden sadece birisi olduğu ve bu çalışmanın konusu itibariyle çalışma bölgelerinin tektonik özelliklerini hiç irdelemeden dahi olsa olumlu sonuçlara varılabilmesinin mümkün olduğunun gösterilebilmesidir. Ayrıca yapılan çalışmanın sonuçlarının büyük bölgelere göre küçük bölgelerde daha iyi sonuç verdiğinin görülmesidir. Uygulama, dünya ölçeğindeki her noktanın analizini yapacak şekilde geliştirilmiş olup, ihtiyaç halinde programa eklemeler yapmak suretiyle, başka bu tür çalışmalar yapacak şekilde tasarlanmıştır (Duru ve Canbay, 2007).
  Yaşar Doğan tarafından 2004 yılında Deniz Harp Okulu’nda, su altı taktik duyarga ağlarında veri madenciliği tabanlı hedef sınıflandırması çalışması hazırlanmıştır. Bu çalışmada, açık, sığ ve çok sığ sularda denizaltı, küçük sualtı taşıma araçları, sualtı mayınları ve dalgıçları sınıflandırmada maliyeti çok az olan mikroduyargalar kullanılmıştır. Algoritma, yüzeydeki şamandıralara bağlı ve ayarlanabilir derinliklere indirilebilen duyargalardan oluşan taktik su altı duyarga ağları için tasarlanmıştır. Sınıflandırma veri madenciliği tekniği olarak karar ağacı algoritmaları kullanılmıştır (Doğan, 2004).

  Eyüp Sıramkaya’nın 2005 yılında hazırladığı bir uygulamada internet üzerinden ulaşılabilen basın-yayın kaynaklarında yer alan görsel ve metinsel verilerin hızlı ve etkin bir şekilde erişimi ve bu kaynaklardan anlamlı ve önemli bilgilerin çıkarılması hedeflenmiştir. Çalışmalar istihbarat açısından önem taşıyan kişi ve örgütlerle ilgili haberler üzerinde yoğunlaşmıştır. Sunucu bilgisayarda internet üzerinde yer alan haber kaynaklarından toplanmış ve işlenmiş metinsel belgelerden oluşan veri-tabanı ile bu bilgileri işleyen uygulama yazılımları bulunmaktadır. Bir arayüz ile kullanıcının bu bilgileri sorgulaması sağlanmıştır. Çalışma, Birliktelik Kural Madenciliği tekniği ile uygulanmıştır. Bu teknik uygulanırken Apriori Algoritması kullanılmıştır. Yapılan veri madenciliği çalışmasında Bulanık Mantık çalışması, kişi-kişi ilişkilerini bulmakta uygulanmıştır. Bu uygulamadaki amaç kullanıcıların arama yapmak istedikleri kişilerin isimlerini yazarken yapabilecekleri yazım hatalarını elemektir. İsimlerdeki harflerin konumlarının birbirlerine göre uzaklıklarını temel alarak bulanık mantık kurallarının uygulandığı bir algoritma kullanılmıştır (Sıramkaya, 2005).

  Yomi Kastro 2006 yılında, bir yazılımın yeni sürümlerindeki hata oranını eski sürümlerine göre olan değişikliklerini temel alarak tahmin eden bir model ortaya koyma amaçlı bir uygulama gerçekleştirmiştir. Bu uygulamada bahsedilen değişiklikler yazılımdaki bir yenilik, bir algoritma değişikliği ve hatta bir hata ayıklama değişikliği olabilir. Bu tür değişikliklerin türünü formel ve nesnel bir bakış açısıyla analiz ederek ve buna yazılımın hacimsel değişikliğini de katarak, yeni sürümündeki hata oranını doğru bir şekilde tahmin edebilme amaçlanmıştır. Bu araştırmada önerilen modeli kullanarak, yazılım hayat döngüsündeki test sürecini kısaltabilmek ve harcanan gücü azaltabilmek mümkün olmuştur. Buna ek olarak, yeni bir yazılım sürümünün sağlamlığını saptamak bu model sayesinde mümkündür. Bu model, aynı zamanda bir yazılım ürününe katılan yeniliklerin, hata ayıklama değişiklikleri gibi değişiklik türlerinin, hata oluşturma ihtimallerine olan katkısını ayrı ayrı anlamaya yardımcı olmaktadır (Kastro, 2006).



  Seda Dağlar Toprak tarafından yeni bir melez çok ilişkili veri madenciliği tekniği 2005 yılında gerçekleştirilmiştir. Bu çalışmada kavram öğrenme, kavram ile kavramı gerçekleme önkoşulları arasındaki eşleştirme olarak tanımlanmış ve ilişkisel kural madenciliği alanında buluşsal yöntem olarak kullanılan Apriori kuralı örüntü uzayını küçültmek amacı ile kullanılmıştır. Önerilen sistem, kavram örneklerinden ters çözünürlük operatörü kullanılarak genel kavram tanımlarını oluşturan ve bu genel örüntüleri Apriori kuralını temel alan bir operatör yardımı ile özelleştirerek güçlü kavram tanımlamaları elde eden melez bir öğrenme sistemi olarak tanımlanmıştır. Sistemin iki farklı sürümü, üç popüler veri madenciliği problemi için test edilmiş ve sonuçlar önerilen sistemin, en gelişkin ilişkisel veri madenciliği sistemleri ile karşılaştırılabilir durumda olduğunu göstermiştir (Toprak, 2005).

  Coşku Erdem, 2006 yılında, matematiksel morfoloji kullanarak yoğunluk temelli kümeleme adında bir uygulama gerçekleştirmiştir. Bu uygulamadaki algoritma veri depolarının imgelere benzerliğinden yola çıkarak bir imge işleme tekniği olan gri tonlu morfolojinin çok boyutlu veri üzerine uygulanması temeline dayanmaktadır. Önerilen bu algoritmanın gerek sentetik gerekse doğal veri üzerindeki başarımı değerlendirilmiş ve uygun parametrelerle çalıştırıldığında başarılı ve yorumlanabilir sonuçlar üretebildiği görülmüştür. Ek olarak, algoritmanın işlemsel karmaşıklığının düşük boyutlu veri için veri noktası sayısı ile doğrusal, yüksek boyutlu veri içinse temelde morfoloji işlemlerine bağlı olarak boyut sayısı ile üstel olarak artığı hesaplanmıştır (Erdem, 2006).

  T. Tugay Bilgin ve A. Yılmaz Çamurcu, veri madenciliğinde güncel araştırma alanlarından biri olan çok boyutlu veri tabanları ve bunların görselleştirilmesinde kullanılan görselleştirme tekniklerini incelemiş ve bu alanda çalışmalar gerçekleştiren araştırma grupları ve bunların geliştirdikleri yeni yöntemler ve teknikleri irdelemiştir. Ayrıca başka bir çalışmada T. Tugay Bilgin, veri akış diyagramları ve veri akışı tabanlı veri madenciliği süreçleri görselleştirilmesini açıklamıştır. Üç farklı tür veri akış tabanlı yazılımı incelemiş ve detaylı özelliklerini karşılaştırmıştır (Bilgin ve Çamurcu, 2008; Bilgin, 2009).

  2004 yılında Serkan Toprak tarafından, ilişkisel veri tabanları üzerinde çoklu ilişkisel yapıdaki ortak kuralları bulmayı sağlayan bir uygulama geliştirilmiştir. Uygulama altyapısı olarak ilişkisel veri tabanlarındaki desenleri tanımlayabilen, bu desenleri eklerle geliştirebilen ve bu desenlerin çeşitli ölçmeleri için gerekli sayımları veri tabanından temel yetilerle alan bir yapı kullanılmıştır. Bu altyapı, veri tabanının tanımında yer alan bilgileri kullanarak arama alanının daraltılmasını sağlamıştır. Bu çalışma, Apriori algoritmasını arama alanını daha da küçültmek için kullanarak ve altyapı tarafından desteklenmeyen özyinelemeli desenlerin bulunmasını sağlayarak altyapıya yenilikler getirmiştir. Apriori algoritması her tablo üzerinde sık karşılaşılan desenleri bulmak için kullanılmış ve bu algoritmanın gerekli destek değerini bulma yöntemi değiştirilmiştir. Veri tabanındaki özyinelemeli ilişkileri belirlemek için bir yöntem sunulmuş ve uygulama bu durumlar için tablo kısaltmalarının kullanıldığı bir çözüm sağlamıştır. Veri tabanı alanlarında saklanan sürekli değerleri bölümleyebilmek için eşit derinlik yöntemi kullanılmıştır. Uygulama bir veri madenciliği yarışması olan KDD Cup 2001’den alınan örnek genlerde yer tahmini problemi ile test edilmiş ve ortaya çıkan sonuçlar yarışmayı kazanan yaklaşımın sonuçlarıyla karşılaştırılmıştır (Toprak, 2004).



  Ulaş Baran Baloğlu tarafından 2006 yılında gerçekleştirilen uygulamada, DNA veri kümesinde bulunan biyolojik sıralar üzerinde veri madenciliği yapılarak tekrarlı örüntüler ve potansiyel motifler çıkartılmıştır. Önerilen yöntem yukarıdan-aşağı veri madenciliği ve genetik algoritma tabanlı hibrit bir çözümdür. Bu yöntemdeki yaklaşım iki temel adımda ele alınabilir. Birinci adım, genetik algoritma kullanılarak aday motiflerin bir popülasyonunun oluşturulmasıdır. Bunu diğer nesillerin genetik operatörler ve uygunluk fonksiyonu kullanılarak oluşturulması takip eder. İkinci adımda, veri madenciliği yöntemi yukarıdan-aşağı haliyle kullanılarak aday motiflerin uygunluğunun değerlendirilmesi yapılır. E. coli bakterilerinden alınmış DNA sıralarında önerilen yöntem denenerek uygulanabilirliği ve üstün yanları gösterilmiştir (Baloğlu, 2006).

  Barış Yıldız 2010 yılında, sık kümelerin bulunması için gizliliği koruyan bir yaklaşım önermiştir. Ayrıca bu çalışmada Matrix Apriori algoritması üzerinde değişiklikler yapılmış ve sık küme gizleme çerçevesi de geliştirilmiştir (Yıldız, 2010).

  Yasemin Kılınç 2009 yılında hazırladığı bir çalışmada, birliktelik kuralları için bir yöntem sunmuştur. Apriori algoritmasının ürettiği kurallar elenerek bir elektronik firmasında üretim ve mal giriş kalite verileri üzerinde uygulanmıştır. Ortaya çıkarılan kurallar test verileri ile doğrulanmış ve sonuçlar analiz edilmiştir (Kılınç, 2009).

Veri Madenciliğinin Kullanıldığı Alanlar

  Büyük hacimde veri bulunan her yerde veri madenciliği kullanmak mümkündür. Günümüzde karar verme sürecine ihtiyaç duyulan birçok alanda veri madenciliği uygulamaları yaygın olarak kullanılmaktadır. Örneğin pazarlama, biyoloji, bankacılık, sigortacılık, borsa, perakendecilik, telekomünikasyon, genetik, sağlık, bilim ve mühendislik, kriminoloji, sağlık, endüstri, istihbarat vb. birçok dalda başarılı uygulamaları görülmektedir (İnan, 2003; Albayrak, 2008; Akgöbek ve Çakır, 2009).

  Son 20 yıldır Amerika Birleşik Devletleri’nde çeşitli veri madenciliği algoritmalarının gizli dinlemeden, vergi kaçakçılıklarının ortaya çıkartılmasına kadar çeşitli uygulamalarda kullanıldığı bilinmektedir. Kaynaklar incelendiğinde veri madenciliğinin en çok kullanıldığı alan olarak tıp, biyoloji ve genetik görülmektedir.



Veri Madenciliğinin Tarihi

  Günümüzde neredeyse her eve bilgisayar girmiştir ve internet erişimi hemen hemen her yerden sağlanmaktadır. Disk kapasitelerinin artması, her yerden bilgiye ulaşma olasılığı, bilgisayarların çok büyük miktarlarda veri saklamasına ve daha kısa sürede işlem yapmasına olanak sağlamıştır. Geçmişten günümüze veriler her zaman yorumlanmış, bilgi elde etmek istenmiştir ve bunun için de donanımlar oluşturulmuştur. Bu sayede bilgi, geçmişten günümüze taşınır hale gelmiştir.

  1950’li yıllarda ilk bilgisayarlar sayımlar için kullanılmaya başlamıştır. 1960’larda ise veri tabanı ve verilerin depolanması kavramı teknoloji dünyasında yerini almıştır. 1960’ların sonunda bilim adamları basit öğrenmeli bilgisayarlar geliştirebilmişlerdir. Minsky ve Papert, günümüzde sinir ağları olarak bilinen perseptron’ların sadece çok basit olan kuralları öğrenebileceğini göstermişlerdir (Adriaans ve Zantinge, 1997). 1970’lerde İlişkisel Veri Tabanı Yönetim Sistemleri uygulamaları kullanılmaya başlanmıştır. Bilgisayar uzmanları bununla beraber basit kurallara dayanan uzman sistemler geliştirmişler ve basit anlamda makine öğrenimini sağlamışlardır. 1980’lerde veri tabanı yönetim sistemleri yaygınlaşmış ve bilimsel alanlarda, mühendisliklerde vb. alanlarda uygulanmaya başlanmıştır. Bu yıllarda şirketler, müşterileri, rakipleri ve ürünleri ile ilgili verilerden oluşan veri tabanları oluşturmuşlardır. Bu veri tabanlarının içerisinde çok büyük miktarlarda veri bulunmaktadır ve bunlara SQL veri tabanı sorgulama dili ya da benzeri diller kullanarak ulaşılabilir. 1990’larda artık içindeki veri miktarı katlanarak artan veri tabanlarından, faydalı bilgilerin nasıl bulunabileceği düşünülmeye başlanmıştır. Bunun üzerine çalışmalara ve yayınlara başlanmıştır. 1989, KDD (IJCAI)-89 Veri Tabanlarında Bilgi Keşfi Çalışma Grubu toplantısı ve 1991, KDD (IJCAI)-89’un sonuç bildirgesi sayılabilecek “Knowledge Discovery in Real Databases: A Report on the IJCAI-89 Workshop” makalesinin KDD (Knowledge Discovery and Data Mining) ile ilgili temel tanım ve kavramları ortaya koyması ile süreç daha da hızlanmış ve nihayet 1992 yılında veri madenciliği için ilk yazılım gerçekleştirilmiştir. 2000’li yıllarda veri madenciliği sürekli gelişmiş ve hemen hemen tüm alanlara uygulanmaya başlanmıştır. Alınan sonuçların faydaları görüldükçe, bu alana ilgi artmıştır. Veri madenciliğinin tarihsel gelişim süreci, Şekil 1.2’de gösterilmiştir.



Veri Madenciliğinin Tanımı

Bu güne kadar farklı kaynaklarda veri madenciliğinin pek çok tanımıyla karşılaşılmıştır. Bu kaynaklardan bazılarına göre veri madenciliğinin tanımı şöyledir:


  •  Jacobs (1999), veri madenciliğini, ham datanın tek başına sunamadığı bilgiyi çıkaran, veri analizi süreci olarak tanımlamıştır (Jacobs, 1999). 
  •  Veri madenciliği, büyük veri yığınları arasından gelecekle ilgili tahminde bulunabilmemizi sağlayabilecek bağlantıların, bilgisayar programı kullanarak aranması işidir (Doğan ve Türkoğlu, 2007). 
  •  Hand (1998), veri madenciliğini istatistik, veritabanı teknolojisi, örüntü tanıma, makine öğrenme ile etkileşimli yeni bir disiplin ve geniş veritabanlarında önceden tahmin edilemeyen ilişkilerin ikincil analizi olarak tanımlamıştır (Hand, 1998). 
  •  Kitler ve Wang (1998), veri madenciliğini oldukça tahminci anahtar değişkenlerin binlerce potansiyel değişkenden izole edilmesini sağlama yeteneği olarak tanımlamışlardır (Kitler ve Wang, 1998). 


Bu tanımlardan yola çıkarak şöyle bir tanım yapmak mümkündür: Veri madenciliği, çok büyük miktarda bilginin depolandığı veri tabanlarından, amacımız doğrultusunda, gelecek ile ilgili tahminler yapmamızı sağlayacak, anlamlı olan veriye ulaşma ve veriyi kullanma işidir.


Veri Madenciliği

  Veri madenciliği, büyük miktarlardaki verinin içinden geleceği tahmin edilmesinde yardımcı olacak anlamlı ve yararlı bağlantı ve kuralların bilgisayar programlarının aracılığıyla aranması ve analizidir. Ayrıca veri madenciliği, çok büyük miktardaki verilerin içindeki ilişkileri inceleyerek aralarındaki bağlantıyı bulmaya yardımcı olan ve veri tabanı sistemleri içerisinde gizli kalmış bilgilerin çekilmesini sağlayan veri analizi tekniğidir (Kalikov, 2006). Bu işlemlerin uygulama alanı oldukça geniştir. Bu alanlar içerisinde Şekil 1.1’de gösterildiği gibi, veri tabanı sistemleri, Veri Görselliği, Yapay Sinir Ağları, İstatistik, Yapay Öğrenme, vb. gibi disiplinler bulunmaktadır.

  Veri madenciliği araçları kullanılarak, işletmelerin daha etkin kararlar almasına yönelik karar destek sistemlerinde gerekli olan eğilimlerin ve davranış kalıplarının ortaya çıkarılması mümkün olmaktadır. Geçmişteki klasik karar destek sistemlerinin kullanıldığı araçlardan farklı olarak, veri madenciliğinde çok daha kapsamlı ve otomatize edilmiş analizler yapmaya yönelik, birçok farklı özellik bulunmaktadır (İnan, 2003). 

  Veri madenciliğinin işletmelere sunduğu en önemli özellik, veri grupları arasındaki benzer eğilimlerin ve davranış kalıplarının belirlenmesidir. Bu süreç aynı zamanda otomatize edilmiş bir biçimde hayata geçirilebilmektedir. Bu fonksiyon özellikle hedef pazarlara yönelik pazarlama faaliyetlerinde yoğun olarak kullanılmaktadır (İnan, 2003). Başka bir özelliği ise daha önceden bilinmeyen, veri ambarları içerisinde bulunan ancak ilk etapta görülemeyen bilgilerin ortaya çıkarılabilmesidir. Örneğin bir firma sattığı ürünleri analiz ederek, ilerideki kampanyalarını şekillendirebilir ya da sattığı ürünler arasındaki bağları keşfedebilir. Burada amaç daha önceden fark edilmeyen veri kümelerinin bulunabilmesidir. 

  Günümüzün ekonomik koşulları ve yaşanan hızlı değişim ortamlarında, iş deneyimi ve önsezilere dayanarak alınan kararlarda yanlış karar alma riski çok yüksektir. Riski azaltmanın tek yolu bilgiye dayalı yönetimi öngören karar destek çözümleridir. Veri madenciliği teknikleri gerçek anlamda bir karar destek sistemi oluşturmada olmazsa olmaz araçlardır. Bu noktada bilgi teknolojilerinden yararlanmak kaçınılmaz olmuştur. 




 

Veri Madenciliğine Giriş

   


  Bilgisayar sistemleri ile üretilen veriler tek başlarına değersizdir, çünkü çıplak gözle bakıldığında bir anlam ifade etmezler. Bu veriler belli bir amaç doğrultusunda işlendiği zaman bir anlam ifade etmeye başlar (Kalikov, 2006). Bilgi bir amaca yönelik işlenmiş veridir. “Ham veri” veya yalnız geçmişte ne olduğunun bir görüntülemesi olan “enformasyon”a dayalı karar almak mümkün değildir. Geçmişte yaşanan kötü bir tecrübeden kaynaklanan kaybın engellenmesi de mümkün değildir. Önemli olan geçmişe ait olaylara dair gizli bilgilerin keşfedilmesi, ileriye yönelik durumsal öngörüler veren modeller ile önceden tedbir almamızı sağlayacak bir yönetim anlayışına geçmek ve olası kayıpları öngörebilmektir (İnan, 2003). Bu yüzden büyük miktardaki verileri işleyebilen teknikleri kullanabilmek büyük önem kazanmaktadır. Bu ham veriyi bilgiye veya anlamlı hale dönüştürme işlemleri veri madenciliği ile yapılabilmektedir (Kalikov, 2006). Veri madenciliği, bu gibi durumlarda kullanılan büyük miktardaki veri setlerinde saklı durumda bulunan örüntü ve eğilimleri keşfetme işlemidir (Thuarisingham, 2003). 
   Günümüzde veri madenciliği işletmeler için çok önemli hale gelmiştir. Çok büyük ölçekli veriler, farklı alanlardaki büyük ölçekli veri tabanları içlerinde değerli verileri bulunduran bir veri madeni gibi düşünülebilir. Bu büyüklükteki verilerin analizi, bu analiz sonucunda daha anlamlı bilgi elde etme ve elde edilen bilgiyi yorumlama işi, insan yeteneği ve ilişkisel veri tabanlarının yapabileceklerini aşmaktadır. Bilhassa dijital veri miktarında artış patlaması ve buna karşılık, bu veriler üzerinde araştırma ve uygulama yapan kişilerin sayısının değişmemesi, çalışmaları veri madenciliğine doğru zorlamıştır. Bu ihtiyaçların sonucunda otomatik ve akıllı veri tabanı analizi için yeni kuşak teknikler doğmuştur. Bu teknikler öyle olmalıdır ki, veriyi akıllı ve otomatikleşmiş şekilde işe yarar bilgiye dönüştürebilsin. Tüm bunların sonucunda veri madenciliği cevap olarak sunulmuş ve giderek önemini artıran bir araştırma alanı haline gelmiştir. Bu çalışmada veri madenciliğinin günümüz disiplinleri arasında geldiği nokta, Türkiye’de veri madenciliği üzerine yapılan çalışmalar ve gerçekleştirilen uygulamalar incelenmiştir.