Çağın bilgi çağı olduğunu yenilemekte fayda var. Bundan 50 yıl önce sanayi devrimlerinin aşırı hız kazandığı ve sayısız yeni iş imkanı ile fabrikaların, üretim alanlarının açıldığını biliyoruz. Bugün de yaşanan aslında buna çok benzer bir durum. Tek fark ise evrilen şeyin fiziksel ortamlar değil sanal ortamlar olması. Ham maddenin de demir çelik gibi fiziksel girdilerden bilgi girdisine dönüşmesi.
Eskiden ham madde temini bir sorundu. Günümüzde de bu konuda adımlar kimi zaman yetersiz kalabiliyor. Aynı durum sanal dünya için de geçerli. Siz olsaydınız sanal dünyada ham maddenizi nereden bulurdunuz? Bu konuda ajanslar, araştırma ve anket firmaları sizin için sektörel analizler, araştırmalar yapabilir. Bununla birlikte bir çok bilgiye ücretsiz de sahip olabilirsiniz. Tek ihtiyacınız bir bilgisayar ve internet. Gerisi veriyi bulup almaktan ibaret. İşte tam burası, veri madenciliğinin çıkış noktası. Net bir tanım olmasa bile veri madenciliği; büyük miktarlarda veriyi işlemek, kullanmak ve anlamlı ilişkiler kurmak için toplama ve depolama süreçlerini ifade eder.
İstatistik & Makine Öğrenmesi
Veri istatistik alanının ana girdisidir. İstatistikte verinin miktarı başarılı tahminler ile doğru orantılıdır. Yine son yılların popüler alanları olan yapay zeka ve makine öğrenmeside veriyi birinci elden kullanır hale gelmiştir. Bu iki alanda yaşanan gelişmeler sosyo kültürel bir çok alanı etkilediği için insanların ve kurumların gözünde kıymeti artmıştır. Örneğin makine öğrenmesi teknikleri ile bir çok hastalık daha erken, daha doğru ve daha kolay yöntemler ile teşhis edilebilir olmuştur. Bunun insani yönleri ile birlikte bir çok ticari yönü de bulunmaktadır. Facebook ve Google gibi büyük şirketlerin bizlerden topladığı bilgiler ile psikolojik analizler yapılabilmekte, bunlarla seçimler kazanılmakta. Reklamları tam da aradığınız şeyler ile ilgili görmektesiniz. Tüm bu gelişmelerin arkasında bilgi temelleri üzerine inşa edilmiş istatistik ve makine öğrenmesi var. Gel gelelim bu kadar veriyi toplamak ve toplanan verilerin niteliği, sizin için mahremiyet gerektiren şeyleri de barındırması bazı etik soruları da beraberinde getiriyor.
Bu konuda iki yönlü düşünmek gerektiğine inanıyorum. Tabi ki kişisel verilerimizin bizim bilgimiz dışında alınıp, satılıp, paylaşılmasını istemeyiz. Bununla birlikte Google beni dinliyor paranoyaları da yanlış. Eğer çok önemli bir kişi değilseniz Google, Facebook sizi dinlemez. Hem bazı noktalarda paylaştığınız bilgiler can kurtarabilir. Eğitimi geliştirebilir, ekonomiyi canlandırabilir. Paylaşmak güzeldir.
Veri Türleri
Verileri bölümlerken isimlendirmeler değişse bile 2 türe bölünmektedir. Birincisi etiketsiz, temizlenmemiş ya da sayısallaştırılmamış veriler. Diğeri ise etiketli, temizlenmiş ve sayısallaştırılmış veriler. Aslında temel fark birisi işlenmeye hazır diğeri ise işlenmek için bir ön temizlik aşaması geçirmesi gerek. Bir kaç örnek vermek gerekirse, düşüncelerimiz, etiketsiz bir veriyken düşüncelerinizin oluşturduğu EEG cihazları ile ölçülmüş beyin dalgaları etiketli verilerdir. Sizin sevdiğiniz otomobil rengi bir etiketsiz veriyken, şehrinizde satılan araçların renk oranları etiketli veridir. Hava sıcaklıkları da tek başına belirsiz, etiketsiz veriyken, günlere göre sıcaklıklar ve ortalamalar etiketli verilerdir.
50 Satırda Veri Madenciliği
Peki nasıl yapılır bu iş? Benim kendi izlediğim yolda 4 aşama var. İlk aşama veriyi toplama. İkinci aşama bu veriyi depolama. Üçüncü aşama temizlik. Son aşama ise bu verileri analiz kısmı. Ben bununla ilgili bir örnek yaptım ve bunu Youtube üzerinden paylaştım. İzlemek isteyenler için aşağıda videoyu koyuyorum. Burada sadece veriyi çekip, CSV formatında kayıt yapmayı anlattım. Daha sonra bu verilerin nasıl sınıflandırılıp, temizlenebileceğini ve bu verilerden nasıl bir anlamlı bilgi çıkartabiliriz buna bakacağız.
Veri madenciliği ile neler yapabilirsiniz?
Bu işte gerçekten sınır sizin hayal gücünüz. Çünkü internette hayal edebildiğimizin çok ötesinde bilgiler var. Bu bilgileri nasıl kullanacağınız size kalmış. Bir kaç örnek vermek gerekirse; hisse senetlerinin günlük, saatlik değerlerini alabilir ve bu verileri kendini tekrar eden bir periyodu var mı gözlemleyebilirsiniz. Ya da benim daha önceki projemde denediğim gibi eski maç verilerini çekerek tahmin yaptırabilirsiniz. Benim projemde kritikler sonucu net etkisi gözarda edilerek yaptığım için doğruluk oranları düşük. Ama siz futboldan anlıyorsanız daha etkin kriterler belirleyerek daha doğru tahminler yaptırabilirsiniz. Günlük enerji tüketimlerini toplayarak bu verilerde nerelerde kayıplar var inceleyebilir, iyileştirme noktalarını belirleyebilirsiniz. Eğer bir hastalığın teşhisi için gerekli verilere büyük miktarlarda sahipseniz, hastalığı bir doktordan daha iyi tahmin eden bir program yapabilirsiniz.
Aslında en başa dönecek olursak bu iş sizin hayal gücünüze kalmış. Eğer sizin de ilginç fikirleriniz varsa lütfen bana yazın. Sizlere hem yardımcı olmak hem de birlikte ülkemiz ve insanlık için bir şeyler çıkarmaya yardımcı olmaktan mutluluk duyarım.