şükela:  tümü | bugün
  • bir data analizi konusu. elde var olan bilgileri modelleme (modeling), machine learning ve veri madenciligi (data mining) gibi teknikler ile birlikte kullanarak gelecege dair ya da bilinemeyecek bir dataya dair tahmin yapmaya calisan bir alandir.

    sikici tanimi gectikten sonra, sunu cok kolayca soyleyebilirim ki eger dogru kullanilirsa kullanani cok kolay zengin edebilecek bir yontemdir. su anki populer kullanim alanlari sunlardir:

    - risk yonetimi
    - marketing
    - finans
    - sigorta
    - telekomunikasyon
    - satis
    - seyahat sektoru
    - saglik sektoru
    - ilac sanayii
    - meteoroloji
    - kredi skoru
    ve niceleri...

    mesela birkac ornekle baslayalim (ornegi atlamak icin tireli yerden devam edebilirsiniz):
    evinizi sigortalatacaksiniz. boyle bir durumda herkes en ucuz sigorta sirketini bulma derdinde oluyor haliyle. ama bir de sigorta sirketinin guvenilir olmasini istiyor. cok sigorta sirketi var, basiniza bir sey geldiginde sigortaniz olsa dahi yan cizmeye basliyorlar. boyle durumlarda hakkaten size sahip cikacak bir sigorta sirketi bulmak istiyorsunuz.

    sigorta sirketleri de bu durumun farkinda, musterinin kendine gelmesi icin olabildigince fiyatlari dusuk tutmaya calisiyor ama musteri de kendinden memnun kalsin ki daha cok musteri gelsin istiyor, bu sebeple de musterinin her turlu kaybini karsilamak icin fiyati yukseltmesi gerekiyor. ayni zamanda da kar yapmasi lazim. iste boyle bir durumda bu yontemi en iyi kullanan en guzel fiyati vermis oluyor. yani hem ucuz fiyat vermis oluyor, hem sizi memnun etmis oluyor.

    yalniz bunu yapmak da o kadar kolay degil. oncelikle musterinizi iyi tanimak lazim (kredi skoru, yasadigi yer, vs. ). sonra musterinizin nesini, maksimum ne kadar zararini, hangi durumlarda nasil sigortalayacaginizi belirlemeniz lazim.

    burada da musteri olabildigince cok seyini en ucuza sigortalatmak isteyecektir. sonra siz oturup istatistik yapmaya basliyorsunuz. mesela kaskodan bahsediyorsak. kaza yapma istatistikleri, hirsizlik istatistikleri, arabalarin marka/modeline gore bozulma ihtimali, parca fiyatlari, odenecek iscilik maliyetleri, musterinin daha onceki kaza istatistikleri, trafik cezalari, sigorta sirketinin masraflari + kari, hedef musteri sayisi, gidiyor da gidiyor.
    aslinda sigorta sirketi icin sadece bu paragraf onemli. ellerinde boyle bir data oluyor ve bu dataya gore sizin odeyeceginiz en optimum parayi bulmaya calisiyorlar. bu para da sizin kontrat yaptiginiz sure icinde araba icin sigorta sirketine cikaracaginiz muhtemel masraf. eger sigorta sirketinin elinde yeteri kadar musteri varsa [masraf * masrafin cikma ihtimali]'ni cok kolay uygulayabiliyorlar.

    --------------------
    simdi ornekten bu yontemi aciklamak gerekirse:
    ilk basta bir kapsam (scope) belirlemeniz gerekiyor. boylece gerceklesmesini en iyi tahmin edebileceginiz seyleri bu kapsama dahil ediyorsunuz. bu kapsam dahilindeki durumlari cok iyi tahmin edebiliyorsaniz o aralikta istediginiz gibi at kosturabilirsiniz.
    yalniz sectiginiz kapsamin kullanilabilir olmasi lazim. bir sigorta sirketi olarak arabayi nukleer bombaya karsi korumaya soz veriyorsaniz, karsidaki insana cok bir sey ifade etmez. en genel senaryolarin, en cok tahmin edilebilir olanlarini secmeniz lazim.

    kapsami belirlediniz, simdi modeller cikarmaniz lazim. mesela atiyorum kaza icin su kadar sigorta, hirsizlik icin su kadar, yangin icin su kadar gibi oranlarla gelmelisiniz. karsilayacaginiz oranlari hepsi icin farkli farkli yapmali, hepsinden birkac eleman bulunduran paketler hazirlamali ve musterinize sunmalisiniz.

    ve en onemlisi, verilerinizi surekli test etmelisiniz. cunku zaman gectikce varsayimlariniz gecersizlesebilir, sartlar degisebilir ya da aslinda daha iyi bir cozum uretebilirsiniz. bunun icin de degisik yontemler mevcuttur:

    random analysis: tahmin ettiginiz seyin, rastgele secilmis bir cozum karsisindaki basarisi. mesela yarin elinizdeki n tane musteriden 3 tanesinin kaza yapacagi tahminini yapiyorsa kendi analiziniz, bir de rastgele bir sayi (0<x<n) bulup o kadar tanesi kaza yapacak diye tahmin ettirip kendi sonucunuzla arasindaki farka bakabilirsiniz. genelde cogu naive predictive algoritma/analysis daha burada patlamaya baslar. o kadar istatistik analiz vs yapmisinizdir ama rastgele bir cevap sizden daha iyidir.
    daha iyi test icin, rastgele birden cok cevap bulup, en iyi rastgele sonucla kendi sonucunuzu karsilastirmaniz daha iyi olacaktir.

    average analysis: bunu duz butun gunlerdeki kaza yapan insanlarin ortalamasini alip yapabilirsiniz. en guncel veriye ortalama hesabinda daha cok agirlik vererek yapabilirsiniz. dataset'inizde en az ve en cok kaza yapilan gunleri haric tutarak, ya da ekstrem gunlerin belli bir yuzdesini haric tutarak bir hesap yapabilirsiniz. mesela sagdan soldan %3-5 bir seyler kesip ortadaki %90'in ortalamasinin sonucunu sizinkiyle karsilastirabilirsiniz. bu da size, ortalamadan daha iyi olup olmadiginizi gosterir.

    median analysis: ortadaki elemanlara bakmak demek bu da. mesela elinizde bir gunde olan kaza sayisina dair istatistikler var. bunlari kaza sayisina gore siralayip en ortadaki elemanda kac kaza olduysa onu alabilirsiniz. ve kendi sonucunuzla karsilastirabilirsiniz. normalde yapilan median ile average'in biraz karisimi olur, ortadan bir set secilir (median) ve ona gore agirlikli ortalama (average) alinip sonuc bulunur.

    en populerleri ve en basitleri bunlar olmakla birlikte daha baska yontemler de mevcuttur (asagidaki kaynaklardan bakabilirsiniz).

    real value analysis: eger tahminleriniz yukaridaki butun testleri geciyorsa, artik sonuclarinizi gercek degerlerle karsilastirabilirsiniz. bu da o gun hakkaten olan kaza sayisina karsi sizin tahmin ettiginiz kaza sayisi. ideal durumda hepsini bilmeniz gerekir ama gelecek tam olarak bilinemeyecegi icin bu asla olmayacaktir. bu yuzden gercek degerlere ne kadar yakinsiniz, uzakliginiz cok mu yoksa kabul edilebilir mi bunu anlamaniz lazim. her gun daha da yaklasmaya calismaniz lazim.

    bunun yontemlerinden birisi de elinizdeki musteri havuzunu artirmaktir. eger musteri havuzunuz ne kadar genisse gercek degerler teorik degerlere o kadar yakin olacaktir.
    sonra iyi musteri/kotu musteri analizi yapmaniz lazim. butun inputlar analizinize uygun olmasina ragmen, arka tarafta bilinmeyen ya da hic dusunmediginiz seyler olabilir. hatta manipulasyonlar olabilir. her sey uygun oldugu halde tahminlerinizi anlamadiginiz bir sekilde surekli bozan musterileri olabildigince kendinizden uzak tutmaniz gerekir.
    bu tarz analizlerde para kazanmaya basladiginiz anda havuzunuzu buyutmeye calisirsiniz. yalniz ac gozlu davranip kurallariniza uymayan sample'lari surekli bir bicimde havuzunuza dahil etmek oncelikle hata yapmaniza, havuz boyle elemanlarla genisledikce, hatanin aslinda kendi programinizda oldugunu dusunmenize sebep olacaktir. musterinin kendisi de aslinda kapsamin bir parcasidir.

    boylece tekrar kapsama geri donerek en basa geri gelmis oluyoruz. zaten bu tarz sistemlerin surekli soyle bir dongude olmasi gerekiyor:
    scoping -> modeling -> analysis -> testing -> processing results -> scoping -> mo....

    eger bu kurallara uyar da tamamen bilimsel bir arastirmayla bu isi yuruturseniz, surekli kendinizi, analizinizi, setinizi, testinizi yenilerseniz/gelistirirseniz mutlaka bir yerlerde basarili olmaya baslayacaksinizdir.

    guzel bir derleme icin:
    1. http://en.wikipedia.org/wiki/data_analysis
    2. http://en.wikipedia.org/wiki/predictive_analytics
  • istatistikten veri madenciliğine, oyun teorisinden duygu analizine uzanan çok geniş yelpazede tekniği içeren analitik.
    türkçeye "kestirimsel analitik" diye çeviren kaynaklar var. amaç cari ve tarihsel gerçekleri analiz ederek geleceğe ilişkin kestirimler yapmak.
    (bkz: sentiment analysis)
    (bkz: opinion mining)
  • gelecegi ongoru uzerinde kurulmus kestirimsel analiz olarakta bilinir.

    kaba tabirle elektronik falcilik diyebiliriz.

    bir ornegi icin:

    (bkz: deepmind)
  • hillary clinton anketlerde %70'lerle öndeyken trump'ın atak yapabileceğini hatta seçimi kazanabileceğini tahmin eden ünlü istatistikçi nate silver'ın kullandığı sistemmiş.