şükela:  tümü | bugün
  • ing. belli bir hipotezi test etmek isteyen arastirmacinin örneklemini (sample) secerken veya olustururken, bilincli veya farkinda olmadan yaptigi hatalara verilen genel ad, secilim önyargisi. bu tür önyargilar istatistiksel testlerin sonuclarini hatali bir sekilde etkileyebilir.

    örnek: kucuk (piyasa degeri) sirketlerin hisse senetlerinin yillik ortalama getirilerinin büyük sirketlere kiyasla daha yüksek oldugunu iddia eden arastirmaci böyle bir önyargiya su sekilde yakalanabilir. sectigi örneklemdeki sirketler bugüne kadar iflas etmeden gelebilmis sirketlerdir. gercekte kücük sirketler büyüklere nazaran daha sik iflas ediyorlarsa kücük sirketlerin hisse senetlerinin ortalama getirileri de aslinda daha az olacaktir. ancak arastirmaci sadece iflas etmemis, basarili sirketleri inceledigi icin bu önemli etki yanlis secilmis veri setiyle yapilan istatistiksel testlerde farkedilmeyecektir.
  • bir ornek de wikipedia'dan: sigara tiryakiliginin zindeligi (fitness) olumsuz etkilemedigini "ispat" etmek isteyen arastirmaci deneklerini secmek icin bir fitness center'a gider de sigara tiryakilerini fitness center'daki ilerlemis aerobik sinifindan, sigara icmeyenleri ise zayiflama programina devam edenlerden secerse kallavi bir secilim onyargisiyla hareket eder. boylelerine arastirmaci degil sahtekar denir tabii.

    (bkz: confirmation bias)
  • eskiden bilimsel makalelerde one surulen tezi desteklemek icin yapilan sayisal analizlerde ornek uzay secimi dolayisiyla cok yapilan bir hataydi. bu hatalari yapanlar hatanin farkina varanlar tarafindan fena halde madara edildi, ayara maruz kaldilar.

    yaptiklari hata aslinda bir kez farkina varildi mi cok basit bir olay ama onlar bunun farkina varamadilar, anlayis farkliydi. bu hatayi bir ornekle aciklamak gerekirse:

    diyelim ki analizci datayi aliyor, bakiyor bilimum inclemelerde bulunuyor. sonra da diyor ki, birinci degisken ile ikinci degisken arasinda bariz bir iliski var. sonra da bu tezini savunan makaleyi yaziyor sayisal analizini yapiyor ve sonuclarini yayinliyor.

    simdi burada bilimsel calisma metodolojisinden sapmalar var. bilimsel arastirma uc asamali bir olaydir ve tek yonde akmalidir:

    1-) hipotez belirlenmesi
    2-) data toplanmasi
    3-) analiz ve sonuclarin degerlendirilmesi

    ornek verdigimiz arastirmaci once dataya bakti, hipotezini dataya gore belirledi ve yine ayni datayi kullanarak analizini yapti. bilim dunyasi acisindan duble gunah islemis oldu. hipotezin dataya degil de niteliksel argumana dayali olmasi gerekirken bunu da yapmadi.

    simdi bu durum nelere yol acar:

    - sampleda sanki varmis gibi gorunen bir iliski sadece o sample icin gecerli olabilir ve bu durum hipotezin baska samplelarda tamamen yanlis sonuclar vermesine ya da hic tutmamasina yol acabilir.

    - iliski gercekten varsa bile bunu bu sekilde test etmek parametrelerin yogun bir hataya ve onyargiya sahip olmasina sebep olur.

    bu hatalar en cok ekonomi ve finansta yapilir, cunku bu bilimlerde yogun bir sekilde data ile calisilir ama datayi tekrar toplamak gibi bir sans yoktur, bir sey bir kere olur ve baska sekilde olsa ne olurdu sorusunun cevabi hic bariz degildir, butun istatistiksel cikarimlar tek bir gerceklesme baz alinarak yapildigi icin arastirmacilar cogunlukla bu hataya duserler.
  • probabilistic yerine nonprobabilistic örneklemlerin kullanılması durumunda da aynı hataya düşme olasılığı son derece yüksektir.
  • ornek: cumhuriyet gazetisinde ya da zaman gazetesinde yapilan anketlerde (yapiliyorsa) dogal olarak selection biasa rastlanir. bu durum herhangi bir gazetenin ya da tv kanalinin yaptigi anket icinde gecerlidir (cumhuriyet ve zaman ismini daha rahat anlasilmasi icin telaffuz ettim). dolayisi ile bilimsel degerleri yoktur. en azindan ciddi bir arastimada kullanilmasi oldukca sakincalidir. (tabii ki arastirma o spesifik yayinin takipcileri icin yapilan birseyse selection biastan kaynaklanan sorun buyuk olcude azalir. evet yine bir sekilde mevcut olacaktir, ama ne kadar buyuk bir sorun olacagini anlamak icin anketin tam olarak nasil yapilidigina goz atmak gerekir.)
  • oldukça sinsi olabilir.

    örneğin havaalanına gittiniz. uçaklar genelde dolu mu uçuyor boş mu uçuyor öğrenmek istiyorsunuz. rastgele 10 kişiye sordunuz: "indiğiniz uçak dolu muydu?". 10'u da dolu dedi. genelde dolu gibi, değil mi?

    değil. dolu uçaklar - haliyle - boş olanlardan daha fazla yolcu salıyor havaalanına. dolayısıyla sizin dolu uçaktan inen yolculardan birine rastlamanız çok daha yüksek bir olasılık.

    yolcular hakkında edindiğiniz bilgi ile (yolcuların ne kadarı dolu uçaklara mensup?) uçaklar hakkında (uçakların ne kadarı dolu?) çıkarımda bulunmaya çalıştınız. dolayısıyla örnekleminiz yanlış oldu.

    anlamadıysanız şunu düşünün. uçakların yarısı bomboş uçuyor, yarısı da tamamen dolu. siz de havaalanında inen yolculara soruyorsunuz...
  • en çok yanlış anlaşılan konulardan biridir, sonuçlara yanlılık katmaktan ziyade yorumlamasını duruma göre yapmak gerekir. yani ben zaten survive eden firmalara bakıyorum dersin (intensive margin) konu kapanır, ben zaten x şehri için bakıyorum dersin konu kapanır, ben sadece zengin muhide bakıyorum dersin konu kapanır gibi.

    örnek: faaliyete devam eden firmaların olduğu bir örneklemde, atıyorum finansal kriz, küçük ve büyük firmaların hisse senedi değerlerindeki farkın istatistiken önemli bir bölümünü açıklamamaktadır.