• türkiyedeki çalışmaların yüzde yüzünde gerçekleşen durum.
  • dert etmeyin, datayla oynar yine onu 0.05'ten küçük hale getirirsiniz. yoksa siz türkiye'de yaşamıyor musunuz? :)
  • istatistiksel olarak anlamlıdır.
  • istatistik alaninin son yillarda en cok tartisilan konularindan birisi. benim icinse onceki entrylerimde de soyledigim gibi sevmedigim bir mesele. arastirmacilarin sirf bunu saglamak icin 40 takla atmasinin ustune sosyal bilimlerdeki bazi dergiler eskiden p degeri yeterli derken artik effect size, confidence interval gibi ek degerler istemeye, bazilari da p-degerini dogrudan reddetmeye basladi. ne oldugundan ve sorunlardan falan bahsedeyim.

    mesela cok sik yapilan bir hata daha isin basinda p-degerinin tanimlanmasinda ve p degeri ustunden yapilan cikarimlarda. p degeri en genel tanim olarak "sifir hipotezi dogru oldugu durumda elimizdeki gibi uc bir veriyi elde etme ihtimalimizdir". burada sifir hipotezi dogru oldugu durumda kismi cok onemli bir sonraki paragrafta deginecegim. daha onceden bazi kitaplarda(ozellikle psikolji ve biyolojide) kurdugumuz hipotezin yanlis olma ihtimali gibi tanimlar gordum ancak bunlar tamamiyle yanlis. bir arastirma psikolojide istatistige giris kitaplarinin %89'unun p degerini yanlis tanimladigini soyluyordu. insanlar daha lisans okurken yanlis bir tanimla basliyor ise. sonra cikip neden bilim alaninda sorunlar yasiyoruz diye tartisiyoruz.

    benzer sekilde ustune cikarimlar da ayni sebepten yanlis olabiliyor.
    (bkz: #126241466) mesela bu entryde p degeri icin:
    "bu su demek, yanlis pozitif, yani aslinda fark yokken testin fark var olarak gosterme ihtimalini dusuk bir seviyede tutuyorsunuz (0.05)."

    denmis. ancak p degeri tip 1 ve tip 2 hatalar ile ilgilenmez cunku en basinda p degeri hesaplamamizi null'in dogru oldugu assumptioni ustune kuruyoruz ve bundan dolayi nulli reddetme ihtimalimiz hakkinda bir sey soyleyemez. yani p degerim kucuk cikinca null kesin yanlis veya elimdeki orneklem sorunlu gibi seyleri matematksel olarak kesin bir sekilde soyleyemeyiz. ha bu konularda yapilan tahmini calismalar var ve dogru bir sifir hipotezini yanlis sekilde reddetme ihtimalimiz 0.05lik bir p degeri ile %23-%50 arasinda. yani 0.05 diye aldigimiz degerden cok cok daha buyuk ve kesin bir degeri yok. baska degiskenlerden etkilenerek farklilik gosteriyor.

    ustune ustluk p degeri calismada orneklem boyutu gibi cok temel bir konudan etkilenen bir sey. 50 orneklem ile elde ettiginiz p degeri ile 300 orneklemden elde ettiginiz p degeri arasinda farklar olacaktir. ha buyuk orneklem hic sorun degil ancak boyle cok temel bir olaydan da dogrudan etkileniyor.

    %23-%50 arasi hata dedik, orneklemden etkileniyor dedik. boyle durumlar varken dogrudan p degerini baz alarak calisma yapmak dogru degil. zaten p degerini cikaran kisi olarak soylenen ronald fischer da p degerinin digerlerinin ustunde bir gosterge oldugunu degil, diger gostergelerle birlikte cikarim yapma da kullanilacak bir arac oldugunu soyluyor. yani p degerim 0.05'in altinda cikti anlamli sonuc cikti diye gobek atma; getir diger degerlere de bakalim demek bu.

    yukarida bahsettigim temel sorunlara ragmen bilimlerin bir cogu uzun yillar boyunca p degerini yucelterek is yapti. sanki tartisilmaz sekilde calismanin degerini gosteren bir aracmis gibi davranildi. p degerini dusuk cikaramayan arastirmalar(null result) basilmadi ve basildiysa da onemli bir kismi deger gormedi. cunku insanlarin kafasinda "e sen yeni bir sey bulmadin ki" vardi. tabi bunun ustune arastirmacilar farkli yollara giristi. alan izin veriyorsa bazilari daha fazla orneklem topladi ve p degerini gerekli seviyeye dusurmeyi basardi. bazilari elindeki verilerle oynadi ve bunu yapti. ikisine de master tezini yazarken birebir sahit oldum. sonra psikiloglar falan cikiyor alanimizda kriz var diye. kriz ise calismalarin replike edilememesi. kotu calisma kurmanin yaninda analiz yapanlarin istatistik bilmemesinin, bilseler de sirf yayin yapmak icin bu tarz dolandiriciklara girmesinin onemli bir etkisi var. astroloji bile bazi calismalardan daha isabetli tahminlerde bulunuyor. hatta bir laf vardir: iktisat erkekler icin astrolojidir diye. tahminler, modeller o kadar kotu ki; ise yarar sonuc cok cok nadir.

    ikinci yansimasi da insanlarin p degero 0.05 ustunde cikinca durumu trending towards significance gibi ucube tabirlerle kurtarmaya calismasi oldu. mesela arastirmada p degeri 0.053 cikmis ve istenen degerin ustunde ama ona da yakin oldugu icin bu tarz akil disi tabirler kullanildi. 0.049 cikinca da bala gote anlamli diye yorumla o zaman. ama yok, p degerine tapiliyor ya onun cok kotu cikmasi mumkun degil. istemediginiz bir sonuc alsaniz bile sugar coat edilecek illa cunku arastirmanin butun onemi buna bagli. daha once baska bir baslikta yazmistim. p degerinin sevmedigim yani bilimi binary bir sisteme sokmasi. ya anlamlidir ya da degildir diye. ancak bu ucube tanimlar bundan da kotu.

    buradan cikarak bunun baska bir sacma yani da 0.049 cok iyi bir arastirmaymis gibi alkislanirken 0.051 ise yaramaz olarak goruluyor. hadi ben p degerine verilen oneme karsiyim da bunu bilimin temeli olarak gorenler buna nasil hayret etmiyor anlamiyorum. ya matematiksel olark aralarinda minnacik bir fark var ama sen gidip ikili sekilde bolup birini yuceltiyorsun. veriye bagli olarak bilgisayarin hesaplama hatasi bile olabilir aradaki fark ama sanki birisi hayatini bosa harcamis gibi davraniliyor.

    ha bir de p degeri dusuk veya cikinca yapilan yorumlarda inanilmaz hatalar oluyor. istatistik kitabi okuyan herkesin gordugu bir kavram vardir: "we reject the null hypothesis" diye. bu dusuk cikinca yapilmasi gereken bir yorumdur ancak sizin sifir hipotezine karsi koydugunuz alternatif hipotezin veya arastirma hipotezinizin dogrulandigini(confirm edildigini) gostermez. ondan dolayi: "0.026'lik bir p degeri, arastirmamizin 3.hipotezini kanitliyor" gibi yorumlar yazilmamali. cunku siz elinizdeki veri ile null hipotez dogru oldugu durumda ulasilmasi zor bir sonuc elde ettiginizi soyluyorsunuz. bu sizin arastirmanizdaki seyin kesinlikle dogru olduguna isaret eden bir gosterge degil. ha tabi bu hipotezler dogrulanamaz demek degil. kullanilmasi gereken tabir "provides support for our third hypotehsis" gibi bir sey. yani "ucunu hipotezimizi destekliyor" tarzinda bir aciklama daha uygun. confirm ediyor gibi tanimlamalari sevmiyorum. tabi bu tartismali bir konu, bilimsel metodoloji ve felsefesi isin icine giriyor daha cok ama hocalarimin bana ogrettigi cikarim sekli bu.

    ayni zamanda "we fail to reject the null hypothesis" gormussunuzdur. bu da p degeri 0.05 ustunde oldugu zaman soylenir. burda da we accept the null hypothesis gibi yine cok yanlis cikarimlar var. null hipotez kabul edilmez ya reddedilir ya da reddetmeyi basaramazsiniz. accept kelimesi asla ama asla kullanilmamali. bu ilki gibi tartismali bir mesele de degi. ilkinde reviewera gore degisebilir ve cok takmayan birisiyse oyle basilabilir(siz yine de kanitlar gibi keskin ifadeler kullanmayin) ama bu ikincisi dogrudan duzeltme alir cunku her acidan yanlis bir kullanim.

    kullanimindan, sorunlarindan ve yorumlanmasindan bahsettim bir de kisisel yorumla bitireyim bari.ben de p degerini sevmememe ragmen kullaniyorum ne yazik ki. cunku regresyon tablosunu gorenin gozu yildizlari aramaya basliyor ve bilimin temel olayi diger insanlara mesaji iletebilmek. ama bu degerin dusuk cikmasina verilen onem son bulsun lutfen. istatistikcilerin olusturduklari topluluklar yillardir buna karsi savas veriyor, daha iyi matematik egitimden gecmis sosyal bilimciler, istatistigi daha detayli ogrenmis stemciler buna karsi geliyor ama yillardir oturmus bir duzeni degistirmesi de p degerli makaleleri reddetme gibi radikal kararlar almadikca cok zor.
  • bulunmaması dünyanın sonu değildir. hatta yeni bir dünyadır.

    hadi biraz artizlik yapayım:

    bilimle ilgilenen ve tezini, iddiasını sınayanlar objektif olmak zorundadır.* kurduğu ekonometrik modelde, ister zaman serisi ister yatay kesit isterse panel veri olsun, elindeki veriyle bir kanıyı ölçen ya da sınayan biri p yi önemsememek zorundadır. onun işi bulduğunu yazmak, bulgularını literatürle karşılaştırmak, bulduklarının nedenleri ve sonuçları hakkında literatürle karşılaştırma yapmak ya da bulduğu yeni bir yaklaşımı , yeni bir değişkeni gerekliliğiyle beraber cümle aleme tanıtmaktır.

    öyle ki kendinden sonra gelenler, hangi veriyle, hangi modelle, hangi zamanda, hangi örneklemle vs. ne gibi sonuçlar olabileceğini görsün, geliştirsin, belki de yeniden sınasın.

    haa. diyelim ki çok sağlam bir teorinin ekonometrik modelini kurdun ve teoriyle çelişen sonuçlar elde ediyorsun.

    önce verini kontrol et. sonra modeli kontrol et. örneklemi kontrol et.** hala istediğin p değerini bulamadıysan, gel çay demleyelim. oturup konuşalım* .

    aferin evlat ! bir teoriyi çürüttün !

    (bkz: bu sene iyi nobel yaptı)

    bu anaakım teoriler için böyle. peki ya diğerleri ? onlar da çalışma. onlarda emek*.

    hipotezi kurulamayacak yeni bir modelde çalışıyıorsan eğer, sana iyi haberlerim var.

    hipotez kurmak zorunda değilsin!** ister inan* ey istatistik, ekonometri sevdalısı. istersen inanma*. bulduğun sonuçlar başkaları için hipotez olur ve tarihe geçersin. en azından ufak bir yer kaplarsın geçmiş zamanda*.

    bu yüzden p yi önemseme. ona çok yüz verme.

    şaka bir yana da bazı şeyler için şansını zorlama.
    verimizle oynamayalım, gelecek nesilleri zor durumda bırakmayalım*.

    (bkz: verinle oynama söyledim sana)

    not: statasporluyum.
  • https://www.ncbi.nlm.nih.gov/…/articles/pmc5017929/

    “p < 0.05” might not mean what you think: american statistical association clarifies p values
  • pırıl pırıl güneşli bir pazar sabahı mutluluğudur.
  • örneklemin gücü ne diye sorulabilir.
  • hipotezin doğruluğunu kanıtlamaz yanlış olma olasılığını azaltır.
  • kızgın kumlardan serin sulara atlamak gibidir.
hesabın var mı? giriş yap