• deney yapildiktan sonra null hypothesis dogru olsaydi deneyden alinan sonucu ya da null hypothesisin daha aleyhine bir sonuc alma olasiligidir.
    su ana kadar bir kac tane yerde istatistikte en fazla yanlis kullanilan/yorumlanan kavram oldugunu okudum/duydum. matematikci olmayan bir cok kisinin kulllandigini goz onune alinirsa dogrudur. hatta wikipedia'da p-value makalesinde p degerinin ne olmadigi ayri bir bolumde anlatilmis.
  • konuyla çok çok yeni ilgilenen biri olarak thank you captain obvious durumuna düşmek istemiyorum, istatistik eminim bunu yıllardır tartışıyordur ama gördüğüm kadarıyla p değeri manipülasyona son derece açık. yeterince büyük bir örneklem aslında önemsiz şeyleri önemli gibi gösterebilir ya da tam tersi az örneklemli testlerde önemli şeyler p değeri açısından önemsiz çıkabilir. ayrıca acaba bir şeyin istatistiki önemi ile gerçek önemi arasındaki farkın önemi nedir, buna da bakmak gerek.
  • significance leveli sabitleyerek bu değerlerin altında yada üstünde elde ettiğimiz sonuçlara göre durumu doğru/yanlış olarak yorumlamak yerine bizi null hypothesisin yanlış olduğuna yönlendirecek en küçük değeri tespit edebiliriz. böylelikle araştırmamızı inceleyenler kendileri bir significance level belirleyebilirler. işte bu değere p value of the test denir.

    ayrıca :
    küçük bir p-value demek : hipotezi reddetmek için elinizde güçlü kanıtlarınız var.
    büyük bir p-value demek : hipotezi reddetmek için elinizde zayıf kanıtlarınız var.
  • bazen .000 bulunur. ama bu gerçekten 0 demek olmadığı için (bir ara nedenini buraya yazacağım) böyle rapor edilmez. onun yerine p = .001 (bence en doğrusu), p < .001 ya da p < .0005 gibi değerler yazılır ki bu da sıfır hipotezinizi çok yüksek güven aralığında reddebileceğiniz anlamına geliyor. tebrikler. artık gidip uyuyabilirsiniz. ama uyumadan şunları da düşünün tabi de uykunuz kaçsın:

    (bkz: örneklem büyüklüğü)
    (bkz: effect size)
  • kendime anlatır gibi örnekleyerek anlatayım:

    bir bilimsel araştırma yapıyorsunuz, örneğin iki durum arasında bir ilişki keşfetmeye çalışıyorsunuz. çok sallama bir örnek veriyorum: obezite ile hipertansiyon. şimdi böyle bir araştırmada öncelikle bir sıfır hipotezi kurgulamanız gerekir, o da söz konusu iki durum arasında bir ilişki olmadığı iddiasındadır. yanı sıfır hipotezi der ki "obezite ile hipertansiyon arasında herhangi bir ilişki yoktur". işte siz araştırmanız süresince elde ettiğiniz bulgular sonucunda sıfır hipotezini reddedeceksiniz (yani anlamlı ilişki vardır sonucuna varacaksınız) ya da reddedemeyeceksiniz. hipotezi reddetmeyi başardığınızı düşünelim; yani elinizdeki bulgular ilişkiye işaret ediyor. sadede geldik; p değeri ne, biliyor musunuz? eğer sıfır hipotezi aslında doğru olsaydı sizin elinizdeki bulgulara ulaşma ihtimalinizi ifade edecek olan değerdi. yani p = 0,0002 olsaydı bu, sıfır hipotezinin doğru olduğu durumda sizin bu bulgulara ulaşma olasılığınızın yalnızca on binde 2 olacağını ifade ederdi. bu çok çok düşük bir olasılık ve bulgularınızın obezite-hipertansiyon ilişkisinin gerçekten de var olduğunun bir kanıtı olabileceğine "kabul edilebilir ölçüde" işaret ediyor. diğer yandan, örneğin p = 0,08 olsaydı bu sefer de tam tersini söyleyecektik: diyecektik ki "sıfır hipotezinin doğru olduğu takdirde benim yine bu bulgulara ulaşma ihtimalim zaten yüzde 8'miş, yani çok yüksek bir yüzdeymiş, dolayısıyla obezite-hipertansiyon ilişkisine işaret eden bu bulgularıma çok da fazla güvenmesem iyi olacak". ha, böyle diyecektik ama bu biraz subjektif bir çıkarım: belirlediğimiz istatistiksel anlamlılık kriteri p değerinin 0,05'ten küçük olmasını şart koşuyor olsaydı (p<0,05) böyle diyecektik; yoksa p<0,1'i şart koşuyor olsaydı p = 0,08'lik bulgularımıza yine "ben sana güveniyorum ve seni sıfır hipotezini çürütmek için yeterli görüyorum kardeş," diyebilirdik, problem olmazdı.

    umarım yararı olur. en azından "bu ne biçim anlatım, bildiğimi de unutturdun >:| " diyen olmaz inşallah. bu arada hata varsa da bildirin.
  • cogu zaman arastirmacilar tarafindan yanlis yorumlanan bir istatistik kavrami.

    oncelikle, p degeri, parametrelerin "gercek" degeri uzerine hicbir sey soylemez, soyleyemez. soyledigi sey eldeki verinin, sifir hipotezinin dogru olmasi durumunda, sansla ortaya cikma olasiligidir. eger sifir hipotezini h0'la, parametreleri de prm'yle belirtirsek:

    p degeri = p(veri | h0)

    p(veri | h0) tabii ki p(h0 | veri)'ye esit degil (matematik notasyonunda p(veri | h0 ~= p(h0 | veri)).

    ikincisi, p degeri statistical power kavramina gobekten bagli. istatistiki guc, kisaca ornekleminizi kullanarak populasyonda gorulen gercek bir etkiyi bulma gucudur. orneklemin buyuklugune ve etkinin buyuklugune baglidir. her ne kadar etkiyi p testi'yle bulmus olmaniz durumunda istatistiki gucten etkilenmeyeceginizi dusunseniz de, durum bu degil. cunku sifir hipotezi test atma araci olarak kullanilan p degerleri, uzun vadede ne olur sorusuna cevaptir. yani, p degerleri deneyi "uzun vadede 100 kere tekrar edersek" varsayimina dayanir. istatistiki gucu dusuk bir calismada bir etki bulsaniz dahi, gelecekteki replikasyon ugraslarinda p degeri esigine (genelde .05'tir) takilmak cok olasi. isin kotusu, istatistiki guc, maalesef dogrudan hesaplanacak bir deger degil, en fazla tahmini olarak tespit edilebiliyor. cogu deneyin istatistiki guc probleminden muzdarip oldugunu da goz onunde bulundurunca, p degerinin veriyi degerlendirmek icin iyi bir metot olmadigi soylenebilir.

    meraklisi icin p degerlerinin sorunlari uzerine guncel bir makaleyi suradan bulabilirsiniz:

    http://www.readcube.com/…biaqycsrketw5wtzn0prr87q==