• a ve b arasinda bir korelasyon vardir, amma ve lakin bu korelasyon a ve b'nin iliskili olmasindan, aralarinda neden-sonuc durumlari olmasindan degil ucuncu bir faktorden kaynaklanmaktadir. c olarak nitelendirebilecegimiz bu faktor hem a'yla hem b'yle iliskilidir. normalde ufak olmasi gereken a ve b arasindaki korelasyon da c ile olan yakin munasebetlerinden ileri gelmektedir.
  • iste verebilecegim bir ornek:
    http://www.radikal.com.tr/…19.01.2009&categoryid=79
    a-kadin orgazmi
    b- erkegin kesesi
    c- olabilecek binbir sey: erkegin kendine guveni, kadinin zengin erkek hakkindaki hayalleri vs vs.
  • sahte korelasyona yol acan ucuncu degisken ya bu iki degisken arasindaki korelasyonun buyuklugunu etkileyen (moderator) ya da bu iliskiyi aciklayan, iliskinin anlasilmasina yardimci olan (mediator) bir faktordur.
  • bkz: bu başlığı taşıyan site. harvard hukuk fakültesi öğrencilerinden tyler vigen'in içeriğini sağladığı sitede ilgisiz değişkenlerin grafiklerinin paralel görünmesi sayesinde nasıl absürd sonuçlar doğurduğunun muhteşem örnekleri vardır. mesela nicolas cage'in bir yıl içinde oynadığı film sayısıyla, o yıl havuza düşerek boğulan insanların sayısı arasındaki gizemli bağlantı...
  • sahte korelasyon. yüksek bir örneklem korelasyon katsayısı, iki değişken arasında mutlaka nedensel bir ilişki olduğunu göstermez. zaten korelasyon ile regresyon arasındaki en önemli farklardan biri, korelasyonun nedensellik içermek durumunda olmamasıdır -ki bu da uluslararası camialarda correlation does not imply causation phrase'i ile bilinir.

    örnekleyelim. köpek balığı saldırıları ile dondurma satışları arasında bir ilişki olduğunu düşünüyorsunuz ve kılışdar gibi belgelerle konuşmak için veri seti oluşturdunuz konu ile ilgili. bu veri setini analiz ettiğinizde bir de bakıyorsunuz ki, gerçekten dondurma satışları arttığı zaman köpek balığı saldırıları da artmış.

    bu durumda şu cümleyi sarf edebilir misiniz? “dondurma satışları arttığında, köpek balığı saldırıları da artıyor.” evet edebilirsiniz. nihayetinde iki değişken arasında pozitif bir korelasyon olduğu sonucuna ulaştınız.

    peki şu cümleyi sarf edebilir misiniz? “öyleyse ne kadar az dondurma tüketirsek, o kadar az köpek balığı saldırısı olur.” hayır efendim, edemezsiniz. bu cümleniz nedenselliğe işaret eder ve böyle bir laf ettiğinizde size inanmamız için bize kanıt sunmanız gerekir.

    yani özetle, sırf iki değişken arasında yüksek bir korelasyon katsayısına ulaştınız diye, bu iki değişken arasında doğrudan bir ilişki olduğunu ileri süremezsiniz. sürerseniz, size güler ve aşağılarız biraz. çünkü bu değişkenlerin aynı yönde değişimine sebep olan, üçüncü bir değişkenin varlığı olabilir -ki buna lurking variable denir. köpek balığı-dondurma örneğinde bu ilişkiyi doğrudan etkileyen şey mevsimin yaz olmasıdır. işte bu üçüncü lurking, yani gizlenen değişkenin ürettiği yanlış korelasyona spurious correlation denir.
  • buna verilen örnekler hep genelde aptalca çıkarımlar oluyor. nicholas cage filmleri ile havuzda boğulanların sayısı arasındaki ilişki gibi... halbuki bu yanılgıya gayet mantıklı (gözüken) bir şekilde de düşmek mümkündür.

    ben de şöyle bir örnek vermeye çalışayım:

    bir bölgede sivrisinek sayısının artması ile (a) beraber leylek sayısı (b) benzer bir şekilde artmaktadır.

    bu durumda a ile b arasında korelasyon olduğu yani leyleklerin sivrisinekleri yiyen kurbağaları yediği için sivrisinek sayısında artış olduğunu çıkarsayabiliriz.

    a ile b arasındaki gördüğümüz korelasyonu bir sebebe bağladık, ama aralarında hiçbir bağlantı olmaya da bilir.

    a ile b üçüncü bir sebep olan c'ye aynı tepkiyi verdiği için alakalı gözüküyor olabilirler. bu da sahte bir korelasyon yaratır. c (lurking variable) bu örnekte yağmurun yağıp nemin artması olabilir. sivrisinekler de, leylekler de nemli ortamı severler. ancak birbiriyle kurbağalar üzerinden bir alakaları yoktur (ya da olmak zorunda değildir).
hesabın var mı? giriş yap