aynı isimde "r (haplogrup)" başlığı da var
şükela:  tümü | bugün
  • nasıl öğrenilir nerden öğrenilir? tavsiyelere açığım.
  • bir takım kaynak bilgilerinin yararlı olacağını düşündüğüm veri analizi merkezli istatistiksel yazılım dilidir. hadley wickham dilin popülerleşmesi ve veri analizi için en çok kullanılan iki dilden biri (diğeri python) haline gelmesinde en büyük pay sahiplerinden biri, belki de direkt olarak en büyük pay sahibidir.

    ancak iş bu ki; hadley wickham'ın kitapları, örneğin r for data science, bence bu dilde hiç altyapı sahibi olmayan, veya kitabı didikleyecek vakti olmayan insanlar için bir miktar ağır ve belki de heves kırıcı bir kaynak olabilir. bu kişisel görüşü ekledikten sonra önerilere gelelim:

    ***
    pratik başlangıç ve base r için şu iki kursu gönül rahatlığı ile tavsiye edebilirim (kurslar benim kursum olmadığı için burada bir shameless self-promotionsöz konusu değil.):

    1. udemy - r programming
    2. udemy - advanced r programming

    bu iki kurs base r'da veri seti incelemesi için gerekli teknik bilgileri sıkmadan, boğmadan, pratiğe yönelik biçimde ve başarılı bir şekilde veriyor.

    ***
    ancak base r'ın zaman zaman obscure olarak görülebilecek syntax yapısına
    yine hadley wickham ve ekibi çare buluyor ve r programcıları için bir kütüphaneler topluluğu yaratıyor ve wickham bizzat kendisi 'düzenli veri' kavramını öne atıyor, bu kütüphane topluluğunun ismi de şık bir analoji ile tidyverse oluyor. içinde barındırdığı kütüphaneleri resmi sitesinden de görebilirsiniz. her kütüphaneyi ayrı ayrı incelemek r programlamada ufkunuzu genişletecek, yapamadıklarınızı yaptıracak...
    tidyverse

    tidyverse'in sık kullanılan kütüphanelerinden biri dplyrve base r'dan farklı olarak 'pipelining' veya 'chaining' adı verilen ve 'human-readable codes' üreten pipe operatörünün (operatör sembolü: %>% ) kullanımına olanak sağlıyor. bu operatör ile veri analizi işlemleri basitçe verb adındaki farklı keywordler ile sağlanıyor. syntax yapısı ve temel verblere aşina olabilmeniz için şu video oldukça makul:
    dplyr tutorial

    ancak belirtildiği üzere tidyverse, yalnızca dplyr değil. diğer kütüphaneleri de öğrenmek özellikle functional programming için büyük katkı sağlayacaktır.

    ***
    hadley wickham tarafından üretilen bir diğer kütüphane ggplot2 . iyi bir grafik görselleme için muhakkak bilinmesi gereken, hakikaten şahane bir paket. bu kütüphaneye hakimiyet sağladıktan sonra ggforce, gganimate, ggrepel gibi paketleri kısa sürede kodunuza implemente edebilir ve ready-to-publish kalitede grafik görsellere sahip olabilirsiniz. ggplot2 için bence en güzel kaynaklardan biri bir sosyal bilimciden:
    data visualization: a practical introduction

    ***
    machine learning öğrenmek isteyenler için internette çok sayıda online kurs var. zamanında pek çoğuna göz gezdirmiş ve hiçbirini beğenmemiştim. bunda konunun teorik tarafının ağırlığı, içerik ve kod pratiklerinin bence kötü olması epey etkili oldu. r'da makina öğrenmesi alanındaki en büyük sıkıntılardan biri farklı makina öğrenmesi tekniklerinin farklı kütüphaneleri gerektirmesi ve bu farklı kütüphanelerinin syntax farklılılarından dolayı kullanıcılarının sorun yaşaması (hangi kütüphane hangi teknik için kullanılıyor ve syntax'i nasıldı? gibi soruların zaman kaybı ve verimsizlik yaratması)

    tam da bu noktada alanın rock-starlarından biri max kuhn sahne alıyor ve caret (akronim: classification and regression trees) adını verdiğini kütüphane ile bütün yaralara merhem oluyor. caret 'unified interface' kullanarak bütün bu farklı paketler, farklı syntax meselesini çözüyor. makina öğrenmesinde bence hem teorik hem de pratik olarak en iyi kaynak da kendisinin (kjell johnson ile birlikte) yazdığı kitap:
    applied predictive modeling

    dr. max kuhn, tidyverse'in önlenemez yükselişinden sonra tidymodels, tidyposterior gibi paketlerin de yaratıcısı ve sürdürücüsü konumunda. kendisinin tidyverse ile uyumlu nispeten yeni kütüphaneleri recipes ve parnsnip'e göz atmanızı öneririm. yoğunlukla tidyverse, recipes ve parnsnip paketlerini kullanarak yazdığı yeni kitabı da ücretsiz biçimde online olarak erişilebilir:
    feature engineering and selection

    ***
    bir not da natural language processing ve text analytics ile ilgili olan arkadaşlar için düşelim: corpus-centric olarak adlandırılan yaklaşımı kendime yakın bulduğum için şu kitabı iç rahatlığı ile tavsiye edebilirim:
    text mining in practice with r
    kitap çoğunlukla tm pakedi üzerinden gidiyor. ancak işlevsel olarak daha çok beğendiğim quanteda ile yapılabilecek işleri görmek isteyen olursa şu video serisini çok iyi bulduğumu ekleyeyim:
    introduction to text anaytics with r

    ***
    nihai olarak, deep learning batağına düşmek isteyenler için kerasın yaratıcısı françois chollet'in kitabı temel bir kaynak olarak irdelenebilir:
    deep learning with r
  • istanbul merkezli bir r community kurmayı planlıyoruz. özellikle sosyal bilimler alanındaki araştırmalarda kullanılabilecek paketler üzerinden fikir alışverisi, sunum, tartışmalar düzenlemeyi düşünüyoruz. ilgilenenler yeşillendirsin. belli sayıya ulaşınca bir event ile duyuracağız. yeni kurulan istanbul r slack grubu için.
  • data science ile ilgilenenlerin gözbebeği, gauss kullanan zatımın yeni yeni öğrenmeye başladığı ve her türlü yardımı seve seve kabul ettiği programlama dili. tüm dünyada r ladies grupları oluşmaya başlayalı çok oldu. udemy’de öğrenmek için bir çok kurs mevcut.
  • r'da bilindiği uzere na kullanildigi vakit not available anlamına geldigi icin r bunu missing value olarak algılayıp direkt yok sayıyor. fakat benim treatmentlarimdan birisinin kısaltması na olduğu icin bunu kullanmak istiyorum yine de. e haliyle r bunu missing value olarak algiliyor.

    basına sonuna vs ne koymam gerekiyor bunu normal bir isim olarak algılaması icin? internette bulamadım.

    edit:

    cevap atanlara ("nach einer wahren begebenheit", "pirovla" ve "hatamlasevbeni") cook teşekkür ederim.

    gelen çözümlerden bir tanesini paylaşıyorum belki bir başkası da faydalanır:
    "dosyanizi r a aktarirken na.strings = null veya na.strings = 'missing' diye belirtirseniz r na degerleriniz yerine sizin manipule ettiginiz terimi kullanir"
  • sapik gibi buraya dadanıp soru soruyorum ikidir fakat gercekten son care olmasaydı yazmazdım.

    makalelerde meşhur kullanılan icleri taranmış bar grafiklerini ggplot kullanarak nasıl hazırlayabilirim? hani su dikey çizgilerle veya yatay çizgilerle doldurulmuş grafikler, renkler yerine. tek bulabildiğim renk paletleri. bazı yorumlar gordum internette fakat çok karisik oldugu icin cogunu anlamadım. hazır paketler veya bildiginiz kısa bir yolu var midir?
  • (bkz: #99066136) turkçe olarak metin madenciliği üzerinde giriş çalışması yapıyorum.dokumanı burada paylaştım.
  • zannederim sektör fark etmeksizin kurumsal firmalarda yönetimsel bir departmanda çalışmak isteyenlerin artık öğrenmenin kariyer olarak fark yaratacağını düşündüğüm programlama dili.
  • spss, sas ve jmp'ta yapılamayan bir çok analizin bununla kolay * şekilde yapmanın mümkün olduğunu öğrendiğim istatistik programı.

    çalışma alanımda sıklıkla kullandığım ve ismi geçen programlarla yapamadığım bir kaç analizi öğrensem yeterli diye düşünüyorum. doğasına uygun olsun, yabancılık çekmesin diye ubuntu bile kurdum. *

    * uygun paketleri, kodları, mantığını öğrendikten sonra kolay tabi ki.
  • aşık olduğum programlama dili.