aynı isimde "r (haplogrup)" başlığı da var
  • yapmak istediğiniz herhangi bir iş için muhtemelen daha önce başkaları da uğraştığı için bu konu üzerine en az bir iki paket bulabileceğiniz programlama dili. tam anlamıyla bir kolaylıklar dilidir. daha önce de bahsedilen 10000 paket sadece cran üzerindeki paketlerdir ki bunun yanında github da bir yığın r paketi barındırır.

    en kullanışlı paketlere örnekler:
    ggvis: interaktif grafikler için her türlü dropdown, slider, texboxt vs uygulamalarını içerir. üstelik 2 satır kod bunun için yeterli.
    ggplot2: her türlü kontrolü ele aldığınız grafikler oluşturmak için ideal. inanılmaz bir veri görselleştirme aracıdır kendisi, öğrendiğinizde excele bir daha yüz vermezsiniz.
    plotly: 3 boyutlu ve interaktif grafikler için kullanışlı bir paket.
    twitter: twitter apisine r üstünden bağlanmanızı sağlar. hashtaglar ve spesifik kullanıcı tweetlerini kolayca aratabilirsiniz, tweet bile atabilirsiniz.
    wordcloud: adı üstünde, kelime bulutu oluşturmak için pratik bir r paketi.
    tm: text mining için kullanışlı bir r paketi.
    e1071: veri bilim fonksiyonlarını içeren paket.
    rvest: internetten veri toplamak için kolay bir r paketi.
    dplyr: eldeki verileri işlemek, düzenlemek gibi amaçlar için çok kullanışlı fonksiyonlar içerir.
    tidyr: elimizdeki düzensiz veriyi tidy data şeklinde düzenlemek için fonksiyonlar içerir.
    data.table: sql mantığını kullanan, veri işleme paketi. dplyr'a göre daha hızlıdır.
    ggmap: harita üzerinde işlemler için çok şık bir paket. koordinat bilgilerini girmeniz gerekmiyor, geocode fonksiyonu arar bulur, ggmap de haritada işaretler.
    shiny: uygulama geliştirmek için kullanılan bir r paketi. daha doğru dürüst kullanmadım ama yapabileceklerine bir örnek.
    swirl: r içinde; istatistik, veri bilimi, veri görselleştirme gibi çeşitli konseptleri ve r dilini başlangıç düzeyinde öğrenmenizi sağlayan r paketi.
    knitr: rapor oluşturmak için kullanılan paket. kendi rapor formatınızı oluşturup kaydedebilir, verileri değiştirerek farklı raporlar oluşturabilirsiniz.

    kendisi hakkındaki bir başka güzellik ise r ve data science öğrenmeyi kolaylaştıran çok sayıda data paketidir:
    quandl: quandl sitesine erişim için kullanılan paket. sitede ekonomi alanı başta olmak üzere çok çeşitli datalara erişebilirsiniz.
    gapminder: gapminder sitesiden alınmış, ülkelerle ilgili çeşitli veri içerir.
    gutenbergr: project gutenberg kapsamındaki metin ve kitaplara erişimi sağlar. text mining öğrenmek için oldukça faydalıdır.
    nhanes: amerika vatandaşlarıyla yapılan sağlık araştırmasının 2009-2011 arası verilerini içeren paket. başlangıç için yeterli bir datadır.
    th.data: çeşitli datalar içeren bir paket.
    openintro, oıdata: openintro adlı girişimin kitabında kullandığı datalar.

    data() komutu ile dataset paketi içindeki datalara ulaşabilirsiniz.
    data(package = .packages(all.available = true)) komutu ile de bilgisayarınıza yüklediğiniz tüm paketler içindeki dataları görebilirsiniz.

    tek başlarına da yeterince iyi olan r paketlerinin kombinasyonları, yapacağınız işi inanılmaz derecede kolaylaştırır. örneğin twitter, tm ve wordcloud paketleriyle 20 satır kod ile istediğiniz anahtar kelimeli tweetlerden oluşturulan kelime bulutu önünüze gelir. rvest, dplyr ve ggvis ile webten çekip düzenlediğiniz verilerle interaktif grafikler oluşturabilirsiniz. ya da quandl ve ggplot2 ikilisi ile çeşitli verileri indirip grafiğe dökebilirsiniz.

    pipeline`:%>%` kullanımı ise kodunuzu gerçekten çok şık ve okunaklı bir hale getirir, gereksiz temp elemanlarından veya raw datanızın üzerine tekrar tekrar atama yapmaktan sizi kurtarır.
  • spss, sas ve systat'tan daha üstün olduğu ifade ediliyor. birinci sebep bedava olması, ikinci sebep sürekli olarak yapabildiklerinin artması. üçüncü sebep, hali hazırda yapabildiklerinin diğer genel yazılımlardan daha fazla olması. örneğin, bir testin madde yanıt kuramı'na göre analizi yapılacaksa öncelikle klasik analizlerin yapılması için spss (1700 $), ardından varsayımların sağlanıp sağlanmadığını kontrolü için doğrulayıcı faktör analizi yapılması için lisrel (495 $) veya amos (1100 $), son olarak madde yanıt kuramı analizlerinin yapılması için de bilog, parscale veya multilog'un (250 $) kullanılması gerekir. bu şekilde üç ayrı yazılımla yapılabilecek analizlerin tamamı ücretsiz olan r ile mümkündür.

    ancak, r'nin önemli bir sıkıntısı spss ve systat gibi point and click bir grafik arayüzü olmamasıdır. datanın çağırılması, analize hazırlanması için gerekli işlemler ve istenen analizlerin yapılması fare ile değil komutlarla yapılmaktadır. bu sebeple, r diğerleri kadar kullanımı kolay olmayan bir programdır. özellikle spss'ten farklı olarak bu programı kullanarak analiz yapan kişinin ne yaptığını bilmesi gerekir. belki de bu iyi bir şeydir.

    bu yazılımı kullanmayı öğrenmek için web sayfaları, indirilebilir kılavuzlar ve kitaplar mevcuttur. ben şahsen spss, spss'in eklentileri ve amos peşine düşmektense bu yazılımı öğrenmeyi deneyeceğim. bakacağız göreceğiz.

    http://cran.r-project.org/
    http://www.r-project.org/

    yıllar sonra gelen edit: ulan 10 yıl olmuş hala öğrenmemişim. tabii bu geçen zaman içinde rsudio ve rcommander gibi eklentiler de yaygınlaşmış. özellikle rcommander, r'ı düğmeye basarak kullanma imkanı sağlıyor.
  • istatistiksel hesaplar, arastirmalar yapmak icin kullanilan bir programlama dili, ortami. s'nin acik kaynak kodlu (open source) hali.

    http://www.r-project.org/
  • 1 3 5
    |_|_|
    |_|_|
    2 4 rte

    'deki r'dir.
  • r studio gibi programlarla daha user-friendly hale getirilebilen istatistik programı.

    spss ve stata'dan farklı olarak r büyük oranda sadece kod girilerek çalışır.
    mesela file.choose(), attach, recode gibi kodlar girersiniz. örnek vermek gerekirse diyelim ki desktop'umda mydata isimli bir excel belgesi var. bunu r'da şöyle açarım:
    mydata=read.csv("c:\\users\\easygoing\\desktop\\mydata.csv", header=t)

    yüklemek istersem attach(mydata) komutu girerim. diyelim ki bu datada değişiklik yapmak istiyorum, population başlıklı sütundaki değerleri 100'le çarpacağım. şu komutu girmem lazım:
    population <- population*100

    diyelim ki grades isimli sütundaki verileri değiştirmek istiyorum. mesela 0'dan 1 e kadar olan notlar için fail, 2'den 5'e kadar olan notlar için pass olsun istiyorum. şunu girmem lazım:
    grades <- recode(grades, "0:1='fail'; 2:5='pass'")

    sonra mesela grades sütünundaki değerlerle gender sütunundaki değerlerin tablosuna bakmak istiyorum:
    table(grades, gender) yazmam lazım.
    özet olarak işlemler böyle komutlarla yapılıyor.

    ama r'da bu ve başka işlemleri yapmanız için r library'den gerekli paketleri kurmanız lazım. mesela yukarıdaki gibi basit işlemler için car, foreign ve mass gibi temel paketler; anket analizleri için survey paketi, grafikler için effects ve ggplot2 gibi paketler, farklı regression türleri için ordinal, vgam, rms gibi paketler yüklemeniz lazım. böyle bazen birbiriyle de örtüşen tonla paket var, hangi paketi yüklemeniz lazım, hangi komutu gireceksiniz gibi sorulara cevap bulmak için google'da anahtar kelimeler üzerinden aratın, mesela ols regression analizi yapacaksanız ols regression in r yazın. sonuçlarda bazen size lazım olacak paketin sayfası çıkar. bazen ucla sayfaları gibi yardımcı sayfalar çıkar. öyle öyle lazım olan paketi ve komutları bulursunuz.

    e peki bunca zahmete ne gerek var, excel hadi olmadı spss kullanırım derseniz sizin bileceğiniz iş tabi. r'ın bir avantajı bedava olması, ücretsiz ve yasal şekilde bilgisayarınıza indirebilirsiniz. bunun haricinde r'ın janjanlı grafikleri oluyor, o bi avantaj mesela. daha daha r'daki komutlarınızı kaydedip bir hata olduysa bu komutlardan iz sürebiliyorsunuz. bu gibi sebeplerle r'a alışanlar bi daha bırakmıyorlar. ben şahsen stata'yı da severim. tercih size kalmış.
  • alfebeyi 28 harf olarak okumama neden olan harf.. ilkokulda türkçe öğremenim p'den sonra v gelmez olum r gelir diye benle uzun süre tartışmıştı.. sonunda yazarak anlaştık.
    (bkz: r leri soyleyememe/#1089587)
  • birtakım kaynak bilgilerinin yararlı olacağını düşündüğüm veri analizi merkezli istatistiksel yazılım dilidir. hadley wickham dilin popülerleşmesi ve veri analizi için en çok kullanılan iki dilden biri (diğeri python) haline gelmesinde en büyük pay sahiplerinden biri, belki de direkt olarak en büyük pay sahibidir.

    ancak işbu ki; hadley wickham'ın kitapları, örneğin r for data science, bence bu dilde hiç altyapı sahibi olmayan, veya kitabı didikleyecek vakti olmayan insanlar için bir miktar ağır ve belki de heves kırıcı bir kaynak olabilir. bu kişisel görüşü ekledikten sonra önerilere gelelim:

    ***
    pratik başlangıç ve base r için şu iki kursu gönül rahatlığı ile tavsiye edebilirim (kurslar benim kursum olmadığı için burada bir shameless self-promotion söz konusu değil.):

    1. udemy - r programming
    2. udemy - advanced r programming

    bu iki kurs base r'da veri seti incelemesi için gerekli teknik bilgileri sıkmadan, boğmadan, pratiğe yönelik biçimde ve başarılı bir şekilde veriyor.

    ***
    ancak base r'ın zaman zaman obscure olarak görülebilecek syntax yapısına
    yine hadley wickham ve ekibi çare buluyor ve r programcıları için bir kütüphaneler topluluğu yaratıyor ve wickham'ın bizzat kendisi 'düzenli veri' kavramını öne atıyor, bu kütüphane topluluğunun ismi de şık bir analoji ile tidyverse oluyor. içinde barındırdığı kütüphaneleri resmi sitesinden de görebilirsiniz. her kütüphaneyi ayrı ayrı incelemek r programlamada ufkunuzu genişletecek, yapamadıklarınızı yaptıracak...
    tidyverse

    tidyverse'in sık kullanılan kütüphanelerinden biri dplyr ve base r'dan farklı olarak 'pipelining' veya 'chaining' adı verilen ve 'human-readable codes' üreten pipe operatörünün (operatör sembolü: %>% ) kullanımına olanak sağlıyor. bu operatör ile veri analizi işlemleri basitçe verb adındaki farklı keywordler ile sağlanıyor. syntax yapısı ve temel verblere aşina olabilmeniz için şu video oldukça makul:
    dplyr tutorial

    ancak belirtildiği üzere tidyverse, yalnızca dplyr değil. diğer kütüphaneleri de öğrenmek özellikle functional programming için büyük katkı sağlayacaktır.

    ***
    hadley wickham tarafından üretilen bir diğer kütüphane ggplot2 . iyi bir grafik görselleme için muhakkak bilinmesi gereken, hakikaten şahane bir paket. bu kütüphaneye hakimiyet sağladıktan sonra ggforce, gganimate, ggrepel gibi paketleri kısa sürede kodunuza implemente edebilir ve ready-to-publish kalitede grafik görsellere sahip olabilirsiniz. ggplot2 için bence en güzel kaynaklardan biri bir sosyal bilimciden:
    data visualization: a practical introduction

    ***
    machine learning öğrenmek isteyenler için internette çok sayıda online kurs var. zamanında pek çoğuna göz gezdirmiş ve hiçbirini beğenmemiştim. bunda konunun teorik tarafının ağırlığı, içerik ve kod pratiklerinin bence kötü olması epey etkili oldu. r'da makina öğrenmesi alanındaki en büyük sıkıntılardan biri farklı makina öğrenmesi tekniklerinin farklı kütüphaneleri gerektirmesi ve bu farklı kütüphanelerinin syntax farklılılarından dolayı kullanıcılarının sorun yaşaması (hangi kütüphane hangi teknik için kullanılıyor ve syntax'i nasıldı? gibi soruların zaman kaybı ve verimsizlik yaratması)

    tam da bu noktada alanın rock-starlarından biri max kuhn sahne alıyor ve caret (akronim: classification and regression trees) adını verdiğini kütüphane ile bütün yaralara merhem oluyor. caret 'unified interface' kullanarak bütün bu farklı paketler, farklı syntax meselesini çözüyor. makina öğrenmesinde bence hem teorik hem de pratik olarak en iyi kaynak da kendisinin (kjell johnson ile birlikte) yazdığı kitap:
    applied predictive modeling

    dr. max kuhn, tidyverse'in önlenemez yükselişinden sonra tidymodels, tidyposterior gibi paketlerin de yaratıcısı ve sürdürücüsü konumunda. kendisinin tidyverse ile uyumlu nispeten yeni kütüphaneleri recipes ve parnsnip'e göz atmanızı öneririm. yoğunlukla tidyverse, recipes ve parnsnip paketlerini kullanarak yazdığı yeni kitabı da ücretsiz biçimde online olarak erişilebilir:
    feature engineering and selection

    ***
    bir not da natural language processing ve text analytics ile ilgili olan arkadaşlar için düşelim: corpus-centric olarak adlandırılan yaklaşımı kendime yakın bulduğum için şu kitabı iç rahatlığı ile tavsiye edebilirim:
    text mining in practice with r
    kitap çoğunlukla tm pakedi üzerinden gidiyor. ancak işlevsel olarak daha çok beğendiğim quanteda ile yapılabilecek işleri görmek isteyen olursa şu video serisini çok iyi bulduğumu ekleyeyim:
    introduction to text anaytics with r

    ***
    nihai olarak, deep learning batağına düşmek isteyenler için kerasın yaratıcısı françois chollet'in kitabı temel bir kaynak olarak irdelenebilir:
    deep learning with r

    edit: imla
  • şu aralar yaptığım tek iş çeşitli paketler kullanarak eldeki çok basit veri setiyle grafik çizmek olduğu halde bana hayatı dar etmekle meşgul olan dil. üstelik, giriş seviyesinde bile öğrenemiyorum sanırım, çünkü hiçbir şekilde mantığını anlamayıp bir şeyi sorgula(ya)madan, sadece hocanın söylediği kodları yazarak kullanıyorum. onda bile zorlanıyorum; tek bir harfi ya da sembolü yanlış/eksik yazdıktan sonra hata alınca hatanın nerede olduğunu bulmak tam bir eziyet. umarım bir gün bir şekilde mantığını da anlamaya başlarım ya da manuel okumaya ayıracak vakit bulurum da bu kadar uğraştığıma değer, gelecekte kayda değer işler yaparken kullanabilecek hale gelirim.

    2 ay sonra gelen edit: şeker gibi rengarenk igraphler çizecek seviyeye geldim şimdilik, bir alex değil tabii ama...
  • r'a baslamak ve temellerini ogrenmek icin cok super, interaktif bir baslangic isterseniz;
    http://tryr.codeschool.com/
  • bir istatistikçinin işini aşırı kolaylaştıracak program. arayüzü de pek güzel. sıkıcı bir ekranı yok. öğrenmesi çok zor değil aslında. statistical analysis with r (yazarı john m. quick) pdf'ini bulup adım adım çalışın. faydasını görürsünüz.
    ardından ruby'ye geçmeyi planlıyorum. phyton'ın adı bile korkutuyor. haydi hayırlısı.
hesabın var mı? giriş yap