şükela:  tümü | bugün
  • hadoop'un diskler üzerinde dağıtık olarak yaptığı işi hafıza yoluyla yapan(in-memory) ve 100 kat daha hızlı olabilen framework. iteratif ve interaktif sorgular için iyi bir çözümdür. giriş olarak hdfs, hbase, s3, sequence formatlarına erişim sağlayabilmektedir.

    edit: mlib ile mahout'un yerini almış sanırım.

    edit : mllib olacak. super user'a teşekkürler. ben de root bu arada memnun oldum.
  • bir sürpriz olmazsa hadoopun en güçlü alternatifi olarak big data mecrasında boy gösterecekdir.
  • hadoopun verimsiz kaldigi kompleks problemlerdeki basarisiyla dikkat ceken berkeley ' de hayat bulmus yeni nesil hadoop alternatifi.
  • çalışan bir işi düzgün bir şekilde iptal edemiyorsunuz. ancak kill pid
  • hadoop'un tamamına değil, yalnızca hadoop mapreduce kısmına alternatiftir. bunun dışında hdfs ve yarn gibi hadoop bileşenleriyle çalışabilir.

    temel kütüphaneleri şöyledir:

    yapay öğrenme: mllib
    sql sorgular, olap vs.: spark sql
    çizge işleme: graphx
  • edx.org'da toplamda 18 hafta sürecek bir eğitim serisi başlayacak mayıs ayında, ilgililere duyurulur.
  • aradan gecen bunca yila ragmen mlib librarysi bascavusun eseginden hallice olan framework. ayrica farkli platformlarda ayni data icin birbirinden farkli sonuclar vermesiyle insani derin dusuncelere gark eder. muhtemelen istatistik'ten cc ile gecmis bilgisayarcilar tarafindan idare edin lan iste denilerek yazilmis fonksiyonlarla ugrasiyoruz.

    daha iyisi icin (bkz: apache flink)
  • yukarıdaki entry'de de belirtilmiş, apache flink bu projeden daha fazla strraming api'yına sahip. eğer streaming işlerde spark'ta tıkandığınızı hissederseniz kesinlikle bakın
  • spark'ta streaming api diye sunulan melahat aslinda micro batch processing.

    real time processing yapacaksaniz spark'tan uzak durunuz. ha yok ben boyle iyiyim, spark streaming yetiyor bana diyorsaniz, zaten yaptiginiz sey real time processing degil, (en fazla) near real time processing'dir.
  • ne yaptiginizi ve nasil yapacaginizi biliyorsaniz cok basarili bir framework; ancak biraz standard disi ya da daha az kullanilan ozelliklerini kullanacaksaniz, vay halinize... adama scala ogrettirir, dokumantasyon o kadar kotu ki, source code okumak disinda bir opsiyon birakmiyor insana.