şükela:  tümü | bugün
  • hadoop'un diskler üzerinde dağıtık olarak yaptığı işi hafıza yoluyla yapan(in-memory) ve 100 kat daha hızlı olabilen framework. iteratif ve interaktif sorgular için iyi bir çözümdür. giriş olarak hdfs, hbase, s3, sequence formatlarına erişim sağlayabilmektedir.

    edit: mlib ile mahout'un yerini almış sanırım.

    edit : mllib olacak. super user'a teşekkürler. ben de root bu arada memnun oldum.
  • bir sürpriz olmazsa hadoopun en güçlü alternatifi olarak big data mecrasında boy gösterecekdir.
  • hadoopun verimsiz kaldigi kompleks problemlerdeki basarisiyla dikkat ceken berkeley ' de hayat bulmus yeni nesil hadoop alternatifi.
  • çalışan bir işi düzgün bir şekilde iptal edemiyorsunuz. ancak kill pid
  • hadoop'un tamamına değil, yalnızca hadoop mapreduce kısmına alternatiftir. bunun dışında hdfs ve yarn gibi hadoop bileşenleriyle çalışabilir.

    temel kütüphaneleri şöyledir:

    yapay öğrenme: mllib
    sql sorgular, olap vs.: spark sql
    çizge işleme: graphx
  • edx.org'da toplamda 18 hafta sürecek bir eğitim serisi başlayacak mayıs ayında, ilgililere duyurulur.
  • kurulumu için günlerdir uğraştığım yazılım. ama en sonunda python için kurulum yapmayı buradan başardım . daha denemek nasip olmadı fakat . kendi oluluşturduğumuz bir big data için bitirme tezinde kullanılmak üzere uğraşacağız.
  • aradan gecen bunca yila ragmen mlib librarysi bascavusun eseginden hallice olan framework. ayrica farkli platformlarda ayni data icin birbirinden farkli sonuclar vermesiyle insani derin dusuncelere gark eder. muhtemelen istatistik'ten cc ile gecmis bilgisayarcilar tarafindan idare edin lan iste denilerek yazilmis fonksiyonlarla ugrasiyoruz.

    daha iyisi icin (bkz: apache flink)
  • yukarıdaki entry'de de belirtilmiş, apache flink bu projeden daha fazla strraming api'yına sahip. eğer streaming işlerde spark'ta tıkandığınızı hissederseniz kesinlikle bakın
  • spark'ta streaming api diye sunulan melahat aslinda micro batch processing.

    real time processing yapacaksaniz spark'tan uzak durunuz. ha yok ben boyle iyiyim, spark streaming yetiyor bana diyorsaniz, zaten yaptiginiz sey real time processing degil, (en fazla) near real time processing'dir.