• aradan gecen bunca yila ragmen mlib librarysi bascavusun eseginden hallice olan framework. ayrica farkli platformlarda ayni data icin birbirinden farkli sonuclar vermesiyle insani derin dusuncelere gark eder. muhtemelen istatistik'ten cc ile gecmis bilgisayarcilar tarafindan idare edin lan iste denilerek yazilmis fonksiyonlarla ugrasiyoruz.

    daha iyisi icin (bkz: apache flink)
  • ne yaptiginizi ve nasil yapacaginizi biliyorsaniz cok basarili bir framework; ancak biraz standard disi ya da daha az kullanilan ozelliklerini kullanacaksaniz, vay halinize... adama scala ogrettirir, dokumantasyon o kadar kotu ki, source code okumak disinda bir opsiyon birakmiyor insana.
  • bir sürpriz olmazsa hadoopun en güçlü alternatifi olarak big data mecrasında boy gösterecekdir.
  • java ve pig ile hadoop mapreduce işleminden sonra çok zevkli ve kullanıcı dostu olan bir data processing frameworku. tabi ki gene mapreduce için kullanıyorum python versiyonu olan pyspark ile. işimin java odaklı olmasına karşın javada hadoop kullanmak çok low level kod oluyordu ve bu beni çıldırtıyordu. pyspark ile çıldırmalarıma son verdim.
  • bi' uygulamayı ayağa kaldırmak bile ölüm gibiyken, hayatı bu olanlara allah sabır versin.

    (bkz: big data'ya uzak insan)
  • kurulumu için günlerdir uğraştığım yazılım. ama en sonunda python için kurulum yapmayı buradan başardım . daha denemek nasip olmadı fakat . kendi oluluşturduğumuz bir big data için bitirme tezinde kullanılmak üzere uğraşacağız.
  • hadoopun verimsiz kaldigi kompleks problemlerdeki basarisiyla dikkat ceken berkeley ' de hayat bulmus yeni nesil hadoop alternatifi.
  • hadoop'un tamamına değil, yalnızca hadoop mapreduce kısmına alternatiftir. bunun dışında hdfs ve yarn gibi hadoop bileşenleriyle çalışabilir.

    temel kütüphaneleri şöyledir:

    yapay öğrenme: mllib
    sql sorgular, olap vs.: spark sql
    çizge işleme: graphx
  • edx.org'da toplamda 18 hafta sürecek bir eğitim serisi başlayacak mayıs ayında, ilgililere duyurulur.
  • apache spark 2009 yılında berkeley'de geliştirmeye başlanmış, büyük veri üzerinde paralel işlem yapmaya yarayan bir kütüphanedir. açık kaynak kodlı olarak geliştirilmektedir. scala dili ile geliştirilmektedir. github linki

    spark veri işleme motoru olarak bilinir. makine öğrenmesi, sql, akan veri üzerinde çalışma ve grafik işleme modülleri mevcuttur.

    apache spark;
    - farklı kaynaklardan gelen verilerin işlenmesi, görselleştirilmesi veya temizlenmesi ve analizi için,
    - karmaşık algoritmalar kullanılarak çıktıların tahmin edilmesinde, hata tespitinde, saklı bilgilerin çıkarılmasında, girdi verilerine dayanarak karar verilmesinde,
    - düşük gecikme süresi ve yüksek güvenilirlikle sürekli veri yakalama ve işleme,
    - özel soruşturmalarda veya sürekli planlı panolarda ürün veya işletme kararlarını bildirmek için büyük veri kümelerinden fikir edinmek gibi çeşitli görevler için kullanılabilir.
hesabın var mı? giriş yap