• 400 küsür sayfalık türkçe olarak hazırlanmış pdf.

    http://sadievrenseker.com/…ads/veribilimi_knime.pdf
  • bildigin istatistik
  • finans alanında ilerlemek istediğim bilim dalı, başlangıçta nasıl başlanır, hangi program kullanılır vs tarzı tavsiye verecek olan varsa sevinirim. şuan için datacamp'de giriş yaparak başlanmış bulunmaktayım python ile
  • yeni mezun olarak ugraştığım hede, ilk olarak son senemde spark öğrendim,map,reduce işlemlerini oturttum üzerine lineer algebra ve calculus 2 kitapları bitirerek başladım, bir şirkette bu alanda junior olarak ar-ge departmanında çalışıyorum, iyi bir master programına kabul alabilmek için geçen sene bitirdiğim kitapların tekrar üzerinden geçip üstüne istatistik ve diferansiyel denklemler ekleyip devam edicem yoluma.
    bu konuda işin ehli olanların bir yeşil uzağındayım.
  • su tweet te nokta atisi bir tanimi yapilmis bilgisayar bilimleri alani: "statistics done by nonstatisticians" *
  • son on yıl içerisinde adı konulmuş bir meslek olmakla birlikte, mühendisler ekonomistler ve istatistikçiler gibi çeşitli meslek gruplarının aynı ofiste aynı işi yapmasına olanak sağlayan bir meslektir. big data, makine öğrenmesi, iş ve veri analizi, raporlama uzmanlaşılabilecek alt dalları arasındadır.
    bir veri bilimci en az bir yazılım dilini ve temel istatistiği orta-üst seviye öğrenmelidir. r veya python öğreniminin yanısıra temel bir istatistik kitabı alıp çalışılması, altyapı kurmak için etkili olacaktır.
  • çalıştığım departmanın ismi olmaktadır. kısaca anlatayım neler yapıyoruz:

    ben data business analyst olarak öncelikle ilgili iş birimiyle görüşerek problemi, iş değeri ve uygulama kolaylığı açısından değerlendiririm. sonrasında problemle ilgili verinin nerede bulunduğunu, özellikleri ve boyutu bilgilerini veritabanı ekiplerinden isterim. ekibimizde bulunan data engineer veriyi bulundugu ortamdan bizim data science platformumuz içerisindeki data lake'e aktarır.

    bu noktadan sonra verinin ön değerlendirilmesi platform içerisinde bulunan analitik aracı ile benim tarafımdan yapılır. ben data engineer ile birlikte çalışarak verinin temizlenmesi, dönüştürülmesi ve analize hazır hale getirilmesine yardımcı olurum.

    analize hazır hale gelmiş veriyle eda (exploratory data analysis) sürecini başlatırız. bu aşamada ben iş birinin kpı'ları ve gitmek istediği nokta ile veriden elde ettiğimiz sonuçları değerlendirerek data scientist ve iş birimi arasında köprü vazifesi görürüm. eda sonucunda birtakım actionable insights (uygulanabilir öngörüler) ortaya çıkar, bunlarla ilgili takipleri yaparım.

    ilk analizlerimizle hedeflenen sonuca bir adım atmış oluruz, bundan sonraki kısımda ileri analitik çalışmaları gerçekleştireceğiz. bu noktadan sonraki çalışmaları data scientist yapar, ben ilk değerlendirmeyi yaptıktan sonra iş birimine sonuçları iletirim. öncelikle feature engineering yani model için gerekli özelliklerin belirlenmesi kısmı yapılır. bu süreç veri temizlemesinden sonraki en önemli süreçtir, modelin sağlıklı sonuçlar vermesini sağlayacak olan feature engineering kısmıdır. model için en doğru sonuçları alırken computational power'ı minimum seviyede kullanarak maliyeti düşürmek de buradaki bir diğer önemli noktadır.

    feature engineering kısmı tamamlandıktan sonra modelleme aşamasına geçilir. modelleme aşamasında birçok model denendikten sonra en basit ve değerlendirme parametresine göre en doğru sonucu veren model seçilir. ayrıca modellemede over-fit'in önüne geçmek için cross validation yapılır. model yapılırken hyper-parameter tuning dediğimiz algoritmada bulunan parametrelerin en doğru sonucu verecek şekilde belirlenmesine dikkat edilir.

    modelleme aşamasından sonra modelin değerlendirilmesi aşaması başlayacaktır. bu aşamada iş biriminin hedefleri, problemin doğası ve verinin yapısına en uygun olacak değerlendirme kriteri seçilir. model sonuçlarını geliştirmek için süreç baştan sona birkaç kez tekrarlanabilir.

    modelin yaşayan bir süreç haline getirilmesi yani deployment aşaması için ilgili yazılım mühendislileri ile iletişime geçerek proje yaşayan bir süreç olarak tamamlanır. tüm süreç hikayeye dönüştürülerek yönetime sunulur.
  • veriyi anlamlandırma bilimidir. ` şimdi diyebilirsiniz ki "e bütün bilim bu değil midir zaten?" evet, veri biliminin özelliği bu prosesleri otomatize etmesidir. otomatik bilimdir yani bu zımbırtı. verisini otomatik biçimde kendi toplayan, belirlenmiş pipeline'lar ile kendisi anlamlandıran, ve bunları gerçek dünyaya uygulanması adımlarının her birinde aktif görev alabilir. yazılım desteği alabilir, almayabilir. bunu yaparken lisansının hangi bölümden olduğu da değişik şekillerde anlam kazanabilir. mesela;

    - veri çok çok büyüktür. bir insanın bakıp anlamlandırması için 4 ömür harcaması lazımdır. veri bilimci koşar yetişir. veriyi 2 saatte otomatik biçimde okuyup anlamlandıracak kodu yazar. genel mantığı anladıktan sonra bi kontrol eder. veriyi anlar.

    - veri çok karmaşıktır. bağımlı değişkenler, bağımsız değişkenler hepsi birbirine girmiştir. veri bilimci koşar yetişir. anlam çıkarılabilecek hale sokar. sonra da anlar.

    - veri insan için anlaması kolay, ama makineye anlatmak açısından zordur. mesela fotoğraflar. her insan gördüğü şeyin ne olduğunu bilir, ama makineye bunu anlatmak için o veriyi belli bi şekle sokmak gerekir. veri bilimci koşar gelir en optimal çözümü üretmeye çalışır.

    - veri insanın anlaması için çok zordur, ama doğru direktiflerle makinenin kolaylıkla altından kalkabileceği bilinir (çok boyutlu veriyi sınıflandırma gibi). veri bilimci gelir hangi parametreler en önemli, hangileri önemsiz, hangileri için ön işleme yapmak gerekir vb. düşünür, çözümler, modeller sonra da ürününü ortaya koyar.

    - veride bazı kısımlar bazı kayıtlarda eksiktir, yanlış ölçümler vardır, hata payları vardır, karman çorman bir biçimdedir. bunların daha ileri işlenmesi için düzene sokulması ve normalize edilmesi lazımdır. veri bilimci gelir halleder.

    - elde yapılmak istenen bir şey vardır, ama buna dair verinin nasıl toplanacağı bilinmemektedir. veri bilimci veriyi toplamak için çözümler üretebilir.

    - elde veri de vardır, anlamı da biliniyordur, iş artık bunu gelecekte de aynı işi yapması için otomatize etmeye kalmıştır. veri bilimci yol gösterir.

    bunları yaparken hangi aracı kullanması gerektiğini bilir. verinin kendisine dair meslekten gelen öngörüsü vardır. kararı veren değildir, kararları verecek olanlara beton gibi rasyonel bir önsezi kazandırandır.

    yukarıda sayılanların bazıları bilgisayarcılar, bazıları endüstri mühendisleri, bazıları istatistikçiler tarafından daha iyi yapılıyor olabilir. ancak yine de konseptlerin hepsine aşina olmak zorunda kişi. en iyisini şu adam yapar diyemeyiz. işin doğasına aykırı. veri biliminde yeri gelir sular seller gibi bilgisayar/istatistik bilip verinin ait olduğu domaine dair hiçbir şey anlamazsınız ve bu sizi çok zorlar. tıpta çok olduğu gibi. istatistik/bilgisayarcı adam tek bir iş için baştan tıp öğrenmeyeceği için zamanında bu işlerle uğraşmış veya en azından veri bilimciye öngörü verebilecek bir doktor bulursunuz ekibe katarsınız anca öyle devam edebilir.

    herkesin bu işi yapmakta kendi ekolü vardır, doğrudur. istatistikçisi ayrı düşünür bilgisayarcısı ayrı düşünür bunda anormal bir şey yok.
hesabın var mı? giriş yap