şükela:  tümü | bugün
  • (bkz: veri bilimi)
  • harvard business review demişki:
    (bkz: data scientist is the sexiest job of the 21st century)

    neyse bu iş türkiyede hala oturmadı. bu işi yapabilecek vatandaşlarımız şu an abd veya ingiltere çalışıyorlar. yarın bir gün, şirketlerin bir tarafı tutuşunca ülkeye adam toplamaya başlarlar.

    ahanda link: seksiler efendim
  • eski ismi istatistikçi olan meslek. böyle söyleyince kulağa hoş geliyor *.
  • veri bilimi konusundaki su entrym

    (bkz: #52447790)

    iki yil oncesine ait olmasina ragmen, sukelalar ve konu ile ilgili mesajlar yeni yeni gelmeye basladigina gore, turkiye'de de adindan soz ettiren yepyeni bir meslek grubu.

    son gunlerde hem yakin cevremden, hem sozluk uzerinden cok fazla mesaj aliyorum.
    bu meslegi icra etmek isteyen genclerden, bir yerden baslamak isteyip nereden baslayacagini bilemeyenlerden, baslamis olup nasil devam edecegini bilemeyenlerden, isi gucu birakip kariyer degisikligine gidecek olanlardan.

    bir amme hizmeti vermenin vakti gelmis sanirim.

    biraz tarihce:

    veri bilimi goreceli olarak cok yeni bir alan. henuz ne olup ne olmadigi oturmus degil. bir takim egitim programlarinin gecmisi 2-3 yil. bundan 4-5 yil once meslek adaylarini kaynak problemi ve derli toplu bir egitim imkanina ulasmak zorlar iken, su anda kaynak bollugu ve onerilen programlarin cesitliligi zorluyor. en cok aldigim sorular 'su su master programlarindan hangisini seceyim' ya da 'su su kitaplardan hangisini onerirsiniz'.
    alan cok hizli ilerliyor.
    egitim henuz yuksek lisans duzeyinde. lisans duzeyi cok yeni. 'data science' doktorasi diye birsey henuz yok*. bana sorarsaniz lisans duzeyi aslinda acilsa da olmayacak bir alan bu.

    peki neden?
    butun bu cilginlik nasil basladi?

    aslinda piyasada veri bilimi olarak uygulanan sey en genis anlami ile istatistik. psikologlar, sosyologlar, fizikciler, matematikciler ve alani istatistikle hasir nesir olan bircok arastirmacinin yillardir uyguladigi yontemler. veriyi bilgiye donusturme icin yapilan hinlikler, ornegin signal processingcilerin yillardir uyguladigi seyler.

    (parantez acalim: peki veri bilimi istatistik mi?

    istatistikten ibaret degil. yeri geldiginde istatistigi hunharca kullanan ama bazen de hic isi olmadan bir adim oteye tasiyan bir alan. bu veriye kimin baktigina cok bagli, yani subjektif. iste o sebepten veri bilimi'nin veri bilimi adi ile lisansi veya doktorasi olamaz dusuncesindeyim.
    suraya bir bakiniz, https://stats.stackexchange.com/…s-machine-learning)

    devam:

    internetin hayatimiza girmesi, sosyal medyanin, online alisveris sitelerinin devasa boyutlarda veri uretmesi, bu verileri depolama ve isleme kapasitemizin artmasi, yani bilgisayar donanimlarinin hem cok hizli gelismesi hem de cok hizli ucuzlamasi, istatistigin cok onemli bir ihtiyacina cevap verdi, buyuk boyutlarda, cok sayida veri. artik veriden 'sample' almak zorunda kalmamak.

    bu devasa veri boyutlari baska problemleri beraberinde getirdi. artik bildigimiz veri tabani islemleri yetmiyordu. ornegin, google, hangi kelimelerin ne kadar cok arandigini kolaylikla sayamiyordu.
    bildigimiz business intelligence yetmiyordu. ornegin, facebook, twitter gibi sosyal medya platformlari icin kac kisinin yeni uye oldugu sorusundan daha onemli sorular vardi, kimin kiminle arkadas oldugu, insanlarin baglanti profilleri.
    (facebook'ta bir toplanti sirasinda veriyle ugrasan insanlari adlandirmak icin o an uydurulmus all these data scientists... tanimi gelmis gecmis en cok sukse yapan bir meslegin adi oldu. data scientist in isim babasi facebook yani.)

    iste bu problemlere cozum aramak icin yeni yontemler gerekiyordu. belki ilk defa adinda bilim gecen bir alanda ozel sektor universitelerden ve akademik enstitulerden onde gitti. google, az once anlattigim problemini cozmek icin mapreduceu uretti, facebook graph theoryye yuklendi. butun bunlar hem donanim, hem altyapi, hem de teori dunyasini kendi ihtiyaclari dogrultusunda sekillendirdi.

    ayni zamanda butun bu gelismeler bilgiye ulasmanin hic olmadigi kadar kolay oldugu bir zamanda yasandi. open source araclar ilgili ve merakli herkesin kullanmakla kalmayip katki sundugu platformlar olduklarindan, bilgiye ulasmak da kolay oldugundan herkes ihtiyaci veya meraki dogrultusunda birseyler uretti ve piyasaya sundu. bilginin yayilmasi, birbiri uzerine eklenip ileri noktalara tasinmasi da akademik disiplinlerin hizi ile kiyaslandiginda roket hizinda oldu. bir is yaptiginizda onlarca literatur taramasina, bir akademik juriyi ikna etmeye, yayin icin aylardir hazirlanmaya ve yayinin kabul edilmesini beklemeye ihtiyaciniz yoktu. geleneksel bilim kistaslari hicbir sirketin umrunda degildi, bunun kotu yanlarini, iyi yanlarini tartismak istemiyorum, sadece bu ilerleme hizina ve sebeplerine dikkat cekmek istiyorum.

    eger bilim diyeceksek, veri bilimi, iste yukaridaki sebeplerle, mufredatli, planli programli akademik egitime gectigimizden ve bilimi hem yazili kati kurallarla, hem de yazili olmayan etik veya 'camia' kurallariyla akademisyenlerin tekelinde biraktigimizdan bu yana universite disinda gelismekte olan, universite disinda alip basini gitmis ilk alan.

    bu sebepten bir mufredat toparlamak, cilgincasina ilerleyen bu alani bilimsel formata sokmak, standarda sokmak o kadar kolay bir is degil. bana bakmam icin iletilen cesitli master programlarinda uc asagi bes yukari ozel sektorde sikca kullanilan yontemlerin, araclarin derli toplu bir ozetini goruyorum. fakat hicbir akademik programin bugun veri bilimi adi altinda icra edilen konularin tumunu kapsamasi mumkun degil. su an itibari ile bildigimiz anlamda bir lisans programi acilabilecegini de sanmiyorum. cunku veriyle neye cevap veriyoruz, soru nasil sorulur, nasil cevaplanir konulari sadece veri biliminin tekelinde degil, tum bilim dallarinin temel meselesi.

    peki nasil gelisiyor? nereye gidiyor?

    yukaridaki bir paragrafi suraya kopyalayarak devam edeyim:

    "ayni zamanda butun bu gelismeler bilgiye ulasmanin hic olmadigi kadar kolay oldugu bir zamanda yasandi. open source araclar ilgili ve merakli herkesin kullanmakla kalmayip katki sundugu platformlar olduklarindan, bilgiye ulasmak da kolay oldugundan herkes ihtiyaci veya meraki dogrultusunda birseyler uretti ve piyasaya sundu."

    buna ilk uyum saglayan elinde veri hazir olan ve veriyi paraya donusturme istahindaki internet teknoloji sirketleri, online satis platformlari ve sosyal medya oldu.

    ellerinde veri olmayanlar, ya da son derece geleneksel sirketler, ya da dunyadan haberi olmayan vizyonsuzlar gec uyanacakti, oyle de oldu.

    enerjiden sagliga, bankaciliktan, sigortaciliga, lojistikten medyaya her sektor ama her sektor ya veri biliminin nimetlerinden yararlanacakti, gucu yetmiyorsa ya da olayi kavrayamiyorsa yararlaniyormus gibi yapacakti, ya da yokolacakti. teknoloji ve kulaktan kulaga duyulan 'data science', 'big data', 'machine learning', 'artifical intelligence' kendi halinde ekmegini, gazetesini satan kucuk mahalle bakkallari disinda her isyerine secenek birakmadan donusmeye, degismeye zorluyordu.

    (burada da bir parantez acayim: bu degisimin kimin icin ne olcekte olmasi gerektigi, kimin bundan nasil yararlanabilecegi ayri bir entrynin konusu. kisisel fikrim, bircok isletmenin gereginden fazla etki altinda kaldigi ve sirf prestij icin ya da havasi olsun diye kendisine cok da getirisi olmayacak isler pesinde kostugu yonunde. veri elbette yarar saglar, ancak dogru kullanirsaniz. google olmak isteyen emmimgil hastanesi tadinda isyeri cok.)

    dolayisi ile burada cesitli duzeyde ihtiyaclar ortaya cikti.
    'elimde veri var, adam yok' diyen sirketler veriyi derinlemesine analiz edebilecek ve yeni yontemleri kullanabilecek kisileri ariyorlardi, ve bu kisilere data scientist deniyordu.

    'elimde veri olabilir, hic bakmadim, belki de vardir, simdi biz bunlari nasil yapalim' diyen sirketler eski model veri tabanlarini donusturecek, altyapi hazirlayacak, veri akisini adam edecek, ve akabinde birtakim islemlerini otomatiklestirebilecek birilerini ariyorlardi, ve bu kisilere de data scientist deniyordu.

    'elimde veri var, adam da var, ama bu adamlarin yerine ai istiyorum ben' diyen sirketler, musterilerini otomatik olarak gruplara ayiracak, siniflandiracak, ona gore muamele edecek, yanina da cay kahve getirecek bir simone yapacak kisileri ariyorlardi, ve bu kisilere de data scientist deniyordu.

    simdi bu uc basligi toplarsak,

    1. isin analiz, arastirma, veriyle yatip kalkma kismi
    2. isin altyapi, ve karmasik olmayan islemleri otomatiklestirme kismi
    3. isin herseyi otomatiklestirme becerisini otomatiklestirme kismi

    bunlarin ucu de data scientist olarak aniliyor.

    hangi yone gideyim diyen genc arkadaslara,

    sabriniz varsa, arastirmayi seviyorsaniz, kafaniz su an cok karisiksa ve neyi istediginizi tam bilemiyorsaniz, imkaniniz da varsa (burs, asistanlik, baba parasi, vs.) doktora yapin. sonra yonunuzu kendiniz bulursunuz. tercihen artificial intelligence doktorasi oneririm, ama cografi bilgi sistemleri gibi bir doktorayla, ya da medical imaging gibi bir doktorayla da epey bilgi kazanirsiniz. doktora secenekleriniz sonsuz. kafaniza gore, bolumunuze gore birseyler secin.

    imkaniniz var ama sabriniz yoksa, ya da kariyer degistiriyorsaniz, olan tecrubenizi tamamlayici bir master programi oneririm. bilgisayar bilimci iseniz, istatistik agirlikli, matematikci iseniz programlama agirlikli gibi.

    sektordeki gelismeleri takip ederek kendinize bir yon cizin. bu yon ilk buldugunuz isle de belirebilir, cunku benim de haberim olmayan 'aa ne ilginc problemmis' dedigim problemlerle is gorusmelerinde karsilasiyorum. sektorde uygulama alani sonsuz diyebilirim.

    o sebepten bir ongorumu de paylasayim: su anda gordugunuz programlarin cogunlugu online sektorun ihtiyaclari ve uygulamalari dogrultusunda duzenlenmis. yarin birgun diger sektorler de bu ise tam olarak katilim sagladiginda, o programlarin bir ise yaramamasi kuvvetle muhtemel.

    o sebepten temel bir bilimin egitimini alin, arastirma tecrubeniz olsun. yapabiliyorsaniz veri agirlikli bir doktora yapin.

    cok sevdiginiz bir is varsa, ya da cok sevdiginiz bir bolum varsa, sirf populer diye bu alana gecmeyin. gidin neyi seviyorsaniz onu okuyun. kismet, belki o alan patlama yasayacak, belki veri biliminin sahane bir uygulamasi o alanda olacak size ihtiyac duyulacak. sevmediginiz, sevemeyeceginiz isi sirf populer diye yapmaya calismayin.

    buraya kadar gayet objektif takildim. sira subjektif yorumumda.

    1. hayatinda bir kere bile veri temizlememis, bir kere bile veri karsisinda kafayi yememis insan veri bilimci olmamali.

    2. teknoloji devi olmadigi halde, insani aradan tamamen cikarma hevesindeki sirketler, ya da herseyi otomatiklestiririm kafasindaki yazilimcilar olayi gercekten hic anlamiyor.

    3. onlara su ornegi vereyim: akademisyen oldugum donemde herkes ama herkes biran once yayin yapmak pesindeydi. dolayisiyla kullandigimiz analiz arac gereclerinde neredeyse 'otomatik yayin' butonu ariyorlardi. veriyi temizleme isini ciddiye alan uc bes kisiydik, o asamayi seviyoduk. cunku kesfe en acik olan asama isin o kismidir. millet kod yazip binlerce veriye ayni islemleri uygularken, benim kidemli arkadas tek tek eliyle bakip gayet onemli bisey bulmustu. o buldugu sey onun kesif olarak bilim dunyasina yazdirdigi ve tum o otomatik yayin pesindekilerin de uzerine atlamaya calistigi birsey.

    4. bu is programming science degil, algorithm science degil, data science. 'veriyi hic gozum gormesin, sonuc ciksin' diyenler, siz haksizsiniz.

    notlar:
    *: data science doktora programi diye birseyler gordugum oluyor fakat program iceriginden bunu supervise edecek hocalarin da tam emin olamadigini goruyorum. endustriden gelen talep cercevesinde bir program aciyorlar, adi data science, fakat arastirma konusu olarak sececekleri sey bilgisayar bilimlerine de girebilir, istatistige de, yapay zekaya da.

    **: esasen facebook isim babasi degil, genel bilinen hikaye bu.

    sikca sorulan sorular editi:
    1. ne okudunuz?
    uzgunum, yanlis soru. cevabi size cok yardim etmez, ama merak ediyorsaniz veriyle cok icice bir alanda master ve doktora yaptim. uzerine akademik arastirmalar yaptim. ex-akademisyenim.

    2. ne okuyayim?
    sizi tanimadan, yeteneklerinizi, ilgi alanlarinizi, neyin sizi atesledigini bilmeden buna cevap veremem. matematik egitimi iyi olan, analitik dusunme yetenegi kazandiran, deneylerle icice, istatistik kullanan bir temel bilim dali okuyun. master, doktora yapin, ki bunlari yukarida anlatmistim zaten. bilimsel dusunmeyi data science programlari ile ogrenebileceginizi dusunmuyorum. kisisel fikrim data science lisans programi acilmasinin sacma oldugu.

    3. hangi programlama dilini ogreneyim?
    su an icin, analitikciler icin r, python, matlab uclusu. yarin ne olur bilemem.
    su an icin, backendci, automationcilar icin java, scala, spark. yarin ne olur bilemem.
    su an icin, altyapicilar icin database mantigi, nosql. yarin ne olur bilemem.
    hepsi: sql
    programlamanin mantigini ogrenin, kendinizi yeniliklere adapte olabilecek sekilde yetistirin. ben mezun olurken o donemlerin gozde meslegi quantitative analystlik, operation research'cilik, market research'culuk falandi. o donem c++ onemliydi, ogrendik. simdi unuttuk.

    sikca yapilan hatalar editi:

    1. data analystin data scientistten baska birsey oldugunu sanmak.

    kabul ediyorum, data scientist diyince daha bir havali duruyor. fakat su an uygulama acisindan cok rahatlikla soyleyebilirim ki, harvard business review'in '21. yuzyilin en seksi meslegi' diye tanimladigi data scientist'likten her neyi anliyorsaniz, iste onun aynisini data analyst resmi unvani ile icra edenler var. sizin bakkalin muhasebecisinin hesap makinesi ile yaptigini bilgisayarda yapip unvani data scientist olanlar da var.

    is secerken israrla data scientist pozisyonlarina bakip, 'data analyst' pozisyonlarina burun kivirirsaniz hata edersiniz.

    (konuya asina arkadaslar icin parantez: eski calistigim sirketlerden birinde yakin zamanda got korkusundan bir donem birlikte calistigim herkesin unvani data scientist olarak degistirildi, kampanya yoneticisi dahil. disaridan bakinca 20 tane data scientistten olusan dev bir ekip var gibi gorunuyor, fakat bu kisilerin hicbiri zaman zaman bana sorular soran ogrenciler kadar bilgi sahibi degil. distance matrix, poisson process, boosting algoritmalari, vs. gibi isleri birakin, standart sapma nedir haberleri yok, bazen neden kiyaslamalarda mutlak rakam degil de yuzde gereklidir haberleri yok. )

    2. ogrendiginiz $ık yontemleri her probleme uygulamaya kalkmak

    simdi bu, dun ogrenmeye basladiginiz bir dilde henuz cumle gramerini ogrenmeden, duydugunuz kelimeyi cumle icinde kullanmaya calismaya benziyor. sonuc: are you sex?

    her problemin dogasi farklidir, yapisi farklidir, ihtiyac duydugu veri farklidir, kisitlari farklidir. once problemi anlayacaksiniz, neye cevap vereceginizi anlayacaksiniz, ondan sonra veriye bakacaksiniz, veri size birsey anlatiyor mu, ihtiyacinizi cozebilir mi, onu anlayacaksiniz. yonteme sonra karar vereceksiniz. isin bu kismi biraz tecrubeyle kazaniliyor. iste o sebepten veriyle yatin kalkin. mumkunse doktora dememin sebebi bu, yontem kestirme isini insana en guzel ogreten sey doktora.

    (asina parantezi: binary sinifli gelmis historik veriye association rules uygulamak nedir yahu, ya da time series verisini evirip cevirip random forestla klassifikation yapmak?!? ya da biseyle biseyin arasinda gecen zamanin dagilimini discrete distributionla (poisson) aciklamaya calismak? niye? cunku derste onu gordun.)

    3. visualization kismini gereginden fazla onemsemek

    3 boyutlu yanarli donerli grafikler, firindan yeni cikmis bonibonlu muffinin uzerindeki bonibonlar gibi piril piril alev alev parlayan bubble chartlar, renk skalasini kimsenin anlamayacagina garanti verecegim konturlu heat mapler.
    hepsi cok guzel gorunuyorlar, kabul ediyorum, uretmesi de cok zevkli.
    fakat alanin bu hizda gelisip genisledigi bir cagda, bilginin pesinden yetismeye 24 saat yetmezken, vaktinizi kimsenin anlamayacagi renk cumbuslerine harcamak istediginizden emin misiniz?

    veriden anladiginizi anlatmanin bir yolu onu gorsellestirmek, grafikler yolu ile anlatmak. iyi bir grafik, minimum karisiklik, maksimum sadelikle, maksimum bilgiyi ileten grafiktir ve bunlar her zaman yaparken sizi cok eglendiren grafikler olmayabilir. siz visual effects uzmani degilsiniz, kariyerinize grafiker, cizgi film animatoru falan olarak devam etmek istemiyorsaniz bu konuya bu kadar zaman harcamayin.
  • bugün 3.500tl net maaşla teklif aldığım pozisyon. bunlar da ayağa düştüler.
  • mühendis kavramı ayağa düşürdükten sonra (gerçi bunu sektör değil, üniversiteler yaptı), sıra bilim adamına geldi.

    don gömlek satan sikindirik şirketler bile çalışanlarına gaz vermek için "data scientist" demeye başladı.
  • linkedin tarafindan ustuste en seksi meslek secildigi icin olsa gerek yillar icinde bu meslek grubunu icra eden insanlar arasindaki kalitede gozle gorulur bir dusus var.

    bes yil oncesine kadar doktorali olmayan birine bu unvan kolay kolay verilmezdi. yuksek egitimi olmayanin maksimum cikacagi seviye data analyst olurdu ornegin. sonra zamanla data science odakli master programlari ortaya cikti, bunlar mezunlarina data scientist dediler. hadi o neyse daha sonra nanodegree denen sacmalik cikti. 3 ay python, r, scikit-learn vb. acip kapamayi ogrenen insanlar data scientist'im diye ortalikta geziyor.

    soyle bir problem var diyorsun, support vector machine yapayim abime, ordan biraz l2 regularization vereyim, tatli olarak da hidden markov yaptirayim mi abe? diye cevap veriyor. sen bunu neden yaptin diyince abe dataya iyi fit etti falan diyor. tek bi test data kullanip %95 accuracy buldum o yuzden bu modeli sectim diyor mesela. guler misin aglar misin.

    data scientist meslek tanimi yillar icinde degisti. istatistikten zerre anlamayan ya da sadece istatistikten anlayip alan bilgisi olmayan insanlar her yerde. tas atsan bunlardan birine carpiyor artik. sonra neymis yilin en seksi meslegi. he yavrum he.
  • veri bilimciliği, cloud, big data gibi hype-tech atılımlarının çok daha öncesinde vardı. ancak bir title olarak önplana çıkması, sektörel yayılımlarla oldu. 20 yıl önce de istatistiksel analiz sistemleri kullanılıyordu, ancak data scientist olabilmek, bu alandaki uzmanlıktan ziyade bütün sistemleri kapsayan, akademik yanı ağır, bir çalışmaya dayanıyordu. daha da öncesinde, replication crisis gibi sebeplerle istatistik biliminin yapısal açmazlarına karşı çok daha açık olan sosyal bilimler için bile paketler vardı. evet, veri bilimi diye bir şey vardı ancak data scientist title'ı, hem akademik hem sektörel çevreler için bile belirli bir zamansal sınıra tabiydi.

    daha spesifik olarak frekans analistliği, yüzyıllar öncesine dayanan spektral analistlik de bir veri bilimciliğidir, böyle kabul görmüştür. ama bugün öyle bir noktaya gelindi ki tez için fmri set'leri kullanan, doktora öğrencileri bile data scientist olduklarını söyleyebiliyor. ya da reklam departmanlarında api'ler üzerinden analiz yapan, stajyer berke'ler bile linked.in profiline data scientist ibaresini eklemekten çekinmiyor.

    ml ve ai üzerindeki tartışmalar ise daha girift ve yapıcı. bugün gelinen noktada, matematiğin ve bilgisayar biliminin pragmatizm tartışmaları, artık felsefik bir boyut aldı. foton sayımları, radio burst gözlemleri artık frequentism vs. bayesianism tartışmalarıyla içiçe yürütülüyor.

    demem o ki, son 5-10 yılda ortaya çıkmadı data scientist'ler ve 5-10 yılda da görevlerini tamamlayıp çekilmeyecekler.

    bugün illa ki bir iş, o işin tanımı ve icrası tartışılacaksa buna çok daha açık olan alanlar var. örneğin feature engineering, hatta kendi işimdir ama "feature engineer ne aq!" derim yani. hele bu meslek türetme işini abartıp "data wrangler" gibi sikimsonik ve gereksiz title'lar üretenler bile var.
  • yaptiklari isin neye hizmet edecegini anlamaktan ziyade, tek hedeflerinin ne olursa olsun yuksek tahmin becerisine sahip algoritma gelistirme oldugunu gozlemledigim meslek grubu. bu yaklasim cogunlukla yanlis yerlere goturecektir kendisini. amac anlasilmadan, cozum uretilemez.
  • data science alaninda kendini gelistirmis kisilerin olusturdugu meslek grubu.

    bir ustteki yazar, algoritmanin neye hizmet ettigini anlamdan sadece basarisina odaklanan meslek grubu gibi bir tanim girmis. burada birkac cumle ile anlatmak istedigim seyler bulunuyor.

    su anda dunyada bu is iki farkli title altinda yapiliyor. bir tanesi burada bahsedilen data scientist digeri ise machine learning engineer. ikisi arasinda en bariz fark ise business expectations diye anilan isin ucunda yaratilacak olan katma degerin ne oldugunun dikkate alinip alinmadigi. data scientstolmanin en acili tarafi modellerin buyuk basari ile yaratilmasi ve deploy edilmesi degil yapilan modelin projeye katkisinin (business value) ne olacaginin olcumlenebilmesidir. machine learning engineer ise isin sadece model tarafini dikkate alindiginda gecerli olan kisimdir. bir data scientist sadece projenin beklentilerini degil, o projede yapilan isin yer aldigi sektor veya yapilan is ne ise o isin surecini de ogrenmek/bilmek zorundadir. bu sureci de nasil iyilestirecegini dile dokmek anlatmak ile de yukumludur.

    is ilanlarindaki bu ayrima dikkat cekmek icin ve farkindalik icin baska yerlerde de yazmak istemistim. ancak bu farkindaliga sahip bu isi yapanlar dahil olmak uzere ciddi bir kitle yok. data scientist ile machine learning engineer ayni isi yapiyor gibi gozukse de ayni meslekler degildir.

    buna istinaden yukaridaki arkadasin gozleminin aslinda buradaki farkindaligin olmamasi kaynakli oldugunu dusunuyorum. bunun yaninda bu isi yapan ve ilgi duyan kisilerin kullandigi kaggleadinda bir web sitesi var. bu site icinde algoritmalarin ve tekniklarin yaristigi bir ortam bulunuyor. buradaki yarismalarda guzel bir dogruluk orani ile bir model kursaniz dahi, bunu 0.0001 bile artiracak yeni teknik sizin siralamada one cikmanizi sagliyor. bunu goren yeni nesil ve bu isi ogrenmek isteyen insanlar da modelin basarisinin aslinda en onemli sey oldugunu dusunuyor.
    burada modelin basarisini tabii ki kucumsemiyorum. ama bir data scientist modelden once business value olarak tabir ettigim proje sonunda yer alan beklentileri ve aslinda modelin canliya alindiktan sonra kendinin veya kullanacak olan sirketin nasil bir katma deger ile bu projeyi kullanacagini bilmek zorundadir. bir model yaptiktan sonra ve ornegin bir siniflandirma algoritmasi ile 89% basari elde edildiyse ve bunu kullanmak proje beklentilerinin karsiliyorsa 95% basariya cikartmak icin harcayacagi zaman kazanc mi yoksa ters etki mi edecegini olcmek gereklidir. cogu gercek hayat probleminde de bununla karsilasmak cok olasidir. 85% aldiginiz orani 95% 'ye cikarmak cogu zaman oncesinde harcadiginiz zamandan daha fazla bir zaman alacaktir.

    ezcumle, yukaridaki arkadasin dedigi gibi proje beklentisi bilinmeden baslanan ve devam eden projeler gereksiz zaman kaybinin yaninda sonucunda bizi goturecegi yer ve katma degerin elde edilmesi noktasinda negatif maddi etkiler dogurmasi muhtemeldir. bu nedenle bu isi yapmak isteyen kisilerin proje yoneticisi ya da proje sahibi ile gercekten oturup beklentinin ne oldugu, sonucunda yaratilacak katma degerin etkilerinin uzerine anlasmalilardir. bir proje sadece algoritmadan olusmadigi gibi sadece modelin otomatik calisbilmesi ile de sinirli degildir.