şükela:  tümü | bugün
11 entry daha
  • makine öğrenmesi dediğimiz şeye aslında tamamen istatistik bilimi ile iç içe geçmiş, sayamayacağımız kadar sayısal analiz tekniğini içerisinde barındıran bir yöntemler bütünü diyebiliriz. makine öğrenmesini veri tahmini ve daha çeşitli bilgilerin eldesi amacıyla kullanırız. olasılık ve istatistik dersinde aldığımız teorik bilgilerin daha gelişmiş versiyonlarını bu yöntemlerde kullanacağız. lafı daha fazla uzatmadan söze geçiyorum. daha fazla bilgi sahibi olmak isteyen arkadaşlar sorularını mesaj olarak yazarlarsa bildiğim kadarıyla kaynak tavsiyesi, bilgi paylaşımı vb. yardımlarda bulunabilirim.

    makine öğrenmesi dediğimiz teknikler bütünü öncelikli olarak bilgisayarlar veya bilgisayar işlevi gören işlemcilerle uygulanmakta. bu kısım şu an için çok önemli olmadığı için sizlerle makine öğrenmesindeki temel kavramlara değineceğim.

    veri: yorumlanmamış bilgilerdir. örneğin: bir ilçenin bir gün boyuncaki sıcaklığının saniyelik olarak kaydedilmesiyle oluşmuş yüzbinlerce satırlık bilgiler.

    veri seti: birbiriyle arasındaki ilişkinin (korelasyon) olup olmamasının bir önemi olmayan, lakin birden fazla türde verinin birleşimiyle oluşan veri kaynağına denir. örneğin yukarıdaki örneğe bir de o gün o ilçedeki her saniyede kaydedilen nem verileri de eklenirse bir veri seti elde etmiş oluruz. makine öğrenmesi uygulamalarında veri setlerini böleriz.

    veri setleri neden bölünür?

    veri setlerinin bölünme nedenini şöyle örnekleyebiliriz. diyelim ki elimizde 12 aylık bir hava durumu verisi var. ve biz bu verileri kullanarak hava durumu tahmin uygulaması yapmak ve gelecekteki hava durumlarını tahmin etmek istiyoruz. makine öğrenmesi algoritmaları kendilerini eğitmek için veriye ihtiyaç duyar. şöyle düşünebilirsiniz. bir şehre dair kanaatleriniz memleketi o şehir olan daha önceden tanıdığınız kişilerle oluşur. memleketi o şehir olan insanların az çok ne özelliklere sahip olduğunu bilirsiniz. işte makine öğrenmesi uygulamaları da bizden o şehrin insanlarını kafasında bir şekle oturtmak için memleketi o şehir olan insan verilerini ister.

    fakat olay burada bitmiyor. bizim elimizde sınırlı veri var ve algoritmamızın doğru çalışıp çalışmadığını test etmeliyiz. diyelim ki tanıdığımız tüm hataylı insanların verilerini algoritmamıza verdik. bu sefer doğru çalışıp çalışmadığını test etmek için elimizde insan verisi kalmaz. bundan dolayı verilerimizi ikiye ayırırız. hataylı insanları tanıması için insan verilerimizin bir kısmını veririz. lakin doğru çalışıp çalışmadığını test etmek için de verilerimizin kalan kısmını saklarız. veri setleri genel olarak ikiye bölünür.

    eğitim seti: eğitim seti makine öğrenmesi algoritmasının eğitilmesi için verileri tanıması ve tahminlerini bu veriler üzerinden yapması için oluşturulan settir. buna kısaca bundan sonraki verilere belli şekillerde önyargılı olmasını sağlayan veri seti diyebiliriz.

    test seti: eğitim seti kullanılarak oluşturulan algoritmanın ne derece doğru çalıştığını test etmek için daha önce kenara ayırdığımız veri setidir.
14 entry daha