şükela:  tümü | bugün soru sor
  • uzun adıyla residual network. microsoft research ekibi tarafından aşırı derin network'lerde gradient'in 0'a yakınsaması problemini ortadan kaldırma amaçlı geliştirilmiştir. mantığı oldukça kolaydır, birkaç layer önde yer alan aktivasyon fonksiyonunu şu anki aktivasyon fonksiyonunun inputuyla toplayıp aktive eder. böylece şu anki layer'in lineer transform sonucu 0 olsa dahi bir değer üretir. bu da identity function öğrenmek için mükemmel bir detaydır. sonuç olarak vanishing gradients problemi olmadan çok daha derin ağlara sahip olunabilmekte.