decision tree learning

veri madenciliği'nde makine öğrenmesinde kullanılan bir yöntem. continiuous olan ve olmayan ^* tahminlemelerde kullanılabilir. en iyi uygulama alanı muhtemelen classification’dır. patentleri farklı kurumlara ait algoritmaları olsa da özünde bunlar benzerdir. (bkz: classification and regression tree) (bkz: cart)

verilen parametrelere ve istenen çıktıya göre makine bir decision tree oluşturur. bunu oluştururken sizin bu parametrelerin önem derecesini ifade etmenize de gerek yoktur, kendisi olasılıklardan önce entropy sonra information gain(algoritmaya göre ig yerine gini index de olabilir) hesaplar. ağacı buna göre inşa eder.
örnek de verelim, havanın bulutlu olduğu 100 gözlemin 85’inde yağmur yağdıysa, havanın bulutlu olması ile yağmur yağması arasında ilişki vardır der ve 0.85 olasılık ile yağmur yağar der. bahsi geçen parametre için olası diğer durumları da ele alıp olasılık hesabı yapar, güneşli olması, rüzgarlı olması vs demiş olalım çok iyi örnekler olmasa da. ardından hava durumu parametresi için bir entropi bulunur.

bu entropi ya da entropy, anlam açısından fizikteki düzensizlik entropisine benzer. fizikte düzensizlik ifade ediyordu, burada da belirsizlik ifade ediyor. kullanılan yönteme göre farklı entropi değer aralıkları var mı bilmiyorum ama ^*, 0-1 arasında değişir. 0 ise düzensizlik yoktur, bahsi geçen parametre(kıstas) için sonuç deterministiktir. havanın bulutlu olduğu 100 örneklemin 100’ünde de yağmur yağdıysa entropi 0’dır. şayet parametre trivial ise, mesela benim o gün üstümde ne renk t-shirt olduğu ise bu kesinlikle hava durumunu etkiliyor değildir. belki ben havanın kapalı olduğu günlerde kırmızı renk giyiyorumdur, bu şekilde bir korelasyon arka planda var olup alakasız çıktıları etkiliyordur, (meşhur bebek bezi bira örneği) ama böyle bir durum da olmadığını farz ediyoruz biz örnekte. benim giydiğim t-shirt’ün rengi hava durumunu etkilemiyorsa, 100 örneğin 50’sinde kırmızı 50’sinde mavi t-shirt giymişsem makine bunu tamamen random olarak görecektir, bir nevi yazı tura yani. buna bağlı olarak da düzensizliği, belirsizliği maksimum atayacaktır yani 1 olacaktır o parametre için entropi.

entropi hesaplayıp o parametrenin sonucu ne kadar etkilediğine giden yolda önemli bir adım attık. ardından entropi ile ters korelasyon içinde olan information gain denen indis hesaplanıyor. the lower entropy is, the higher information gain is. ki bu da o kıstasın sonuca etkisinin indikatörü olmuş oluyor. ne kadar büyük, o kadar etkili. regresyon analizindeki değişken katsayısı bir nevi.

tüm parametreler için ki zaten ağacın dallandığı noktalar bunlar, information gain bu şekilde hesaplanıp ağaç inşa ediliyor. en büyük information gain’e dolayısıyla etkiye sahip parametre en üstte (bildiğiniz ağacı 180 derece ters çevirdiğinizi düşünün) yani kökte yer alıyor. aşağıya doğru dallanıp gidiyor. bu dallanmanın sayısı da kullandığınız tool’dan ayarlanabilir. parametre optimizasyonu yaparak ideal değerlere ulaşabilirsiniz.
ağaç oluşturulduktan sonra geriye pruning denen ağacı budama işlemi kalıyor. bu yapılıyor çünkü overfitting’in önüne geçilmek isteniyor. overfitting de grafiklerle daha iyi anlaşılır bir konu ama şu an veresim yok. özetle, spesifik durumları ezberleyip aşırı öğrenme(!) durumu. tam olarak öyle değil ama t-shirt örneğinden gidersek, ki bu örnek 50-50’de geçerli olmazdı, 51-49 olsun, kırmızı t-shirt giydiğinde yağmur yağmış o zaman durum tanımı hede hödö hada hodo iken kırmızı t-shirt de giyiyor ise yağmur yağar, bam. nein, öyle olmaz, çok saçma. o yüzden böyle alakasız spesifik durumların sözde etkisinden kurtulmak için çıktıyı belirleyen etkisi düşük dallar kesilir ağaç budanır. ki aslında bu budama işlemi de occam’s razor prensibine paraleldir.

avantajı ve güzelliği şu ki yapay sinir ağları’nın aksine blackbox bir yöntem değildir. ağacı görüp üzerinde gidilen yolu görerek nedenselliği anlayıp sorunun temeline inip semptomları yok etmek mümkündür.
kısıtı, unbalanced dataset ile saçma sonuçlar verir. onu balance eylemek gerekir. onçün de, (bkz: smoothing) ve başka şeyler...

crinix

22.06.2017 09:40