q-learning
-
bu konu üzerinde derinlemesine uğraşan arkadaşlar mdp içinde bulunan transition probability değerlerinin q function içinde neden bulunmadığını anlayamamış olabilirler. bunun sebebi q-learning algoritmasının "model-free" yapısında olmasındandır. yani agent'ımız environmentı modellemek zorunda kalmaz. örneğin bir state içindeyken bir action gerçekleştirilirse yeni state environment tarafından bize verilir. böylelikle bizim hangi statelere gideceğimizi (transition probabilities) düşünmemize ve hesaplamamıza gerek kalmaz.
ekşi sözlük kullanıcılarıyla mesajlaşmak ve yazdıkları entry'leri
takip etmek için giriş yapmalısın.
hesabın var mı? giriş yap