2 entry daha
  • bu konu üzerinde derinlemesine uğraşan arkadaşlar mdp içinde bulunan transition probability değerlerinin q function içinde neden bulunmadığını anlayamamış olabilirler. bunun sebebi q-learning algoritmasının "model-free" yapısında olmasındandır. yani agent'ımız environmentı modellemek zorunda kalmaz. örneğin bir state içindeyken bir action gerçekleştirilirse yeni state environment tarafından bize verilir. böylelikle bizim hangi statelere gideceğimizi (transition probabilities) düşünmemize ve hesaplamamıza gerek kalmaz.
1 entry daha
hesabın var mı? giriş yap