q-learning

2 entry daha

bu konu üzerinde derinlemesine uğraşan arkadaşlar mdp içinde bulunan transition probability değerlerinin q function içinde neden bulunmadığını anlayamamış olabilirler. bunun sebebi q-learning algoritmasının "model-free" yapısında olmasındandır. yani agent'ımız environmentı modellemek zorunda kalmaz. örneğin bir state içindeyken bir action gerçekleştirilirse yeni state environment tarafından bize verilir. böylelikle bizim hangi statelere gideceğimizi (transition probabilities) düşünmemize ve hesaplamamıza gerek kalmaz.

petit cok konusur

30.08.2019 10:58