Q学習で最良経路をPythonで求めてみる

導入Q学習 いきなりですが強化学習の勉強始めています.強化学習は教師なし学習の1つの手法で,与えられた環境に対して様々な行動を試し,一番報酬が得られる行動を学習していきます.その中でQ値と呼ばれるものがあります.これは状態,行動をとり,方策に従って得られる割引累積報酬の期待値です.ざっくりと言い切って…