導入Q学習いきなりですが強化学習の勉強始めています．強化学習は教師なし学習の1つの手法で，与えられた環境に対して様々な行動を試し，一番報酬が得られる行動を学習していきます．その中でQ値と呼ばれるものがあります．これは状態，行動をとり，方策に従って得られる割引累積報酬の期待値です．ざっくりと言い切って…

The jonki

Q学習で最良経路をPythonで求めてみる