unity ml-agents オリジナル学習環境の強化学習AIのトレーニング Ball original 01

unity ml-agents オリジナル学習環境の強化学習AIのトレーニング Ball original 01

報酬を得るためボールが緑色のターゲットを取得し続ける行動を学習します。ボールが緑色のターゲットにたどり着くと報酬が与えられ、ターゲット位置がランダムでリセットされます。一定時間ボールにたどり着けないとマイナス報酬でボール位置も原点にリセットです。原点から一定距離離れると離れている間マイナス報酬がかかります。ボールが赤くなります。

http://www.nicovideo.jp/watch/sm38055183