unity ml-agents ボール2つとターゲット1つ オリジナル学習環境の強化学習AIのトレーニング Ball original 02

unity ml-agents ボール2つとターゲット1つ オリジナル学習環境の強化学習AIのトレーニング Ball original 02

報酬を得るためボールが緑色のターゲットを取得し続ける行動を学習します。ボールが緑色のターゲットにたどり着くと報酬が与えられ、ターゲット位置がランダムでリセットされます。一定時間ボールにたどり着けないとマイナス報酬でボール位置も原点にリセットです。原点から一定距離離れると離れている間マイナス報酬がかかります。ボールが赤くなります前回に加えて、同じ行動パターンを持ったボールをもう一つ加えます。前回→ sm38055183

http://www.nicovideo.jp/watch/sm38161545