成功运行两个sarsa算法相关的项目(用于路径规划):
项目地址
每轮迭代:Agent走到障碍物上或到达目标。
RL_Sarsa_E1(小地图):
迭代1000轮后,自己寻找路径的结果
RL_Sarsa_E2(大地图):
跑了快一个小时。。。。(迭代6000轮)
与项目地址Q-Learning算法示例结果不同,应该是算法差异造成的。
解析项目基本结构:
后续实现可能会参考以上的算法,具体的应用想去实现小鸟飞行的例子(简单)。