说明:时序差分学习是强化学习的一种重要算法,该代码提供了时序差分学习做路径规划的一个仿真。
说明:模拟机器人路径规划,采用强化学习中的Q学习算法来实现,最后会返回机器人选择路径的坐标位置
说明:强化学习的Q算法matlab代码。适合寻找最优路径。让您对q算法一定有直观的理解!
说明:在各种非线性系统中,倒立摆是一典型例子,用强化学习实现控制倒立摆
说明:在matlab平台上,针对多周期报童问题,采用值迭代算法、策略迭代算法和强化学习算法求解MDP模型的实例
说明:基于强化学习与最优自适应控制器的智能机器人控制器。