python贪吃蛇游戏项目-强化学习介绍-02

动作空间

走迷宫机器人如果只有往东、往南、往西、往北这 4 种移动方式,则其动作空间为离散动作空 间

如果机器人可以向 360 度中的任意角度进行移动,则其动作空间为连续动作空间。

策略(policy)

智能体会用策略来选取下一步的动作

价值函数(value function)

对当前状态进行评估

模型(model)

模型表示智能体对环境的状态进行理解,它决定了环境中世界的运行方式

马尔可夫决策过程(Markov decision process)

当我们有了策略、价值函数和模型3个组成部分后,就形成了一个马尔可夫决策过程(Markov decision process)