Aug 09, 2025

python贪吃蛇游戏项目-强化学习介绍-02

By geo

python game

动作空间

走迷宫机器人如果只有往东、往南、往西、往北这 4 种移动方式，则其动作空间为离散动作空间

如果机器人可以向 360 度中的任意角度进行移动，则其动作空间为连续动作空间。

策略（policy）

智能体会用策略来选取下一步的动作

价值函数（value function）

对当前状态进行评估

模型（model）

模型表示智能体对环境的状态进行理解，它决定了环境中世界的运行方式

马尔可夫决策过程（Markov decision process）

当我们有了策略、价值函数和模型3个组成部分后，就形成了一个马尔可夫决策过程（Markov decision process）

Share this article:

python flask-表单处理

大家好，我是python网页后端flask的讲师geo GET 请求：从服务器获取数据（通过 URL 查询参数传递）。 POST 请求：将数据发送到服务器进行处理（如表单提交）。 from flas...

另一个人的眼泪-第一章

### **第一卷第 1 章：幸福日常（初遇）** 春末的风带着一点潮湿的暖意，像是从江面上慢慢爬上来的。林奕站在公司楼下的咖啡馆外，隔着玻璃，他第一次看见了她。她坐在靠窗的位置，长发垂落，微微弯着背，双...