Tag: RL

强化学习中的若干概念

这是学习我阅读若干在线 RL 教程所作的笔记，比较杂乱无章，不适合作为你的第一个 RL 教程阅读，如果想要找一个入门的 RL 教程推荐从头到尾阅读 OpenAI 的 Spinning Up 再贴一个叶哥的同类博文作为参照，叶哥的博文详尽全面。 Model-free 和 Model-based RL Model-free 的方法不会对环境进行建模。当然，为了训练，代码中至少是要某种程度上建模环境和回报的，但除了定义…

August 25, 2024
棋盘游戏智能体：从蒙特卡洛树搜索到AlphaGo

棋盘游戏 vs 街机游戏智能体行动的环境，很多都可以归入如下两类：一类是两方博弈的棋盘游戏，不包含随机性，胜负可以由棋盘上的状态一眼看出，比如围棋、象棋；另一类是智能体适应/对抗环境的“街机游戏”，可能包含随机性，得分可能不是最终状态的函数，而是每一步行动奖励的过程积累，例子包括典型的强化学习测试环境，包括…

June 11, 2024

强化学习中的若干概念