Tag: Q learning

棋盘游戏智能体：从蒙特卡洛树搜索到AlphaGo

棋盘游戏 vs 街机游戏智能体行动的环境，很多都可以归入如下两类：一类是两方博弈的棋盘游戏，不包含随机性，胜负可以由棋盘上的状态一眼看出，比如围棋、象棋；另一类是智能体适应/对抗环境的“街机游戏”，可能包含随机性，得分可能不是最终状态的函数，而是每一步行动奖励的过程积累，例子包括典型的强化学习测试环境，包括…

June 11, 2024