Tag: Q learning
-
棋盘游戏智能体:从蒙特卡洛树搜索到AlphaGo
棋盘游戏 vs 街机游戏 智能体行动的环境,很多都可以归入如下两类: 一类是两方博弈的棋盘游戏,不包含随机性,胜负可以由棋盘上的状态一眼看出,比如围棋、象棋; 另一类是智能体适应/对抗环境的“街机游戏”,可能包含随机性,得分可能不是最终状态的函数,而是每一步行动奖励的过程积累,例子包括典型的强化学习测试环境,包括…
棋盘游戏 vs 街机游戏 智能体行动的环境,很多都可以归入如下两类: 一类是两方博弈的棋盘游戏,不包含随机性,胜负可以由棋盘上的状态一眼看出,比如围棋、象棋; 另一类是智能体适应/对抗环境的“街机游戏”,可能包含随机性,得分可能不是最终状态的函数,而是每一步行动奖励的过程积累,例子包括典型的强化学习测试环境,包括…