<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>RL &#8211; Blog Sketch</title>
	<atom:link href="https://blog.ziaowang.top/tag/rl/feed/" rel="self" type="application/rss+xml" />
	<link>https://blog.ziaowang.top</link>
	<description></description>
	<lastBuildDate>Wed, 19 Mar 2025 23:31:35 +0000</lastBuildDate>
	<language>en-US</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.8.5</generator>
	<item>
		<title>强化学习中的若干概念</title>
		<link>https://blog.ziaowang.top/2024/08/25/concepts-in-rl/</link>
					<comments>https://blog.ziaowang.top/2024/08/25/concepts-in-rl/#respond</comments>
		
		<dc:creator><![CDATA[wponaws]]></dc:creator>
		<pubDate>Sun, 25 Aug 2024 23:46:11 +0000</pubDate>
				<category><![CDATA[paper]]></category>
		<category><![CDATA[DQN]]></category>
		<category><![CDATA[REINFORCE]]></category>
		<category><![CDATA[RL]]></category>
		<guid isPermaLink="false">http://localhost/mysite/?p=1940</guid>

					<description><![CDATA[<p>这是学习我阅读若干在线 RL 教程所作的笔记，比较杂乱无章，不适合作为你的第一个 RL 教程阅读，如果想要找一个入门的 RL 教程推荐从头到尾阅读 <a href="https://spinningup.openai.com/en/latest/spinningup/rl_intro.html">OpenAI 的 Spinning Up</a></p>



<p>再贴一个叶哥的<a href="https://yynnyy.cn/5d2d4022">同类博文</a>作为参照，叶哥的博文详尽全面。</p>



<h3 class="wp-block-heading">Model-free 和 Model-based RL</h3>



<p>Model-free 的方法不会对环境进行建模。当然，为了训练，代码中至少是要某种程度上建模环境和回报的，但除了定义&#8230;</p>]]></description>
										<content:encoded><![CDATA[<p>这是学习我阅读若干在线 RL 教程所作的笔记，比较杂乱无章，不适合作为你的第一个 RL 教程阅读，如果想要找一个入门的 RL 教程推荐从头到尾阅读 <a href="https://spinningup.openai.com/en/latest/spinningup/rl_intro.html">OpenAI 的 Spinning Up</a></p>



<p>再贴一个叶哥的<a href="https://yynnyy.cn/5d2d4022">同类博文</a>作为参照，叶哥的博文详尽全面。</p>



<h3 class="wp-block-heading">Model-free 和 Model-based RL</h3>



<p>Model-free 的方法不会对环境进行建模。当然，为了训练，代码中至少是要某种程度上建模环境和回报的，但除了定义&hellip;</p>]]></content:encoded>
					
					<wfw:commentRss>https://blog.ziaowang.top/2024/08/25/concepts-in-rl/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>棋盘游戏智能体：从蒙特卡洛树搜索到AlphaGo</title>
		<link>https://blog.ziaowang.top/2024/06/11/monte-carlo-tree-search-alphago/</link>
					<comments>https://blog.ziaowang.top/2024/06/11/monte-carlo-tree-search-alphago/#respond</comments>
		
		<dc:creator><![CDATA[wponaws]]></dc:creator>
		<pubDate>Tue, 11 Jun 2024 04:59:28 +0000</pubDate>
				<category><![CDATA[Uncategorized]]></category>
		<category><![CDATA[AlphaGo]]></category>
		<category><![CDATA[MCTS]]></category>
		<category><![CDATA[Q learning]]></category>
		<category><![CDATA[RL]]></category>
		<guid isPermaLink="false">http://localhost/mysite/?p=1260</guid>

					<description><![CDATA[<h3 class="wp-block-heading">棋盘游戏 vs 街机游戏</h3>



<p>智能体行动的环境，很多都可以归入如下两类：</p>



<ul class="wp-block-list">
<li>一类是两方博弈的棋盘游戏，不包含随机性，胜负可以由棋盘上的状态一眼看出，比如围棋、象棋；</li>



<li>另一类是智能体适应/对抗环境的“街机游戏”，可能包含随机性，得分可能不是最终状态的函数，而是每一步行动奖励的过程积累，例子包括典型的强化学习测试环境，包括</li></ul>&#8230;]]></description>
										<content:encoded><![CDATA[<h3 class="wp-block-heading">棋盘游戏 vs 街机游戏</h3>



<p>智能体行动的环境，很多都可以归入如下两类：</p>



<ul class="wp-block-list">
<li>一类是两方博弈的棋盘游戏，不包含随机性，胜负可以由棋盘上的状态一眼看出，比如围棋、象棋；</li>



<li>另一类是智能体适应/对抗环境的“街机游戏”，可能包含随机性，得分可能不是最终状态的函数，而是每一步行动奖励的过程积累，例子包括典型的强化学习测试环境，包括</li></ul>&hellip;]]></content:encoded>
					
					<wfw:commentRss>https://blog.ziaowang.top/2024/06/11/monte-carlo-tree-search-alphago/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
	</channel>
</rss>
