Category: Uncategorized

LLM + RLHF = Chat Agent

Large-Scale Language Model + Reinforcement learning from human feedback = Helpful Chat Agent 回顾 OpenAI GPT 的规模升级之路在对话智能体应用大火的今天，回顾第一个杀手级应用 ChatGPT 被研发出来之前经历的事情格外有趣。从其创造者…

June 16, 2024
棋盘游戏智能体：从蒙特卡洛树搜索到AlphaGo

棋盘游戏 vs 街机游戏智能体行动的环境，很多都可以归入如下两类：一类是两方博弈的棋盘游戏，不包含随机性，胜负可以由棋盘上的状态一眼看出，比如围棋、象棋；另一类是智能体适应/对抗环境的“街机游戏”，可能包含随机性，得分可能不是最终状态的函数，而是每一步行动奖励的过程积累，例子包括典型的强化学习测试环境，包括…

June 11, 2024
计算机中图像的捕捉、存储与显示

计算机处理的图像，有的是抽象的图形，有的则是力求刻画或模拟现实世界的的照片。这里讨论后一种图像。度量光线，度量视觉可见光作为一种电磁辐射，可以套用很多物理量来度量，这些物理量及单位如下：辐射功率（Power, W）辐射强度（Radiant Intensity, W*sr{-1}），衡量单位立体角的辐射功率…

March 15, 2024
浅谈 Wiki 系统、Wiki 站点和 Wikipedia

一般情况下，维基百科是一个相对高效、可靠的信息来源——作为一个任何人都可以编辑的系统，是什么保证了它的信息不被严重污染？除了维基百科之外，也有很多其它的维基存在，它们的背后是怎样的技术和社群？ Wiki 系统 wiki系统是1995年出现的一种内容管理系统，通常表现为由用户协同编辑其内容的网站。个人的纸质或数字笔记不是wiki（单人编辑，且不能通过浏览器访问），个人博客不是wiki（单人编辑），只有做到多人协同编辑且能够通过浏览器访问才是严格意义上的wiki。…

March 6, 2024