Author: wponaws

  • LLM + RLHF = Chat Agent

    Large-Scale Language Model + Reinforcement learning from human feedback = Helpful Chat Agent 回顾 OpenAI GPT 的规模升级之路 在对话智能体应用大火的今天,回顾第一个杀手级应用 ChatGPT 被研发出来之前经历的事情格外有趣。从其创造者…

  • 棋盘游戏智能体:从蒙特卡洛树搜索到AlphaGo

    棋盘游戏 vs 街机游戏 智能体行动的环境,很多都可以归入如下两类: 一类是两方博弈的棋盘游戏,不包含随机性,胜负可以由棋盘上的状态一眼看出,比如围棋、象棋; 另一类是智能体适应/对抗环境的“街机游戏”,可能包含随机性,得分可能不是最终状态的函数,而是每一步行动奖励的过程积累,例子包括典型的强化学习测试环境,包括…

  • 从一维回归任务说起

    任务的定义和评价 给定一个输入空间和输出空间,我们想要通过输入空间中的变量预测输出空间中的变量,这就是ML和统计学中的回归任务。让我们考察一个简单的例子,输入空间、输出空间均连续一维的情况,即(单变量单值的)函数 f 的拟合。 我们假设数据按照如下的规律生成:y = f(x) + err, err ~ N(0, sigma),即背后真实的分布…

  • 初识固件接口和磁盘分区:计算机是如何启动的?

    前些时间为了给笔记本上的Arch Linux系统增加存储空间,折腾了一下磁盘分区,借此了解了磁盘分区、固件接口等等与计算机启动过程相关的底层结构,记录如下。 固件与固件接口 (Firmware Interface) 在操作系统之下,直接操作硬件的底层控制软件称为固件(Firmware)。顾名思义,“固”件就是固定在硬件中的软件,按照这个理解,的确有很多固件被存储于ROM、EEPROM之类的只读存储器上,很难变更。然而也有一些固件被存储在磁盘上,没有被定死,一个典型的例子就是引导程序…

  • 计算机中图像的捕捉、存储与显示

    计算机处理的图像,有的是抽象的图形,有的则是力求刻画或模拟现实世界的的照片。这里讨论后一种图像。 度量光线,度量视觉 可见光作为一种电磁辐射,可以套用很多物理量来度量,这些物理量及单位如下: 辐射功率(Power, W) 辐射强度(Radiant Intensity, W*sr{-1}),衡量单位立体角的辐射功率…

  • 浅谈 Wiki 系统、Wiki 站点和 Wikipedia

    一般情况下,维基百科是一个相对高效、可靠的信息来源——作为一个任何人都可以编辑的系统,是什么保证了它的信息不被严重污染?除了维基百科之外,也有很多其它的维基存在,它们的背后是怎样的技术和社群? Wiki 系统 wiki系统是1995年出现的一种内容管理系统,通常表现为由用户协同编辑其内容的网站。个人的纸质或数字笔记不是wiki(单人编辑,且不能通过浏览器访问),个人博客不是wiki(单人编辑),只有做到多人协同编辑且能够通过浏览器访问才是严格意义上的wiki。…

  • 关于非对称密码学、CA 和 TLS

    最近一次更新:2024/10/1 非对称密码学 非对称密码学应用两个密钥、公钥 Pub 和私钥 Pri 。对数据应用公钥或私钥的过程是单向的,即计算上不可能通过 Pub(x) 或 Pri(x) 来反解 x。想要通过这两者获得 x,只能应用另一把钥匙,即 Pri(Pub(x)) = x = Pub(Pri(x))。 顾名思义,公钥是公开的、私钥是保密的。利用这一点和上述数学性质,可以实现加密送信和数字签名。…

  • 关于部署一个网站

    摘要:一些关于部署网站的技术知识的概述。 域名 域名对一个网站的作用,无需多言。澄清一点,云服务器提供商和域名提供商是分离的。虽然云服务器经常向用户兜售域名,但你使用的域名不必来自云服务器提供商。反之亦然。 域名产业的结构 所谓购买域名,实际上是租赁域名一段时间的使用权(每次续约最长十年)。域名最终是由 ICANN(International…

  • Dual Boot Arch Linux 其二

    书接上回,成功安装完 Arch Linux 之后,有很多配置问题有待解决:系统不识别笔记本自带的键盘(这个造成了很大的麻烦,外出不方便携带机械键盘于是不能使用笔记本上的 Arch 系统);尚未配置 iwd 连接要认证的无线网;一启动 KDE 就黑屏。这篇博客就记录以下我是如何解决这三大配置问题的。 识别笔记本键盘 要解决这个问题,首先要搞清楚你的笔记本键盘到底是什么型号的。查阅…

  • Arch Linux,启动!

    尝试配置一个 Arch Linux + KDE 桌面环境的组合。 VirtualBox 篇 先使用 VirtualBox 熟悉一下流程,这样不用担心搞坏 Host OS。安装过程的话,按照 Arch Linux wiki 走就行。在这里记录一些需要搞懂的关键的概念,特别是挂载(mount)和自生系统。 挂载(mount)命令的作用是…

  • 学习在本地部署 WordPress

    是时候学习如何配置、运行、维护个人博客了。我选择迈出的第一步,是学习在本地部署WordPress镜像,构建一个供我个人运行调试的服务器。下面总结一下技术要点。 要本地部署一个个人博客服务器,需要配置哪些环境? 作为一个服务器,必须要有回应网络请求的能力,有很多软件能满足要求,常用的软件是 Apache Server;Apache…

  • 再谈神经网络的惊人表现:两步跳跃

    我在2022年2月曾写博客谈论神经网络的惊人表现,七个月过去了,在泛读机器学习概论课程参考书(Tom Mitchell著),阅读更多文献,产生更多思考后,今天我再次探讨神经网络。本文主要探讨训练神经网络解决实际问题需要经历的“两次跳跃”。 按照机器学习讨论的惯例,我们的任务是逼近一个目标函数,这里目标函数由神经网络所定义。训练神经网络解决实际问题,一般经过如下两步:1)构造训练集,通过定义损失函数对网络参数进行优化的方式让网络在训练集上逼近目标函数;2)在测试集或实际问题上,通过网络给出预测,此预测仍然接近目标函数。…