[仅作存档] 谈谈神经网络的惊人表现

2016年前后,在机器翻译的任务中,诸多指标(人类评价、BLEU分数等)表明神经网络翻译(NMT)效果已经与统计翻译(SMT)不相上下,很多场景下更好。谷歌更是将自己的翻译系统由统计翻译系统替换成基于人工神经网络的翻译系统。

这并不意味着神经网络能够胜任翻译的任务了——目前的机器翻译很大程度上局限于逐句对应的翻译,不能兼顾上下句的信息。这也不代表神经网络的方法全面超越了统计学习的方法,因为前者的可解释性更差,更难以操控,其表现和出错都难以预料,也要求海量的低噪声训练数据。

统计和神经两种方法都依托于大数据,但前者需要人工设计方法,抽取特征;后者中人类只需要设计好网络架构,直接开启端到端的训练,不需要了解系统内部发生了什么。前者优化的方法多种多样,具有直接的统计学意义(如LDA方法);后者除了少数例外(Boltzmann机)都使用梯度下降的方法。

动手实践不难发现,通常可以让神经网络在训练集上做到预测准确。这不惊人,鉴于神经网络的巨大体量的参数。神经网络的惊人之处在于,当在训练集上训练好的网络在测试集上做预测时,其预言仍然可以十分准确。将网络看成一个黑箱的话,黑箱完全有可能将训练集全部照样复制存储下来,然后对于不属于测试集的样本仍然一无所知。为什么这没有出现这一情况?

原因可能在于机器被迫进行了特征抽取,找到了一些通用的规律。这是模型自身架构使然,因为神经网络的记忆必须内含在网络参数中,不可能进行简单复制存储。以中小学时背书作类比,在尝试重新构建出待背诵的文本(训练集)过程中,人脑由于没有简单复制存储机制而被迫总结出一些助记的窍门,总结出文本的规律,使得我们此后能够更好地读写这类文本。假如人眼具有过目不忘的功能,背书这样的训练显然更轻松,但对于我们读写新文本就毫无意义了。

抽取到可迁移的特征,这是我对神经网络惊人表现的解释。如何引导模型抽取特征,如何保证从训练集中抽取到的特征能够迁移到应用场景,这是神经网络胜任的关键。

参考内容:

  1. Stanford cs224n 课程录像,主要是translation, seq2seq部分
  2. 周志华《机器学习》,主要是第五章:神经网络


Posted

in

by

Tags:

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *