
大型语言模型拥有强大的语言处理能力,但是在数学与推理能力仍有很大的进步空间,因此大型语言模型开发商现在的研究目标之一,便是提升模型的逻辑和推理能力。 谷歌的新研究便是使用一种称为隐式代码执行(Implicit Code Execution)的技术,来强化语言模型的数学运算能力。
大型语言模型在收到提示词后,便会预测接下来可能出现的单词生成回应,语言模型在语言和创造性任务能力很好,但是在推理和数学领域能力却很弱,研究人员提到,要让大型语言模型能够处理进阶推理和逻辑问题,不能只仰赖原本大型语言模型的输出。
谷歌新方法的灵感,来自诺贝尔经济学奖得主丹尼尔康纳曼的知名著作《快思慢想》,书中将人类思维分成系统一与系统二两个模式,系统一处理直觉且情绪化的思考,系统二则是具逻辑的理性思考。
研究人员表示,原本大型语言模型的输出,接近人类系统一的思考,可以快速生成文字,但没有经过深入思考,因此常会生成一些意料之外的输出。 系统一的思考没有办法解决数学问题,数学问题更需要公式化,遵循正确步骤推理和计算,所以需要仰赖系统二的思考。
而新添加的隐式代码执行则是扮演系统二思考的角色,让Bard能够同时拥有系统一和系统二的思考能力。 Bard现在会识别可能需要逻辑思考的指令词,并在后台执行计算代码,以产生更精确的输出。 根据谷歌内部的测试,在加入隐式代码执行技术后,Bard在计算和数学的回答准确性提高30%。
因此Bard现在可以计算出像是15683615的质因子、储蓄增长率或是反转英文单词字母排序等问题,但研究人员提到,Bard还有很多改进的空间,像是Bard现在可能不会产生代码解决问题,也可能产生错误的代码,或是不会在回应中包含已执行的代码。
OpenAI最近也发表了一篇新的研究论文,目的是要提升大型语言模型的推理能力,使其能够更好地解决数学领域的问题。 OpenAI使用一种称为过程监督的训练方法,通过奖励过程中每个正确步骤的推理,驱使模型人工遵循人类的思考模式,产生更可靠的结果。 OpenAI的新方法在MATH测试集中试验,显示过程监督能使模型解决接近80%的测试集问题。