受《快思慢想》启发，Google新技术使Bard数学能力上升30%

大型语言模型拥有强大的语言处理能力，但是在数学与推理能力仍有很大的进步空间，因此大型语言模型开发商现在的研究目标之一，便是提升模型的逻辑和推理能力。谷歌的新研究便是使用一种称为隐式代码执行（Implicit Code Execution）的技术，来强化语言模型的数学运算能力。

大型语言模型在收到提示词后，便会预测接下来可能出现的单词生成回应，语言模型在语言和创造性任务能力很好，但是在推理和数学领域能力却很弱，研究人员提到，要让大型语言模型能够处理进阶推理和逻辑问题，不能只仰赖原本大型语言模型的输出。

谷歌新方法的灵感，来自诺贝尔经济学奖得主丹尼尔康纳曼的知名著作《快思慢想》，书中将人类思维分成系统一与系统二两个模式，系统一处理直觉且情绪化的思考，系统二则是具逻辑的理性思考。

研究人员表示，原本大型语言模型的输出，接近人类系统一的思考，可以快速生成文字，但没有经过深入思考，因此常会生成一些意料之外的输出。系统一的思考没有办法解决数学问题，数学问题更需要公式化，遵循正确步骤推理和计算，所以需要仰赖系统二的思考。

而新添加的隐式代码执行则是扮演系统二思考的角色，让Bard能够同时拥有系统一和系统二的思考能力。 Bard现在会识别可能需要逻辑思考的指令词，并在后台执行计算代码，以产生更精确的输出。根据谷歌内部的测试，在加入隐式代码执行技术后，Bard在计算和数学的回答准确性提高30%。

因此Bard现在可以计算出像是15683615的质因子、储蓄增长率或是反转英文单词字母排序等问题，但研究人员提到，Bard还有很多改进的空间，像是Bard现在可能不会产生代码解决问题，也可能产生错误的代码，或是不会在回应中包含已执行的代码。

OpenAI最近也发表了一篇新的研究论文，目的是要提升大型语言模型的推理能力，使其能够更好地解决数学领域的问题。 OpenAI使用一种称为过程监督的训练方法，通过奖励过程中每个正确步骤的推理，驱使模型人工遵循人类的思考模式，产生更可靠的结果。 OpenAI的新方法在MATH测试集中试验，显示过程监督能使模型解决接近80%的测试集问题。