OpenAI最新人工智能可解释性研究,运用GPT-4大型语言模型,自动生成大型语言模型神经元的行为解释,并对这些解释进行评分,以评估解释的质量。

之所以要对人工智能进行可解释性研究,主要原因是要让用户和开发者更理解人工智能的运作原理,并且了解人工智能做出决策的方法,进而提高对人工智能系统的信任度。 另外,透过研究人工智能模型的行为,也更能理解模型偏差与错误,因而有办法提升模型效能,甚至进一步改善人类与人工智能间的协作。
可解释性研究的重点之一,是了解各个组件的功能,在深度学习中,神经元(Neurons)和注意力头(Attention Heads)是两个重要组件,分别在神经网络与自注意力机制中发挥作用。 在过去,研究人员必须要手动检查神经元,来确认这些神经元所代表的数据特征,但是这过程非常复杂繁琐,很难扩及到拥有数百亿参数的神经网络。
因此OpenAI现在提出一种自动化方法,使用GPT-4能够生成并且评分其他语言模型神经元的行为。 该研究的价值在于通过自动化方法,才足以跟上人工智能发展的步伐,而随着未来模型的发展,所产生的解释,品质也会更好更能发挥作用。
要解释神经元行为有三个步骤,分别是以GPT-4生成解释、以GPT-4模拟,最后是比对。 第一步骤通过给定一个GPT-2神经元,并向GPT-4展示相关的文字序列和活跃情况,要求GPT-4生成可以解释神经元行为的自然语言文字。

第二步骤是使用GPT-4模拟神经元的行为,目的是了解解释中的神经元活跃的原因,如此便能够观察解释与神经元活跃的表现是否一致。 最后则是比对模拟和真实情况的差异,对解释进行评分,以衡量解释的可靠性和准确性。
这个以GPT-4自动生成并评分神经元行为的方法,目前对于较大的模型效果不佳,研究人员猜测可能是神经网络较后面的网络层更难解释,虽然目前许多解释获得分数都很低,但是OpenAI相信,随着机器学习技术的提升,解释能力也能够再提高,像是利用更大型模型进行解释,或是更改解释模型的结构,都有机会进一步提高解释质量。
OpenAI开源GPT-4所编写的30万个GPT-2神经元解释数据集,以及可视化工具,还有在OpenAI API上使用公开模型进行解释和评分的代码,OpenAI表示,他们希望其他人工智能社群也能够加入研究,发展更好的技术产生高分解释。