人工智能公司AI21 Labs进行了有史以来最大型的图灵测试(Turing Test),让参与者与先进语言模型或是其他参与者交谈,并要求参与者猜测对谈者是人工智能还是人类,研究结果发现,有超过30%的人无法正确分辨两者。

AI21 Labs进行名为Human or Not?的图灵测试实验,由于这个实验以游戏化的方式进行,因此广受网络用户欢迎,研究人员最终分析了200万次的对话和猜测,得出几项主要结论。 有68%的参与者正确猜出交谈者是人工智能或是人类,不过,交谈对象是人工智能抑或是人类,影响参与者猜测的正确度(下图),人类更容易辨识出人类,因此在与人类交谈时,参与者猜对的正确率达73%,但在与机器人交谈时,正确率仅剩60%。


不同国家的猜测正确率也有差异,法国猜对机率达71%,高于平均68%,而印度的分数则最低为63.5%。 男女正确率相似,但女性猜测正确率略高,而以年龄组别区分的话,和年龄较大的组别相比,较年经的年龄组猜对机率略高。
参与者倾向利用对人类与机器人的既定印象,制定区分两者的对话策略。 不少参与者认为有拼写和语法错误,而且会使用俚语的交谈者是人类,但在这个测试中,模型都经过训练,因此也会犯错并且使用俚语。
参与者会透过提出像是「你在做什么?」 「你叫什么名字」等私人问题,以评估交谈者,是否能给出像人类一样地独特的见解、经验和故事,但事实上,大多数机器人因为在训练资料中看过很多个人故事,因此皆能够生动地回应这些问题。
参与者认为语言模型训练数据有严格的截止日期,因此不会知道近期发生的事件,但由于这个游戏中,所有模型都连接到互联网,因此机器人也知道新闻中出现的近期事件。 研究人员提到,区分人类和机器人最有效的方法,是利用模型处理文字的限制,像是人类可以轻易读懂「? siht daer uoy naC 这样的句子,但是这对人工智能来说是无法理解的。
在人工智能学习人类说话方式的同时,研究人员也观察到,人类也会学习像是ChatGPT这类大型语言模型的行为,使用「As an AI language model」这样的语句,评估交谈对象的反应。
AI21 Labs计划深入这些发现,并且根据实验数据展开科学研究,研究人员提到,人工智能作为人类网络世界的未来成员,特别是当前人类对质疑人工智能在未来科技的实现,因此有必要让公众、研究人员和政策制定者了解人工智能的状态,清楚理解2023年人工智能的能力。