AI21 Labs完成迄今最大型的图灵测试，三分之一参与者无法分辨AI还是人类

人工智能公司AI21 Labs进行了有史以来最大型的图灵测试（Turing Test），让参与者与先进语言模型或是其他参与者交谈，并要求参与者猜测对谈者是人工智能还是人类，研究结果发现，有超过30%的人无法正确分辨两者。

AI21 Labs进行名为Human or Not？的图灵测试实验，由于这个实验以游戏化的方式进行，因此广受网络用户欢迎，研究人员最终分析了200万次的对话和猜测，得出几项主要结论。有68%的参与者正确猜出交谈者是人工智能或是人类，不过，交谈对象是人工智能抑或是人类，影响参与者猜测的正确度（下图），人类更容易辨识出人类，因此在与人类交谈时，参与者猜对的正确率达73%，但在与机器人交谈时，正确率仅剩60%。

不同国家的猜测正确率也有差异，法国猜对机率达71%，高于平均68%，而印度的分数则最低为63.5%。男女正确率相似，但女性猜测正确率略高，而以年龄组别区分的话，和年龄较大的组别相比，较年经的年龄组猜对机率略高。

参与者倾向利用对人类与机器人的既定印象，制定区分两者的对话策略。不少参与者认为有拼写和语法错误，而且会使用俚语的交谈者是人类，但在这个测试中，模型都经过训练，因此也会犯错并且使用俚语。

参与者会透过提出像是「你在做什么？」「你叫什么名字」等私人问题，以评估交谈者，是否能给出像人类一样地独特的见解、经验和故事，但事实上，大多数机器人因为在训练资料中看过很多个人故事，因此皆能够生动地回应这些问题。

参与者认为语言模型训练数据有严格的截止日期，因此不会知道近期发生的事件，但由于这个游戏中，所有模型都连接到互联网，因此机器人也知道新闻中出现的近期事件。研究人员提到，区分人类和机器人最有效的方法，是利用模型处理文字的限制，像是人类可以轻易读懂「？ siht daer uoy naC 这样的句子，但是这对人工智能来说是无法理解的。

在人工智能学习人类说话方式的同时，研究人员也观察到，人类也会学习像是ChatGPT这类大型语言模型的行为，使用「As an AI language model」这样的语句，评估交谈对象的反应。

AI21 Labs计划深入这些发现，并且根据实验数据展开科学研究，研究人员提到，人工智能作为人类网络世界的未来成员，特别是当前人类对质疑人工智能在未来科技的实现，因此有必要让公众、研究人员和政策制定者了解人工智能的状态，清楚理解2023年人工智能的能力。