GPT-4能“伪装”成人类吗？图灵测试结果出炉

来源：戏说健康发布时间：2023-11-02 13:36

GPT-4能“伪装”成人类吗？图灵测试结果出炉

机器之心报道

编纂：Panda

纯文本对话，安能辩我是 AI？在测试 AI 时，图灵测试是一个饱受争议但也久负盛名的评估方法，因此总会有研究者不畏繁琐，对新兴的语言模型进行图灵测试。近日，对 GPT-4 的图灵测试结果新鲜出炉了。

此图由AI天生

「机器能够思索吗？」

为了解答这个题目，图灵设计了一个能间接提供谜底的模仿游戏。该游戏的最初设计涉及到两位见证者（witness）和一位审问者（interrogator）。两位见证者一个是人类，另一个是人工智能；他们的目标是通过一个纯文本的交互接口说服审问者相信他们是人类。这个游戏本质上是开放性的，由于审问者可以提出任何题目，不管是关于浪漫爱情，抑或是数学题目。图灵以为这一性质能够对机器的智能进行广泛的测试。

后来这个游戏被称为图灵测试（Turing Test），但人们也在不断争论这一测试毕竟测算的是什么以及哪些系统有能力通过它。

以 GPT-4 为代表的大型语言模型（LLM）简直就像是专为图灵测试而生的！它们能天生流畅天然的文本，并且在很多语言相关的任务上都已达到比肩人类的水平。实际上，已经有不少人在预测 GPT-4 也许能够通过图灵测试了。

近日，加利福尼亚大学圣迭戈分校的研究者 Cameron Jones 和 Benjamin Bergen 发布了一份研究呈文，给出了他们对 GPT-4 等 AI 智能体进行图灵测试的实证研究结果。

论文地址：https://arxiv.org/pdf/2310.20216.pdf

但在先容这份研究的结果之前，需要说明的是，图灵测试毕竟能否作为衡量智能水平的尺度一直以来都颇具争议。

但 Jones 和 Bergen 以为图灵测试仍是值得研究的，他们给出了两点理由：

一、图灵测试衡量的是 AI 系统能否欺骗对话者使之相信它是人类，这项能力本身是值得评估的。由于创造「伪人」可能会对社会产生巨大的影响，包括实现面向客户的工作岗位自动化、更低成本更高效地制造虚假信息、使用非对齐的 AI 模型从事欺诈流动、让人类不再相信人与人之间的真实互动。图灵测试能让人稳健地跟踪模型的这种能力随时间的变化情况。此外，它还能让人理解哪些因素有助于欺骗，好比模型大小和机能、prompt 设计技术、辅助性基础设施（例如访问实时信息的能力）以及审问者的经验和技能。

二、图灵测试能提供一个匡助研究人类和类人智能的框架。图灵测试不仅仅是评估机器；它也会涉及对人类参与者的文化、道德伦理和心理状态的假设。当审问者设计并完善题目时，他们也会隐含地揭示自己的信念 —— 人类有哪些特质以及哪些特质最难模仿。为此，研究者以定性方式分析了参与者设计题目的策略和理由依据，认为这些信念提供一个经验性的描述。

Cameron Jones 和 Benjamin Bergen 在 652 位人类参与者的匡助下检修了 GPT-4 模仿人类的能力，结果发现表现最好的设置能达到 41% 的成功率，还不及随机乱猜，更不及人类水平的 63%，因此可以为 GPT-4 未能通过图灵测试。他们还在测试过程中得到了一些惊人发现和有趣推断，好比诞生于 1966 年的规则式系统 ELIZA 的表现比 GPT-3.5 更好、AI 不出错或出错过多都轻易暴露自己。

方法

在详细的图灵测试实验中，研究者采用了双玩家设置，即审问者对一位见证者提问，然后说明他以为对方是人类仍是 AI。

见证者

研究者创建了 25 个 LLM 见证者，它们使用 OpenAI API 响应用户查询。每个 LLM 见证者都包含一个模型（GPT-3.5 或 GPT-4）、一个温度值（0.2、0.5 或 1.0）和一个 prompt。prompt 描述了交互的上下文以及对于智能体响应方式的指令，如图 2 所示。、

交互界面

研究者将聊天界面设计成了一个聊天软件的样子，如图 1 所示。审问者发送第一条动静，每位用户每次只能发送一条动静。对话整体限时 5 分钟，每条动静最多 300 个字符。

流程

参与者是通过社交媒体在网上招募的。

参与者会先进入一个在线等候室，然后被随机分配与 AI 或另一个人类对话。AI 在响应时有一个等待时间，详细是最近 5 对人类参与者所用的均匀等待时间，以防止审问者将等待时间视为一个评估指标。

当随机配对的是两个人类时，则随机分配审问者和见证者角色。见证者得到的指令是说服审问者相信他们是人类。当人类与 AI 匹配时，则人类必定是审问者。

AI 模型的选取使用了「探索 / 利用」策略。对于每个模型，都从以下分布中选取一个样本：

其中 N 是模型数目，α 和 β 分别是模型在游戏过程中的胜败次数并依照审问者对每个判断结果的决心信念度加权。最后选择得到了最高样本值的模型。

结果

实验共有 652 位参与者参加，总共完成了 1810 场游戏。其中 389 场游戏被移出终极结果，由于这些场之前审问者已经连续三次与 AI 对话了，这种情况说明此时只有一个人类在线。用户反馈表明，这种情况会导致审问者产生一个先验信念 —— 相信见证者不是人类。另外还有 11 场游戏被移除的原因是审问者表示他们暗里熟悉对话的人类见证者。

终极结果基于剩余的 1405 场游戏，其中 260 场有人类见证者介入。

51% 的参与者只玩了一场游戏，91% 的参与者少于 4 场。

游戏均匀时长为 187 秒（σ = 95.3），均匀动静数为 8（σ = 5.16），均匀词数为 320（σ = 210）。

下图展示了一些游戏示例：