阿兰·图灵开发的用于识别机器与人类智能的测试

1984年的科幻经典电影《银翼杀手》(Blade Runner)的粉丝对这个场景很熟悉:一个提问者坐在桌子对面,问了一个人一系列问题。提问者测量并记录受试者的反应和生物特征并做笔记。这些问题本身包含不和谐的、有时令人不安的内容,旨在引发典型的人类情绪反应。提问者的目标很简单:确定回答问题的人是否真的是一台机器。

在《银翼杀手》中,哈里森·福特(Harrison Ford)饰演的里克·迪卡德(Rick Deckard)在评估一个名叫瑞秋(Rachel)的女人时进行了这项测试,名为“沃伊特-坎普夫测试”(Voight-Kampff test)。虽然这个测试的名字是虚构的,但它是对一个真实测试的改编,名为“图灵测试”,以英国数学家和二战密码破译者艾伦·图灵的名字命名。在《银翼杀手》中,瑞秋确实是一个复制人,也就是说,一个合成的人形。迪卡德要问100个问题才能弄明白。

但无论我们使用复制人、机器人、机器,还是只使用代码、无实体的人工智能(AI),测试的目标都是一样的。我们不需要一个昏暗的房间,一张长长的木桌,飘向空中的香烟,或任何其他虚构的元素。图灵1950年的实际测试——被称为“模仿游戏”——采用了一个简单的三人测试方法,我们可以在他发表在《牛津学术》上的原始论文中读到。最终,图灵只是想回答一个随着时间的推移变得越来越重要的问题:“机器会思考吗?”

Alan Turing statue

对艾伦·图灵来说,“图灵测试”并不是他发明的。他开发了一个松散的、问答式的、非正式的方法框架,用来观察机器、机器人、人工智能或其他类似的东西模仿人类反应的能力。因此,在他1950年的论文《计算机器与智能》中,这项测试被称为“模仿游戏”。是的,如果这个测试听起来很熟悉,本尼迪克特·康伯巴奇在2014年的一部同名电影中饰演图灵。

如果有人能将这样的测试概念化,并且有资格判断机器智能的问题,那就是图灵。早在《终结者》、《银翼杀手》、《黑客帝国》等电影帮助普及机器与人类智能的问题之前,在个人家用电脑成为可能的几十年前,图灵就提出了我们认为理所当然的问题。正如BBC所述,图灵和他的团队在二战期间与英国军方合作,作为一名密码学家,试图破译德国的信息,特别是那些用德国“恩尼格玛机”起草的信息,事实证明这些信息很难破解。

对于那些熟悉复杂数学和密码学固有逻辑的人来说,图灵从机械化的谜题盒到“这个盒子能模仿一个人吗?”的步骤似乎是很自然的。正如曼彻斯特大学所说,第二次世界大战结束后的1948年,图灵成为了该大学计算实验室的副主任。他被认为“古怪”,绰号“教授”,在这里他设计了模仿游戏,也就是图灵测试。

Robot and person talking in office

在他1950年的论文《计算机器与智能》中,艾伦·图灵概述了如何格式化和执行模仿游戏。找三个人——其中一个是提问者,另外两个回答问题——把他们放在三个不同的房间里。三人通过屏幕上的文本(或打印输出)进行交流,以避免手写和语音的偏差。问题可以是艺术化的,比如“请给我写一首关于福斯桥的十四行诗”,也可以是技术性的,比如“把34957加到70764上”。假设机器和人都会通过回答的速度、内容、优点和缺点,以及回答者的不情愿、犹豫、异想天开、魅力、后续问题等暴露自己。所以,我们可以说,这个测试不仅依赖于被调查者的回答,也依赖于被调查者所说的话。

图灵的其他情况说明了他的思想是多么超前。他提到了一种更古老的“会思考的机器”——也就是计算机——早在1828年,剑桥大学数学教授查尔斯·巴贝奇(Charles Babbage)就提出了使用机械轮子、齿轮等来进行计算的假设。图灵说,模仿游戏需要一台电子计算机,特别是由三个主要部分组成的计算机——存储器、执行单元和控制单元(就像任何20世纪或21世纪的计算机一样)——并根据输入条件产生输出。图灵提出的基本问题对于现代的程序员和神经学家来说都很熟悉:单纯的计算和“思考”之间的区别是什么?

AI chatbot conversation

正如斯坦福大学哲学百科全书等网站所概述的那样,艾伦·图灵(Alan Turing)的机器与人类智力测试非常容易找到错误。例如,我们如何定义一个理想的“人类”答案?那么像数学专家、诗歌天才、极度厌恶社交的人,或者勉强识字的人(记住,答案是打出来的)呢?即使我们对测试对象进行了这些极端的筛选,我们如何确定一台机器是否真的擅长假装,或者是合法的“智能”和能够思考?但这样的问题与《模仿游戏》有关吗?图灵在他1950年的论文中从来没有这么说过,只是说这个测试是为了区分机器和人类——仅此而已。而且,只有在历史的后见之明和现代计算、编码、人工智能等知识的帮助下,我们才有能力提出这样的问题。

然而,在一个人们怀疑ChatGPT是否会变得有自我意识的时代,图灵提出的测试支撑了许多现代人工智能相关的担忧。正如Tech Target所描述的那样,图灵的测试多年来经历了许多变化,以磨练其方法和结果。例如,有测试感知能力的全面图灵测试(Total Turing Test),还有马库斯测试(the Marcus Test),让受访者回答有关他们看过的节目的问题。不管有什么变化,图灵都让我们走上了正确的道路,去做我们现在认为理所当然的事情:想知道“人类”机器到底能做到什么。

相关推荐