众所周知,图灵测试有许多弱点。通过图灵测试的机器展示的是技巧而非真正的智能。这不是图灵的本意。因此,一些思想家提出了一些改进或替代图灵测试的想法。让我们讨论一些替代方法。
多伦多大学计算机科学教授Hector Levesque先生提出了图灵测试的卓越替代方案,称为Winograd 图式挑战(WSC)。这个测试以计算机科学家Terry Winograd的名字命名。该测试旨在弥补图灵测试的主要缺陷,即机器可以轻易地通过技巧而非真正的智能来通过测试。聊天机器人 Eugene Goostman 的表现暴露出图灵测试的一些缺陷,Levesque 评估了这些问题并将其总结为:
这种方法与图灵测试的区别关键在于问题的特殊形式。它是一个多项选择题的测试,采用特定格式。Levesque 认为,机器必须利用知识和常识推理才能通过此测试并被宣布为智能。该测试旨在测试理解歧义句深层含义的能力。
举个例子
问题- 衬衫不适合X先生,因为衬衫太大了(小了)。什么太大了(小了)?
答案 0:衬衫
答案 1:X先生
如果问题中包含“大”字,答案是“0:衬衫”。如果问题中包含“小”字,则答案是“1:X先生”。
以上问题对于人类来说相当简单,但对于计算机来说,它必须了解物体的大小、人际推理和一些常识才能回答这个问题。
优点:
Winograd 图式挑战的主要困难在于,问题必须精心设计,以确保回答需要常识推理。
纽约大学认知科学家 Gary Marcus 认为,图灵测试的获胜者并非真正智能。图灵测试的当前形式受到 Marcus 的严厉批评。他最近举办了一个关于“超越图灵测试的思考”重要性的研讨会。许多专家共同提出了一些有趣的想法。Marcus 本人设计了一个替代方案,我们称之为 Marcus 测试。Marcus 说,Goostman 和 ELIZA 主要依赖模式识别;它们没有任何真正的理解。根据他作为认知科学家的二十年经验,他提出了一个面向二十一世纪的图灵测试。他建议创建一个计算机程序,可以观看任何电视节目或任何 YouTube 视频,并根据观看节目的内容回答问题。Goostman 只能在短时间内处理这类问题,而且仅仅是通过伪装。Marcus 认为,目前还没有任何程序能接近任何聪明少年所能做到的。
他的想法是,如果计算机能够检测并理解幽默、嘲讽,并能以有意义的方式解释,那么计算机就具备一定的认知能力。
该测试由 Selmer Bringsjord 及其同事于 2001 年提出,旨在弥补图灵测试的主要缺陷。该测试基于创造力。该名称是为了纪念被认为是第一位计算机程序员的艾达·洛芙莱斯女士。该测试旨在检查人工智能代理是否能够以开发者甚至无法解释的方式创建一些输出。要通过 Lovelace 测试,由人类程序员 (h) 编程的人工智能代理 (a) 必须生成人类程序员自己无法解释的输出 (o)。
为了通过测试,人工智能代理必须从被认为需要人类水平智力的类别中创造出一件纪念品。创建的纪念品必须符合人类评估者给出的特定标准。人类评估者必须确定该纪念品是否有效代表了具有所需标准的类别。评估者还必须确保所要求的标准和类别不是不可能达到的标准。
该测试最近由佐治亚理工学院教授 Mark Riedl 进行了升级
图灵测试的主要缺陷是它只关注言语行为。为了克服这个缺点,Charlie Ortiz 努力创建了一个图灵测试的物理实现版本,以前称为 宜家挑战。Ortiz 将智能行为的两个主要元素:感知和物理动作纳入测试。
在构建挑战中,机器人之间将进行一场竞赛,看谁能构建出像家具一样的物理结构。为此,机器人必须处理关于要构建模型的口头指令,操作物理组件以创建目标模型,识别构建每个阶段的结构以回答问题或提供解释。另一方面,人类代理使用相同的模型进行构建。有一个跟踪来调查对物理模型的常识知识的掌握情况。
Michael Barclay 和 Antony Galton 开发了一个测试来测试机器的视觉能力。

看这张图片。蜜蜂在回家的路上遇到了什么?
一个简单的问题被问及人类和软件。“蜜蜂在回家的路上遇到了什么?”给出的多项选择在技术上都是正确的。有些人可能会选择“小便,树,钥匙,茶”,而另一些人则会选择“小便,树,钥匙,杯子”。但是,当传达与蜜蜂押韵的词语时,这两个选项都不是很有用。做出正确的选择需要几个提示和判断,包括相对的声音、流畅度和在特定情境中的相关性。人类可以更正确地处理它,但机器会失败。
巴克莱及其同事选择这种视觉描述上的人类智能来评估机器的智能。这启发了可以像人类一样与周围环境互动的设备的创造。
为了证明机器具有智能,我们需要的不仅仅是行为测试。我们需要证明机器拥有与人类大脑等效的机器。为了实现这一点,我们必须确定意识神经相关物 (NCC) 的机器等效物。人类大脑中的 NCC 对神经科学家来说仍然是一个谜。作为图灵测试的替代方案,这个想法目前被搁置,但它是开发人工大脑和人工意识的潜在途径。
人工智能研究员本·戈策尔提出了一种有趣的测试方法,称为咖啡测试。作为测试的一部分,人工智能应用程序必须进入任何厨房,找到制作咖啡所需的食材,然后制作一杯超级咖啡。制作一杯咖啡听起来很简单,但这只对人类而言。但对于机器来说,识别食材并以正确的量混合是困难的,它必须代表其智能。
顾名思义,该测试是关于如何让AI入学大学,并利用与其他注册相同学位的学生相同的资源获得学位。该测试由 Ben Goertzel 提出。Bina48 是第一个完成大学课程的AI。
人工智能研究员 Nils J. Nilsson 提出了一个想法,用一种名为“就业测试”的替代测试方法来取代图灵测试。他旨在通过最常见的人类活动“工作”。为了通过这项测试,人工智能程序必须能够执行人类所做的工作。
所有这些讨论都是图灵测试的可能替代方案,以克服其缺陷,但一些专家仍然认为图灵测试本身并没有这种限制,这完全取决于测试的进行和判断方式。如果图灵测试得到正确全面的实施,那么它就能像图灵预测的那样完成任务。