对于一台给定的机器,我们如何测试它的智能性,或者我们如何判断这台机器是否智能?图灵测试是第一个被提出来用于判断机器是否智能的测试。1950年,一位名叫艾伦·图灵(Alan Turing)的英国数学家提出了一种名为模仿游戏的测试,旨在检验机器模仿人类的程度,或计算机器表现出类人智能行为的能力。这种测试方法被称为图灵测试。
图灵测试是一种用于测试机器是否能像人类一样行动或思考的方法。该测试规定,只有在特定条件下机器能够模仿人类时,才认为该计算机是智能的。这项测试的结果是对“机器能思考吗?”这个问题的回答。英国数学家、计算机科学家、密码分析家和理论生物学家艾伦·图灵先生是这项提案的幕后推手,因此该测试以图灵命名。
该测试需要三名参与者或终端。他们彼此完全隐藏或隔离。其中一名是计算机或由计算机操作。另外两名是人类或由人类操作。
在测试期间,其中一名人类充当提问者,另一名人类和计算机充当回答者。提问者将以指定格式向回答者询问任何特定领域的问题。在固定的时间或固定的问题数量后,提问者必须将计算机与人类区分开来。
该测试将重复多次。如果提问者有一半时间无法将机器与人类区分开来,则认为该机器赢得了测试,并且可以说该计算机被认为是具有人工智能的。测试结果取决于机器回答的与人类回答的相似程度。
艾伦·图灵,这位伟大的英国计算机科学家,也被认为是人工智能之父和机器学习的先驱之一,是这一概念的提出者。他在1950年发表的论文《计算机器与智能》中介绍了这项测试。

通过这项测试,图灵试图以间接的方式回答“机器能思考吗?”这个问题。他首先将问题本身重新组织为“机器能模仿人吗?”
图灵提出了一种名为模仿游戏的游戏,不涉及任何人工智能。他让三名人类参与者在三个不同的房间里进行游戏,他们通过键盘和屏幕连接。游戏中有2名男性和1名女性作为参与者。玩家B(女性)试图说服玩家C(裁判,男性)她是男性。玩家C试图通过提问来发现谁是男性,谁是女性。

模仿游戏的图示如上所示。A – 男性,B – 女性,C – 男性(裁判)被放置在三个独立的房间中。只有C可以通过键盘与A和B互动。
在进行了模仿游戏之后,图灵提出了一个问题:“机器能思考吗?或者有没有任何数字计算机能够通过模仿游戏?”模仿游戏通过用计算机替换一名人类玩家来完成。

请看上图。这里有三位玩家:玩家A、玩家B和玩家C。玩家A是计算机,玩家B是人类应答者,玩家C是人类提问者或审问者。他们三人彼此隔离。审问者知道其中一名玩家是计算机,另一名是人类。但审问者需要根据提出的问题和回答来判断哪个是机器,哪个是人类。这里玩家之间的互动通过键盘和屏幕进行。计算机或玩家A被允许做任何可能的事情来欺骗玩家C(审问者)。测试的最终结果取决于玩家A模仿人类的程度。
玩家之间的互动会是这样的:
玩家C:你是电脑吗?
玩家A:不。
玩家B:不
玩家C:将 18765439 * 8749049 相乘
玩家A:过了一会儿,给出了一个错误的答案
玩家B:很长时间后给出了一个错误的答案。
玩家C:加上 524310, 34521
玩家A:暂停大约 x 秒,然后给出答案 558831。
玩家B:暂停大约 Y 秒,然后给出答案 558831
只有当玩家 C 无法轻易区分玩家 A 的对话与玩家 B 的对话时,玩家 A 才会被认为是智能的。
图灵测试不能被认为是评估人工智能系统的相关方法。但必须指出的是,图灵测试是在1950年提出的,那时人工智能的概念还不存在,这比人工智能概念的出现早了6年。然而,图灵已经开始思考机器能否思考这个问题。他是描述机器智能判定框架的人。迄今为止,图灵测试对于人工智能系统来说仍然难以捉摸。没有人工智能通过图灵测试。ELIZA和PARRY曾接近通过。计算机程序员Eugene Goostman是第一个通过该测试的人工智能。图灵测试可以用来判断机器人的对话能力。图灵测试为我们提供了很多关于如何定义智能行为以及我们希望智能机器人具备什么功能的思考。
图灵测试已被证明既有影响力,又因上述严重缺陷而广受批评。无论如何,它已成为人工智能哲学中一个非常重要的概念。
哲学家约翰·塞尔(John Searle)于1980年提出的论点,名为中文房间论证,是一个思想实验,是针对图灵测试的主要批评之一。它认为数字计算机不可能拥有心智,无论程序使计算机反应多么智能,或者一个系统可以在没有实际智能的情况下表现出智能。其他专家也提出了类似的论点。
图灵测试有许多版本,其中一些是:
顾名思义,这是一个反向过程。一种修改后的图灵测试,其中人类和机器之间的角色互换。这种修改后的方法
可以克服标准版本的大部分异议。CAPTCHA是逆图灵测试的一个例子。用户会看到一个扭曲的图形图像中的一些字母数字字符,并要求用户在允许用户在网站上执行某些操作之前输入这些字符。此方法用于防止自动化系统滥用网站。任何能够正确执行此操作的系统都将是人类,因为目前不存在能够读取和复制此类扭曲图像的软件。
主题专家图灵测试,也称为“费根鲍姆测试”,是爱德华·费根鲍姆提出的图灵测试的另一种变体。在此测试中,计算机试图在特定领域(如会计或营销)复制专家。
通过提问揭示人类认知的低级或无意识过程。除非计算机像人类一样体验世界,否则提问者可以通过这些类型的问题轻松揭露计算机。这是由罗伯特·弗伦奇提出的。
认知科学家 Stevan Harnad 在传统图灵测试的基础上增加了两个要求。除了语言审讯,它还涉及视觉能力和物理互动。这个修改版本被称为完全图灵测试。
作为传统图灵测试的最大抽象,克里斯·麦金斯特里(Chris McKinstry)提出了一个只允许二元响应的版本。重点只在于思维能力。