战争起源于人之思想 人工智能的起源:六十年前 一场会议决定了今天的人机大战
2006年,在会议结束50年后,各方在达特茅斯再次聚首。左起:摩尔、麦卡锡、明斯基、萨夫里奇、索洛门多夫
背景现在谈人工智能的起源,一般认为是1956年的达特茅斯会议。众所周知,还有一个前戏:1955年,美国西部计算机大会在洛杉矶召开,会上有一个简短的会议:“学习机研讨会”。研讨会的两名参与者在第二年参加了达特茅斯会议。他们是塞弗里奇和纽维尔。塞弗里奇发表了一篇关于模式识别的文章,而纽维尔讨论了计算机象棋。他们代表了两种不同的观点。研讨会的主持人是神经网络的鼻祖之一皮茨。他最后说:“试图模拟神经系统,而纽厄尔试图模拟大脑...但殊途同归。”皮茨的眼睛真的有毒,预示着未来几十年人工智能在“结构与功能”两个阶层、两条路线上的挣扎。开聊达特茅斯会议之前,先说六个最相关的人。首先,会议的召集者麦卡锡当时是达特茅斯学院的数学系助理教授。两年前达特茅斯数学系同时有四位教授退休,这对达特茅斯这样的小学校真是不可承受之轻。刚上任的年轻系主任克门尼之前两年才在普林斯顿逻辑学家丘奇门下得了逻辑学博士,于是跑到母校求援。这么说起来,克门尼算是图灵的师弟,他战时和物理学家费曼一起工作,还一度当过爱因斯坦的数学助理,后来一头扎在计算机里,和麦卡锡一起琢磨出了分时系统,但他最为人知的工作应该是老少咸宜的编程语言BASIC。现在估计已经没人知道BASIC语言发明人曾是LISP语言发明人的老板。克门尼是天生的官僚,后来位居达特茅斯的校长,美国三里岛核电站出事,总统委托他当调查委员会主席,这是后话。克门尼从母校数学系带回了刚毕业的四位博士前往任教,麦卡锡是其中之一。麦卡锡后来发明的LISP语言中最重要功能Eval实际就是丘奇的lambda演算,而且他后半生致力于用数理逻辑把常识形式化,大家由此猜他可能也是丘奇的学生,但其实不是,他压根学的就不是逻辑。他的老师是失去双手的代数拓扑学家所罗门·莱夫谢茨。但麦卡锡对逻辑和计算理论一直有强烈兴趣,他1948年刚到普林斯顿读研究生时就认识了冯·诺伊曼,在老冯影响下开始对在计算机上模拟智能发生兴趣。会议的另一个有影响力的参与者是明斯基。他也是普林斯顿的数学博士,他和麦卡锡从学习的时候就认识了。他的主要业务不是逻辑,尽管他后来写了一本关于计算理论的书,并培养了几个计算理论博士,包括图灵奖获得者布鲁姆。布鲁姆目前和妻子在一起。常见的误解是“人工智能”这个词是麦卡锡创造的,但事实并非如此。麦老晚年的记忆也承认这个词最早是从别人那里听来的,但他想不起来是谁。后来,英国数学家菲利普·伍德沃德给《新科学家》杂志写了一封信,说他是AI的创始人。麦卡锡第一次听他的,是因为他在1956年去麻省理工学院交流时认识了麦卡锡。然而,麦卡锡的提议在1955年开始使用“人工智能”。人老了回忆起来真的不靠谱。除明斯基外,所有政党都已去世。恐怕会成为悬案。大家对“人工智能”这个词一开始并没取得完全共识。很多人认为啥事一加“人工”就变味了。纽厄尔和司马贺一直主张用“复杂信息处理”这个词,以至他们发明的语言就叫IPL召开了“思维过程机器化”会议,达特茅斯会议的麦卡锡、明斯基、塞弗里奇都参加了,此外还有致力神经网络研究的麦卡洛克,以及英国的控制论代表人物阿什比。两位编程语言的先驱也出席了:巴克斯发表了一篇关于他新发明的语言FORTRAN的论文,但他后来一直是函数式语言的倡导者;美国海军女少将格蕾丝·哈泊的文章是讲第一个编译器的,这项工作导致了COBOL语言,中国也有女少将,也是码农。他俩论文的题目里都有Automatic Programming的说法,这在当时就是指高级语言编程,不能和后来人工智能中的自动编程搞混了。这次会上有人再提“人工思维”的。人和事的八卦都属前种。纽厄尔在1981年为一本颇为有料的文集《信息研究》贡献的一篇文章“AI历史的智力课题”走了第二条路线。他的方法也挺有意思。他把AI历史当作斗争史,把历史分为两个阶级、两条路线的斗争,于是历史成了一串儿对立的议题,如模拟vs数字,串行vs并行,取代vs增强,语法vs语义,机械论vs目的论,生物学vs活力论,工程vs科学,符号vs连续,逻辑vs心理等,在每一议题下有进一步可分的子议题,如在逻辑vs心理下又有定理证明vs问题求解等。提到最多的是人工智能vs控制论。试试谷歌ngrams中谷歌图书中控制论和人工智能的词频,可以看到学科的起伏。在前苏联,“控制论”曾被用来指代AI。人工智能和铁幕是同一个节奏。美国最早的计算机相关部门成立于20世纪60年代中期。当时有的系直接叫“计算机科学系”,有的叫“计算机与信息科学系”。有“信息”的都有“控制论”的背景。例如,麻省大学计算机与信息系的创始人是维纳的学生迈克·阿比布。密歇根大学被称为计算机和通信科学系。这些部门后来被改名为计算机部门。而原来的图书馆系现在已经改名为信息科学系。比如伯克利和华盛顿大学的图书馆学院都改名为信息科学学院,甚至“科学”都被保留了下来。然而,有一种趋势是在计算机部门加载信息。近年来,麻省大学和加州大学欧文分校更名为信息与计算机科学学院。这可能与深度学习和神经网络的转向有关。但是中国的学科比较简单,一直分为计算机和自动化。“人工智能”这个词真正被共同体广泛认可是在十年后的1965年,当伯克利的欧陆派哲学家德雷弗斯发表了《炼金术与人工智能》一文之后。这篇文章一开始只是针对纽厄尔和司马贺的工作,几年后这篇文章演变成了那本着名的《计算机不能干什么》一书,则是把整个AI当作靶子。欧陆派哲学家被人诟病数学和科学不通,但德雷弗斯有个数学家的兄弟,和他同一年在哈佛得了应用数学博士,后来又同在伯克利教书,是动态规划的大家,还带过神经网络的博士。哥俩一个立场。有时一个共同体的形成并不是靠内部的团结,而是靠外部的反对。有意思的是《炼金术》一文是德雷弗斯在兰德公司工作时写就的。司马贺后来撰文猛批德雷弗斯,说他滥用兰德公司的标签。德雷弗斯后来抱怨他在MIT和哈佛食堂吃饭,所有AI的人都躲他远远的。学术争执哪儿都一样。麦卡锡和明斯基的提案列出了他们计划研究的七个领域:第一,自动计算机,所谓“自动”是指可编程;第二,编程语言;3.神经网络;第四,计算尺度理论和伯恩斯坦,他们研究跳棋和国际象棋。达特茅斯学院教授摩尔也参加了。他后来在这个行业呆了很长时间,外人很少知道。在达特茅斯会议上被后人忽视的先知之一是索洛单夫。和其他来来往往的人不同,所罗门诺夫在达特茅斯严肃地待了整整一个暑假。他1951年在芝加哥大学跟随费米得了物理硕士就到了MIT。但在芝加哥对他影响最大的是哲学家卡尔纳普。有意思的是神经网络的奠基者之一皮茨也受惠于卡尔纳普。司马贺的回忆录里也讲到自己在芝加哥时听卡尔纳普的课开始启蒙逻辑,从而开始对智能相关的问题感兴趣。这么说来人工智能的两大派:逻辑和神经网络都发源于老卡。这个话题以后有机会再展开。卡尔纳普那时的兴趣是归纳推理,这成为所罗门诺夫毕生的研究方向。所罗门诺夫后来结识了明斯基和麦卡锡,在他们的影响下研究逻辑和图灵机。达特茅斯会议时,他受麦卡锡“反向图灵机”和乔姆斯基文法的启发,发明了“归纳推理机”。他的工作后来被万能的苏联数学家柯尔莫格罗夫重新但又独立地发明了一遍,就是现在俗称“柯尔莫格罗夫复杂性”和“算法信息论”的东西。来自中国的计算理论学者李明现在是这领域的大牛,曾有专着。柯尔莫格罗夫1968年开始引用所罗门诺夫的文章,使得后者在苏联的名声比在西方更加响亮。所罗门诺夫的另一个观点“无限点”后来被未来学家库兹维尔改名“奇点”窃为己有。目前AI中广泛用到的贝叶斯推理也可见到所罗门诺夫的开创性痕迹。他一生并没有大富大贵,大部分时间都是在自己的咨询公司Oxbridge拿政府的研究经费,那公司只有他自己一个雇员。伦敦大学皇家哈洛威学院后来在前苏联学者领导下搞柯尔莫格罗夫奖,他是第一届获奖人,并在那里兼职教授。他的学术自传1997年发表在计算理论杂志《计算机与系统科学》上。明斯基所谓AI孵化出计算理论的说法不是没有道理。根据麦卡锡和明斯基的说法,这十个人参加了达特茅斯会议,但现在有证据表明还有其他人参加了会议。斯坦福大学电气工程教授维德罗几十年来一直在研究神经网络硬件,以避免AI过山车,他后来回忆说,他也去了达特茅斯,并在那里呆了一周。麦卡锡原来的计划是两个月闭门研讨,但并非所有人都对那个事那么上心。纽厄尔和司马贺只待了一周。纽厄尔后来回忆说达特茅斯会议对他和司马没什么影响。虽然是“十仙过海”,但给大家印象最深的还是纽厄尔和司马赫的报告,他们发表了一个节目《逻辑理论家》,可以证明怀特海和罗素《数学原理》中命题逻辑的一个大子集。司马赫在回忆录中说,他学术生涯中最重要的两年是1955年和1956年。这篇文章后来成为AI史上最重要的文章之一。一个有趣的插曲:这篇文章最早提交给了最重要的逻辑期刊《符号逻辑杂志》,但被主编克里尼拒绝,理由是用机器重新证明一本过时的逻辑书中的定理毫无意义。纽厄尔和司马赫给罗素写了一封信,报告了这一成就。罗老毫不讳言地回答:“我相信演绎逻辑中的所有事情都可以由机器来完成。”值得注意的是“逻辑理论家”对人工智能后来的一个分支“机器定理证明”的影响并不大。哲学家王浩1958年夏天在一台IBM-704机上,只用九分钟就证明了《数学原理》中一阶逻辑的全部定理。当然《数学原理》中罗列的一阶逻辑定理只是一阶逻辑的一个子集,目前,一阶逻辑的机器定理证明比起五十年代已有长足进展,但仍然没有高效的办法。毕竟,王浩证明的是一阶逻辑而“逻辑理论家”只能处理命题逻辑。数学家马丁·戴维斯和哲学家希拉里·普特南合作沿着王浩的思路进一步提出了戴维斯-普特南证明过程,后来进一步发展为DPLL。王浩对“逻辑理论家”一直持鄙视的态度,认为这是一个不专业的东西。王浩在1983年被授予定理证明里程碑大奖,被认为是定理证明的开山鼻祖。司马贺在他回忆录里则对此不满,认为王浩的工作抵消了“逻辑理论家”的原创性,他们的初衷并不是要有效地证明定理,而是研究人的行为。这是后话,我后续还会有《机器定理证明简史》。麦卡锡多年后回忆说,他从纽厄尔和西玛赫的IPL语言中学习了表处理,这成为他后来发明LISP的基础。明斯基后来在一次采访中说,他对纽厄尔和司马赫的“逻辑理论家”印象深刻,因为这是第一个工作的AI程序。但事实上,明斯基对于当时国会的总结只是轻描淡写的“逻辑理论家”。麦卡锡和明斯基显然是一伙的,他们开这个会是为了创立一门新的学科。但是纽厄尔和司马赫抢了他们的风头。50年代的美国学术氛围也浮躁,个个年轻有为,野心勃勃。会议之后在达特茅斯会议后不久,1956年9月,IRE在麻省理工学院举行了一年一度的信息论会议。一个月前麦卡锡受邀对达特茅斯会议做总结报告,引起了纽维尔尤其是司马赫的不满。他们以为麦卡锡只会说话不会干货,而达特茅斯会议上唯一的干货是纽厄尔和西玛赫的程序“逻辑理论家”。最终,纽维尔和司马赫做出了妥协:麦卡锡先做了总结报告,但最终,纽维尔和司马赫谈到了他们的“逻辑理论家”,并发表了一篇名为《逻辑理论机器》的文章。明斯基认为他的协调发挥了作用,但纽厄尔晚年只对香农的邀请印象深刻,而司马赫的回忆录中说,国会主席罗赞布利特和司马赫还有很长的路要走。明斯基的演讲非常巧妙幽默,但在这段历史的重建中,他给人的印象是有点太“滑”了,原因不难猜测。有时候,对历史的研究必须是全方位的,空或时间的接近不一定是真的。太近了,当事人还活着,还在一个圈子里,不方便暴露对方。但是在他生命接近尾声的时候,当他成功的时候,当他奄奄一息的时候,当他的对手死了的时候,他毫无顾忌。有时候,虽然他夸大其词,但如果他不小心,他会揭露真相,纽维尔属于后者。明斯基的“滑头”可能与他的健康有关。他这么大了也不迷茫,觉得路还很长。科学达人弗里曼·戴森在他的《一面多彩的镜子》一书中借鉴过以赛亚·伯林“刺猬与狐狸”的比喻:刺猬是那些构建理论体系的人,而狐狸则是那些解决问题的人。在他眼里:爱因斯坦、哥德尔是刺猬;而费米、冯·诺伊曼属狐狸。科学史有时刺猬得势,有时狐狸当道。是不是可以说纽厄尔和司马贺更像刺猬,而麦卡锡和明斯基更像狐狸呢?具体到AI的源头和达特茅斯会议,麦卡锡认为他和明斯基是发起人,纽厄尔和司马贺是“外人”,是搅局者。明斯基的解释是纽厄尔和司马贺一开始的出发点是心理学,这与麦卡锡和他本人的背景不符。但在随后的十年里,他本人更多地走向心理学,而纽厄尔和司马贺更靠近AI,也没什么矛盾。麦卡锡除了和明斯基关系紧密外,和其他AI群体的交流并不多,在所谓其他群体中,最有影响当属卡内基梅隆了。麦卡锡晚年回忆说那时群体之间的沟通主要是通过研究生,研究生就像大佬们的大使。后来斯坦福、CMU、MIT的学生确实互为教授,门户之见随着时间的推移逐渐被抹平了。总之,1956年的IRE信息论年会是一次值得纪念的会议。除了纽维尔和司马赫发表的文章外,心理学家乔治·米勒还发表了《人类记忆与信息储存》,这是著名文章《神奇数字七侠》的另一个版本。不知道能不能算作一篇稿子。在同一次会议上,伟大的乔姆斯基发表了《语言描述的三个模型》,证明了有限状态句法不能表达某种语言,这是乔姆斯基分层的起源,并引用了未发表的不朽名称《句法结构》。乔姆斯基刚刚开始在麻省理工学院现代语言学系担任助理教授,并在麻省理工学院电子实验室进行机器翻译研究。虽然乔大师后来成为了反政府斗士,但讽刺的是,他早期的研究经费来自美国空陆军和海军。从参与者的角度看,大家会认为这次IRE的信息论年会比达特茅斯会议更重要,影响也更深远。乔治·米勒回忆说他当时直觉认识到实验心理学、理论语言学、认知过程的计算机模拟,都是一个大家伙里面的组成部分。这个所谓的大家伙就是现在的人工智能加认知科学吧。明斯基回忆说,在达特茅斯会议期间,他在纸上画了一个几何定理证明器的设计,并通过人工模拟证明了一个等腰三角形的定理。会后,1956年9月,IBM招聘了一位刚毕业的物理博士格兰特,来实现明斯基的几何定理证明器。麦卡锡此时受到纽厄尔和西玛的影响,建议用Fortran实现表处理语言作为实现语言。该项目在1959年实现后,IBM削减了AI投资,并削减了项目,因为IBM不想给人们留下机器可以代替人的印象。20多年后的1983年,IBM再次资助AI。现在看来,IBM百年老店只能靠AI系统沃森翻身了。麦卡锡1958年离开达特茅斯去了MIT,他帮助创立了MIT的MAC项目。他和明斯基一起领导了MAC项目中的AI实验室,1962年他再次跳槽到斯坦福。之后明斯基又和帕伯特合作。计算机操作系统里“分时”的概念是由麦卡锡在MAC项目中首创的。他回忆说当时机器太少,但等着上机的学生很多。于是就发明了分时系统。按说分时系统的贡献要比麦卡锡后来的AI贡献彰显得多,但麦卡锡得图灵奖可不是靠“分时”,这就像爱因斯坦得诺奖没靠相对论一样。从这个意义上AI有点像哲学:由此衍生出很多问题,而对这些问题的解决产生出许多子学科;一旦这些子学科独立,就不再待见AI了。现在计算机科学已成为成熟的学科,每个计算机系大都有三拨人:理论、系统和AI。二十年前的美国计算机圈子曾有一种说法:理论和系统的人互相看不起,但又同时看不起AI的人。AI这几年火了,但曾几何时,AI人是被压迫者。哲学曾经孕育了科学,但一旦问题被确定,就分离成为单独的科学,最新的例子是逻辑学,现在的逻辑学家都在数学系和计算机系,哲学系被彻底空洞化。哲学家丹尼尔·丹尼特曾说:AI就是哲学。MAC项目孕育了计算机科学中很多原创的概念。以至于明斯基后来认为UNIX系统是反动落后的东西,因为他们丢掉了很多Multics中的精华。1968年,参议院多数党领袖曼斯菲尔德对高级研究计划局的资助方向不满。他认为,国防部的钱不能用于军事目的,非军事目的的项目应该由国家自然科学基金承担。因此,ARPA更名为DARPA,更加强调“国防”。20世纪70年代初,海尔·梅尔任期内,美国国防高级研究计划局大幅削减人工智能预算。协调政府和人工智能实验室的工作变得复杂起来。明斯基决定从人工智能实验室退位,让他刚毕业的学生温斯顿接任。尽管明斯基说他不喜事务性工作,但他的采访和回忆中,触及的话题总是和联邦政府的资助有关。温斯顿后来回忆时说,管理一个成功的实验室要管理好三个圈的交集:出资人、科学上有创建、有国计民生的价值。他试图说服几任ARPA的头别把AI当作一个几年一次的项目,而是长期而独立的一门学科。另外他对比了早期ARPA和NSF的不同,NSF给钱少,而且都是同行评议制,结果是越有成就的拿的钱越多,但很少会有根本性的原创性贡献,ARPA早期都是头们说了算,好处是如果管事的头们品味好,肯定会支持好东西。这点也值得中国科技人的借鉴:大型项目决策者的品味可以超越“透明计算”吗?回到海尔梅尔,他引用AI作为不能帮助制造武器和打战争的借口。对AI的大规模资助被削减,但与此同时,对隐身飞机和空武器技术的大力资助,使得美国在相关领域保持领先。ARPA资助的项目很难通过同行评审来实施。ARPA几乎同时支持ARPAnet,后来演变成了互联网。有意思的是,离开ARPA后,海尔梅尔去德州仪器担任CTO,但他在TI极力主张AI。ARPA对AI的支持逐渐被克鲁克收回。每个人都知道克鲁克是互联网的先驱之一。后来,在ARPA信息技术办公室的负责人中,图灵奖获得者萨瑟兰也继续投资AI。精英风格的ARPA更适合大规模的创业项目,其成功取决于少数决策者;但是,以民主为基础的NSF,一直都是支持小规模的基础研究。预测未来:会有奇点吗?司马赫在1957年预言,计算机象棋将在十年内击败人类。1968年,麦卡锡和国际象棋大师列维打赌,国际象棋程序会在十年内打败列维,最后输给列维两千块钱。乐观的预测总会给对手留下把柄:德雷福斯后来每年都嘲讽AI,说在电脑上玩跳棋没问题,连十岁的孩子都不会下棋。这个廉价的词一直流传到1997年,当时IBM的国际象棋程序深蓝打败了卡斯帕罗夫。这真的是“40年太长,抓住每一分钟”。1995年,卡斯帕罗夫批评计算机象棋缺乏理解力,但1996年,他开始意识到深蓝似乎有理解力。在过去的两年里,深蓝的计算能力只增长了一倍。理解与否,其实是一个人能力的极限。量变到质变的临界点是人的解释能力。人们不能解释的是悟性,但他们解释的不是悟性。司马赫和日本计算机科学家宗合作撰写了一篇文章《人工智能的教训》,发表在《ACM通讯》上。当然,德雷弗斯们还可以将“计算机仍然不能干什么”加上若干个“仍然”接着批评。明斯基1968年在库布里克的电影《2001太空漫游》的新闻发布会上曾大放厥词说三十年内机器智能可以和人有一拼,1989年又预言二十年可以解决自然语言处理。现在我们恐怕还不能说机器翻译器令人满意吧。过分乐观的另一个原因,照明斯基自己的说法是,一门年轻的学科,一开始都需要一点“过度销售”。但是过头了不免被人当作狗皮膏药或炼金术。2006年,在达特茅斯会议召开50年后,当时的10位与会者中有5位去世,5位健在者:摩尔、麦卡锡、明斯基、塞弗里奇和索洛莫夫在达特茅斯重聚,追忆过去,展现未来。参与者之一霍伟慈问道:“潜艇会游泳吗?”如果机器人能有意识,机器人能被认为有意识吗?他进一步说,“意识”比较简单,而“前意识”是个难题。他将人工智能分为工程和科学。工程,比如自动驾驶汽车,可以让东西对人类有用;科学方面,乔师傅显然不赞成。他引用图灵的话:这个问题太没有意义,不值得讨论。当一群奇点理论的粉丝带着积极的期待采访乔姆斯基时,他并没有把深受其影响的人工智能当回事。他认为气候和毁灭性武器是比奇点更紧迫的问题。这是故意回避。明斯基在2012年接受他的学生、预言家、奇点理论炮制者库兹维尔的采访时说,他相信奇点的到来,可能就在我们的有生之年。两位“斯基”在MIT一百五十年纪念会上分在一个小组讨论里,却只打了下太极,并没有针锋相对。他们尽管年长,但身体都挺好,如果他们能在2016年达特茅斯会议六十年时面对面掐一架,肯定会很精彩,反正住得也不远。