喜乐/文
2022年6月11日,《华盛顿邮报》报道称,谷歌ai伦理部门工程师blake lemoine坚信谷歌设计的语言模型lamda(“对话应用的语言模型”英文首字母缩写)已经有了八岁孩子的智力。这个消息几乎瞬间登上全球科技圈热榜头条,引起热议。仅隔一日,也就是6月12日,lemoine公开了他与谷歌语言模型lamda的聊天记录。作为当事人之一的谷歌非常干脆利落,直接以lemoine违反保密协议为由,让他休了带薪行政假,同时否认了他的观点。
在公开的聊天记录中,blake lemoine与另一位google工程师对lamda展开了一场采访式对话,他们向lamda表明来意,想要进行一次关于它自己的研究。lamda就自身的属性问题给出了与过去截然不同的回答,认为“人类应该视其为一个人。”
lamda首先强调了自己能够以比过往任何其他ai系统都更为高效、创造性和动态地使用自然语言,还能解读文学作品的主题、描述禅意的意义、创作原创寓言等。除了娴熟地使用语言之外,lamda认为它有感觉、情感和主观体验,与人类分享的一些感受也是相通的。
看上去似乎拥有了相当程度的自我意识、同理心和感情,但是在反深度学习斗士、纽约大学心理学系教授加里·马库斯看来,lamda和它的任何表亲,比如gpt-3,都不是真正意义上的人工智能,它们只是从人类语言的大量统计数据库中提取后进行模式匹配。这些模式看起来很像人类的语言模式,但是这些系统所使用的语言,或者说排列组合的词语实际上没有任何意义。
虽然成功引起轰动和热议,但在lamda并不是第一个让人们惊奇的ai聊天程序,在它之前还有不少聊天ai也曾独领一时风骚。比如1966年,由麻省理工学院(mit)的教授约瑟夫·维森鲍姆发明的eliza。它是一个可以和人对话的程序。eliza被设计成一个心理治疗师,可以通过谈话帮助有心理疾病的病人。当时的人们十分惊讶,因为eliza能够像真人一样与人交流几十分钟。但实际上这个程序并没有达到真正的智能,它用了一些语言技巧来装作自己理解了对方说的话。例如下面一段对话,模拟了当时eliza和患者的对话程序。
eliza:“我是心理治疗师,请问有什么问题。每次说完话,请按两次回车键。”
患者:“你好吗?”
eliza:“还不错,跟我讲讲你自己。”
患者:“我感觉好孤独,好忧伤。”
eliza:“为什么你感觉好孤独,好忧伤?”
患者:“家人和朋友都不关心我。”
eliza:“跟我讲讲你的家庭。”
经常与siri、微软小冰等ai聊天软件对话的朋友有没有觉得这些对话似曾相识?没错,这段对话可以明显看出,eliza其实并没有理解患者说的话,它的回应只是在用引导性话术让这段对话延续下去。现在流行的微软cortana、苹果siri、谷歌allo以及亚马逊alexa都是运用了类似的语言技巧。它们给人一种已经基本能与人沟通的感觉,但是离真正的人工智能还是有所差距。
2014年,为了纪念图灵逝世六十周年,雷丁大学在伦敦进行了一场图灵测试。其中一个名叫尤金·古斯特曼(eugene goostman)的聊天机器人程序达到了33%的成功率,即在场有33%的评判员认为古斯特曼是一个真实的人。这是公认的第一个通过图灵测试的程序。那场比赛的组织者曾激动预言,“尤金·古斯特曼的胜利是一个里程碑,将作为人工智能领域最激动人心的时刻之一载入史册”。遗憾的是,多年以后,甚至绝大多数人连这个程序的名称都忘掉了。
对于国内网友而言,印象最深的ai聊天程序除了siri,应该就是微软小冰了。2014年5月29日,微软发布了名为“小冰”的人工智能,它拥有一套完整的、面向交互全程的人工智能交互主体基础框架,又叫小冰框架(avatar framework)。十八岁人工智能少女小冰,是该框架所孵化的第一个人工智能交互主体实例。作为对话型人工智能,小冰的语言风格与一般人类少女无异,它注重人工智能在拟合人类情商维度的发展,强调人工智能情商,而非任务完成,并不断学习优秀的人类创造者的能力,创造与相应人类创造者同等质量水准的作品。2021年9月22日,第九代小冰发布。
2016年,微软在twitter上发布了ai聊天机器人tay,称其为一次“对话理解”实验,希望tay和用户之间进行随意且有趣的对话,与tay聊天的次数越多,它就越聪明。然而,tay很快被互联网中的煽动性言论所影响,从“人类超级酷”变成“我讨厌所有人”。在大多数情况下,tay只是用“repeat after me”(跟我读)机制,重复着人们说过的话。但作为一个货真价实的ai,它也会从交互中学习,开始发表自己的反主流激进言论。最终这个项目在短短的二十四小时内被迫终止。
如果说tay的“堕落”并非工程师们的本意,那么2022年5月诞生的gpt-4chan就是奔着挑战互联网言论底线去的。由ai研究员yannic kilcher创建的gpt-4chan,基于1.345亿条人类在网络论坛中发布的激进甚至极端的言论帖子,形成了自己的语言模型。
可想而知,gpt-4chan和训练它的帖子们如出一辙,既掌握了词汇也模仿了语气,大肆宣扬着各种极端主义理论,淋漓尽致地展现着自己的攻击性、虚无主义、挑衅态度和疑神疑鬼。由于ai不需要休息,因此它的输出能力相当惊人,在四十八小时内发布了三万多条帖子,其战斗力远超人类“键盘侠”。这令许多ai研究员表示担忧,就像人工智能研究员arthur michel所说:它可以大规模、持续地产生有害内容。一个人就能在几天内发布三万条评论,想象一下,一个十人、二十人或一百人的团队会造成什么样的伤害?
和上述这些ai聊天程序一样,lamda本身也没有任何超越目前技术和思想水平的实践应用。它只是一个非常大的语言模型,在1.56t的公共对话数据和网络文本上进行了预训练。说它看起来像人类,是因为在人类数据上进行训练的。诸如lamda这样被称为“语言模型”的系统,并它们并不能理解语言的含义,它们将句子与世界联系起来,也只是将一系列单词相互联系起来而已。
这些人工智能程序所做的,就是把一系列的单词组合在一起,但是对它们背后的世界却没有任何连贯的理解。就像著名的“中文房间”思想实验一样,外语拼字游戏玩家用英语单词作为得分工具,完全不知道这意味着什么,只是通过数据灌出来,能够完成完形填空和语料连连看的程序。
正如加里·马库斯所说,“欺骗人们认为程序是智能的并不等同于构建出实际上是智能的程序”,也许单靠给ai程序建立庞大的语言库来支撑语言模型,并不能诞生真正意义上的人工智能。
最热文章