自然语言理解 自然语言理解为什么这么难?
文摘:基于人类语言交流的基本框架模型,分析了导致理解自然语言困难的主要原因,并给出了一些具体的例子来说明计算机在理解人类语言时会遇到的具体挑战。要摘到AI皇冠上的珍珠,还有很长的路要走。
注:刘群先生是我国自然语言处理和机器翻译领域的知名顶尖学者。文中很多例子来自刘先生在微博发起的话题“#自然语言理解太难#”。感谢刘老师和分享这些案例的网友们。
一.导言
本文讨论对自然语言的理解。先举个例子。这是导师和学生之间的简短对话。让我们感受一下。
注意,这次对话有两个关键实体,一个是“文章”,一个是“马伊琍”。导师提到的“文章”指的是论文,而学生则认为老师说的是“马伊琍”的老公。双方的理解碰巧错了。
下面的例子更令人难忘。你可以想象当时两个人的内心,都在小心翼翼地维护着自己脆弱的尊严。
二、基本框架和难点分析语言交际的基本框架和信息失真问题
人与人之间的语言交流过程是怎样的?下图是一个基本框架,导师在左边,他的学生在右边。导师通过他的表达方式把他的“本义”变成了自然语言:“文章进展如何”,然后发给学生。
我们知道,人际交往涉及两个人之间的信息交流和传递。这里的信息表达形式很多,比如语音或文字形式的自然语言,图片和各种形式的信息载体,甚至手势、眼神等等。这里我们只讨论自然语言的情况。信息传递需要一个渠道或渠道。比如你通过微信发给对方,微信就是一个渠道。如果你通过电话与对方沟通,这个沟通环节就是你的通道。我们假设信道是可靠的,不会干扰信息的传输。
一次完美的语言交流应该达到这样一个结果:学生理解后的意思应该完全等于导师原本的意思。我们知道,人们在交流时,虽然双方都发送或接收文字符号,但这些符号背后有很多背景知识。但每个人对世界和背景知识的认知差异很大,会导致双方对同一文本符号的理解产生偏差。同时,双方在语境环境、语言表达能力、理解能力等方面的差异也会导致信息进一步失真。
比如我们提到“特斯拉”这个词,背后的背景知识就涉及到自动驾驶、电动车、汽车、马斯克等相关的网络知识。,而没有这些背景知识的支撑,“特斯拉”这个词只能是无意义的。
你看,只有人与人之间的语言交流,才有这样的问题,如果这里的学生都是电脑,是不是更难?这就涉及到一个关键问题:人类的常识知识、专业知识等等,如何表达,如何存储,如何构建一个可以被计算机程序使用的知识库,这是非常困难的。近年来,知识地图技术在学术界和工业界都很流行。然而,知识地图中的知识只是知识的符号化和地图化表示。电脑真的“理解”了里面的知识吗?人类的知识能不失真地被符号化和映射吗?这是一个值得大家考虑的问题。
自然语言理解中的一些具体挑战
除了背景知识的差异造成的障碍,还有一些具体的问题会进一步造成自然语言理解的困难。让我们以汉语为例,举一些有趣的例子。看完这些例子,你可以试着从程序员的角度去思考:计算机如何解决这样的问题?
中文分词中的歧义现象
这种问题很常见,不仅给中国的NLP带来很大的困难,有时也会让我们自己困惑。比如这个例子,我们不应该理解为“广东省长的假成绩单亮眼”,而是“广东省的长假成绩单亮眼”。但是,从计算机分词的角度来看,不能说第一个结果是错的。
下面一句:“小明吃了麻婆豆腐,被麻婆刺死。”只有看完后半句,才能真正明白前半句的“麻婆豆腐”不是一道菜,“吃豆腐”有着特殊的含义。
旧词新义问题随着社会的发展,语言会不断演变,一些单词的意思也会发生变化。例如,这个例子:
在她妈妈的理解下,这里的“晒”和“潮”的意思变成了晒朋友和新潮的意思。
例如,在下面的例子中,“娘”字前后的意思是不同的。当然,可能只是幽默的调侃。但是计算机能理解这样的幽默吗?
多义问题
比如“笔没水了”这句话里的水就是指墨水。但是谷歌把它翻译成普通的水,水。除了“水”这个词在不同搭配或语境中的不同含义外,这个例子也反映了机器翻译中缺乏相应的常识。
说相反的话都一样
也有一些表达,反过来说也是这个意思。最经典的例子是“完全胜利”和“完全失败”。“中国队彻底击败美国队”和“中国队彻底击败美国队”的意思是一样的。下图列出了一些常见的生活用语。
语言表达的地域差异与复杂与简化的转换
不同的区域对同一实体有不同的表达。例如,中国大陆的内存模块在台湾省被称为内存。因此,如果台湾省想播放mainland China的电视剧,通常需要将字幕从简体转换为繁体,这通常是由计算机自动完成的,然后你可能会看到一个非常有趣的结果,如下图所示,“然而,在中国保持我们的友谊的同时”变成了“海洋记忆的知己”。这个例子不仅反映了中文分词的模糊性,也反映了计算机在自动将汉字转换为简体时会遇到的挑战。
三、自然语言理解:任重道远
通过以上所述,我们应该能够感受到,自然语言理解确实任重道远。人类常识、专业知识、语言语境、歧义、语言演变、语言的地域差异等。都是NLP面临的挑战,有时候连人类都觉得很难,从而影响我们的日常交流。
在我看来,计算机要像人类一样理解自然语言,才能完全掌握人脑运行的机制,这是不现实的。我想这就是为什么大家都说NLP是AI皇冠上的明珠。最后,让我们放一张有趣的图片,玩得开心。
如果你觉得这篇文章对你有启发,请关注我的视频号。我会时不时分享一些科普的小知识,对大数据、AI、数据智能、数字产品技术等进行探讨和思考。