当前位置:首页  〉 科研学术  〉 业界声音

张峥:人工智能要向“源”而问,避免再交“原创税”

发布时间:2017-11-10 发布来源:上海市科学学研究所

张峥,上海纽约大学终身教授、专家

前期,在上海市科学学研究所举办的“人工智能发展”软科学研究沙龙上,张峥教授着力强调基础研究和人才的重要性。本文进行了详细论述。

科学和技术更重要的原生力

在于好奇心的驱使

未来论坛在上海纽约大学举办的一次讲座之后,嘉宾互动环节有这么一个问题:“人工智能最大的应用场景在哪?”我半开玩笑地回答:“在饭局上”。

人工智能是IT公司蜂拥争抢的标签,也是媒体和大众的热点议题。这不是坏事,但并不是说不需勘误。

比如这样的说法:“人类的发明史上,从来都是应用需求领先,从来都不是技术领先。比如,人们想要飞,才有了飞机并不断改善;人们希望计算更快,才有了CPU。好像,人们并没有迫切需要AI。”以上句子,摘自曾刷爆朋友圈一篇文章——“现在说自己在做AI的都是忽悠!”

这让我想起几周前参加上海科技馆一个面向中学生的科普活动时,给同学们留下的一句寄语:“以好奇之心,求无用之学。”因为在我看来,学界的AI研究动力,有一大半是(暂时的)无用之求。

科学和技术的原生力之一,是打造和使用工具。一部短短的文明史,也是人类不停发明和使用工具的历史。但是,革命性的工具不但落地时刻模糊,还要受到已有工具的阻击。上述文章里提到的集成电路芯片(IC)就是如此。电子管被晶体管替代,晶体管被IC替代,是从图灵开始之后硬件上的两大革命,但后者遇到了还在传统工艺里打滚的巨头们的顽强抵抗,直到美国航天局用IC实现阿波罗登月舱里的电脑配设。我个人认为,这是电脑史上最昂贵也最值得的原型展示(Demo):没有登月这种“无用之举”,连硅谷都不会存在。

关于“无用之有用”,从浙江大学王立铭教授那里,我还偷来三个精彩的反诘案例:“新生的婴儿有什么用?”(法拉第语);“这个研究不会有益于国防,但是会让这个国家更值得保卫”(费米实验室主任威尔荪语,于国会听证会);“(找希格斯)没用,但是我们就是想知道答案;而且我还知道你们其实也想知道答案,只不过你们自己没有意识到”(强子加速器科学家语,于国会听证会)。

科学和技术更重要的原生力,在于好奇心的驱使。

康德说最大的谜团,除了星空,就是我们自己的心智。要了解人自己,还有比再造一个“人”更直接的办法吗?在人工智能上走得远的研究者,不但应该广泛涉猎贴近人心的几个旁支,如心理学、行为学、神经科学,而在某种意义上更应是披着科学家外衣的哲学家。

就像莱特兄弟向鸟学习、引领人类飞行史一样,对人脑这个“老师”,人工智能也逐渐从“形似”过渡到“神似”,只不过万里长征才刚刚开始。

中国学术界原创乏力,原因在哪?

我认为原创之殇,在于缺了三点水

我相信,若单把人工智能作为服务落地,中国有可能成为世界第一,但若论人工智能的研究,目前国内的状况不容乐观。

从学界的统计数字来看,发自中国的论文总量到世界第二位,和GDP同步。但另有一个关于影响因子的统计,在34位。把这两个数字放在一起看,显然落差非常大。这两个数字很笼统,计算标准也没有定论,但是中国学术界总体缺乏原创性,而且缺口相当大,应该没有疑问。2017年的顶级AI会议NIPS(Neural Information Processing Systems,神经信息处理系统进展大会),录用六百多篇,中国各高校加起来入选二十多篇,而一个小小的纽约大学就有十篇。

另有报道,在今年的国际计算机视觉与模式识别领域的顶级会议CVPR(Computer Vision and Pattern Recognition)中,华人学者占了近半。这个统计数字可喜,但也不是没有问题。大概十年前,我还在系统研究领域工作,在和MIT的一位教授共同创办亚太地区系统研讨会的时候,对该领域顶级会议做了一个类似的统计,但添加了另外一个指标:除了参与的文章外,统计了华人学者作为指导老师的文章数,结果两者比例十分悬殊,而且连年如此。换句话说,当年攻坚拔寨的华人学生,毕业后很少成长为有视野、有创造力、有野心的指挥官。就像一把好枪,一旦出了厂,就丢了瞄准镜。

中国学术界原创乏力,原因在哪?我认为原创之殇,在于缺了三点水。资本驱动之下加上过度注重实用;短期、“有用”的研究蔚然成风;日积月累之后,对“源”头发问的习惯在工作中缺席。

在研究刚起步的时候,吃透别人的方法,想办法改进,这时候问的是“毛病在哪,怎么能更好?”这种提问,是在问题链的末端。往上回溯,可以问“这是正确的、有意义的衡量手段吗?”或者“这问题的假设对不对?”。更进一步可以问,“这一类方法的共性是什么?缺点在哪?”“这是个真问题吗?这问题背后的问题是什么?”等等。

这一步步的追问离源头越来越近,离当前的“潮流”也越来越远,也就越来越可能在性能上输给流行的、打磨了太久太多的模型,但也越有可能做出原创的工作。

有一次一个年轻的创业者和我聊天,谈起他们最近一个把深度网络稀疏化、降低功耗和减少内存消耗的工作。这工作显然对优化现在的模型很有意义,但我问他知不知道人在解读一张图片的时候由注意力驱动,看几眼就够了,而每眼只消耗几个字节的带宽?有没有意识到,这是我们睁眼就有的视觉行为。

相比之下,现在流行的深度学习框架从一张图上并行检测几千个小窗口,完全违背人脑视觉系统的计算过程,如果真要降低功耗,是不是应该想想这个框架是不是对?所谓机器已经在识图问题上超过人类,只是在特定的几个子领域,这不是学界常识吗?

流行的框架不但浪费资源,还会丢失信息。下面是斯坦福大学李飞飞教授开的网课“卷积神经网络和计算机视觉”第一讲里的一张图。这张图在说什么?

喂给AI大批这样的图片,加上“户外运动”这样的标签后,模型甚至可以吐出“草地上四个人在玩飞盘”这样靠谱的回答。人脑解读这样的图片,是个串行的时序过程,比如从姿态、眼神,追踪到左手第一人手上的飞盘。一个依赖并行探测的模型,很难或者不可能恢复其中丰富的信息。能恢复时序、恢复时序中隐蔽的语义的模型,更类脑,更难实现,但显然更有泛化能力,也更省能耗。

人工智能必须向大脑学习,并不是说要在细枝末节上进行高仿真的拷贝。一味追求“形似”,反过来会阻碍人工智能的发展。应该认真思考的,是如何做到“神似”,得其精髓而不拘泥枝节。显然,这里要问的,还是“源”在哪。唯有如此,才能在飞鸟的背后,捕捉到飞行。

学术要做最先,落地要做最好;原创的责任归学术界,落地的责任归产业界,前者从0到1,后者从1到无穷大。如果学术界追求体量而不是原创和影响力,那将是对资源的大浪费。

事实上,对原创的重视分布在整个生态环境。谷歌、脸谱等一线大公司在实验室里圈养大批优秀人工智能专家,其开源和长线的基础研究,质和量都不输、甚至超过学校实验室。除了推进科学,这样的布局也有商业上的考虑。举例说,卷积和长短程循环这两个基础部件,如果不是因为它们的专利已经过期,那么今天几乎所有的深度网络模型都要交专利费。可以想象,体量如此大的中国市场,要交的份额只会最多。

向“源”而问,才有原创,才能培育真正的科学精神,才能避免未来的巨额“原创税”。

文章观点不代表主办机构立场。

分享到:

版权所有©上海市科学学研究所

沪公网安备 31010402001155号