张峥：人工智能要向“源”而问，避免再交“原创税”

发布时间：2017-11-10　发布来源：上海市科学学研究所

张峥，上海纽约大学终身教授、专家

前期，在上海市科学学研究所举办的“人工智能发展”软科学研究沙龙上，张峥教授着力强调基础研究和人才的重要性。本文进行了详细论述。

科学和技术更重要的原生力

在于好奇心的驱使

未来论坛在上海纽约大学举办的一次讲座之后，嘉宾互动环节有这么一个问题：“人工智能最大的应用场景在哪？”我半开玩笑地回答：“在饭局上”。

人工智能是IT公司蜂拥争抢的标签，也是媒体和大众的热点议题。这不是坏事，但并不是说不需勘误。

比如这样的说法：“人类的发明史上，从来都是应用需求领先，从来都不是技术领先。比如，人们想要飞，才有了飞机并不断改善；人们希望计算更快，才有了CPU。好像，人们并没有迫切需要AI。”以上句子，摘自曾刷爆朋友圈一篇文章——“现在说自己在做AI的都是忽悠！”

这让我想起几周前参加上海科技馆一个面向中学生的科普活动时，给同学们留下的一句寄语：“以好奇之心，求无用之学。”因为在我看来，学界的AI研究动力，有一大半是（暂时的）无用之求。

科学和技术的原生力之一，是打造和使用工具。一部短短的文明史，也是人类不停发明和使用工具的历史。但是，革命性的工具不但落地时刻模糊，还要受到已有工具的阻击。上述文章里提到的集成电路芯片（IC）就是如此。电子管被晶体管替代，晶体管被IC替代，是从图灵开始之后硬件上的两大革命，但后者遇到了还在传统工艺里打滚的巨头们的顽强抵抗，直到美国航天局用IC实现阿波罗登月舱里的电脑配设。我个人认为，这是电脑史上最昂贵也最值得的原型展示（Demo）：没有登月这种“无用之举”，连硅谷都不会存在。

关于“无用之有用”，从浙江大学王立铭教授那里，我还偷来三个精彩的反诘案例：“新生的婴儿有什么用？”（法拉第语）；“这个研究不会有益于国防，但是会让这个国家更值得保卫”（费米实验室主任威尔荪语，于国会听证会）；“（找希格斯）没用，但是我们就是想知道答案；而且我还知道你们其实也想知道答案，只不过你们自己没有意识到”（强子加速器科学家语，于国会听证会）。

科学和技术更重要的原生力，在于好奇心的驱使。

康德说最大的谜团，除了星空，就是我们自己的心智。要了解人自己，还有比再造一个“人”更直接的办法吗？在人工智能上走得远的研究者，不但应该广泛涉猎贴近人心的几个旁支，如心理学、行为学、神经科学，而在某种意义上更应是披着科学家外衣的哲学家。

就像莱特兄弟向鸟学习、引领人类飞行史一样，对人脑这个“老师”，人工智能也逐渐从“形似”过渡到“神似”，只不过万里长征才刚刚开始。

中国学术界原创乏力，原因在哪？

我认为原创之殇，在于缺了三点水

我相信，若单把人工智能作为服务落地，中国有可能成为世界第一，但若论人工智能的研究，目前国内的状况不容乐观。

从学界的统计数字来看，发自中国的论文总量到世界第二位，和GDP同步。但另有一个关于影响因子的统计，在34位。把这两个数字放在一起看，显然落差非常大。这两个数字很笼统，计算标准也没有定论，但是中国学术界总体缺乏原创性，而且缺口相当大，应该没有疑问。2017年的顶级AI会议NIPS（Neural Information Processing Systems，神经信息处理系统进展大会），录用六百多篇，中国各高校加起来入选二十多篇，而一个小小的纽约大学就有十篇。

另有报道，在今年的国际计算机视觉与模式识别领域的顶级会议CVPR（Computer Vision and Pattern Recognition）中，华人学者占了近半。这个统计数字可喜，但也不是没有问题。大概十年前，我还在系统研究领域工作，在和MIT的一位教授共同创办亚太地区系统研讨会的时候，对该领域顶级会议做了一个类似的统计，但添加了另外一个指标：除了参与的文章外，统计了华人学者作为指导老师的文章数，结果两者比例十分悬殊，而且连年如此。换句话说，当年攻坚拔寨的华人学生，毕业后很少成长为有视野、有创造力、有野心的指挥官。就像一把好枪，一旦出了厂，就丢了瞄准镜。

中国学术界原创乏力，原因在哪？我认为原创之殇，在于缺了三点水。资本驱动之下加上过度注重实用；短期、“有用”的研究蔚然成风；日积月累之后，对“源”头发问的习惯在工作中缺席。

在研究刚起步的时候，吃透别人的方法，想办法改进，这时候问的是“毛病在哪，怎么能更好？”这种提问，是在问题链的末端。往上回溯，可以问“这是正确的、有意义的衡量手段吗？”或者“这问题的假设对不对？”。更进一步可以问，“这一类方法的共性是什么？缺点在哪？”“这是个真问题吗？这问题背后的问题是什么？”等等。

这一步步的追问离源头越来越近，离当前的“潮流”也越来越远，也就越来越可能在性能上输给流行的、打磨了太久太多的模型，但也越有可能做出原创的工作。

有一次一个年轻的创业者和我聊天，谈起他们最近一个把深度网络稀疏化、降低功耗和减少内存消耗的工作。这工作显然对优化现在的模型很有意义，但我问他知不知道人在解读一张图片的时候由注意力驱动，看几眼就够了，而每眼只消耗几个字节的带宽？有没有意识到，这是我们睁眼就有的视觉行为。

相比之下，现在流行的深度学习框架从一张图上并行检测几千个小窗口，完全违背人脑视觉系统的计算过程，如果真要降低功耗，是不是应该想想这个框架是不是对？所谓机器已经在识图问题上超过人类，只是在特定的几个子领域，这不是学界常识吗？

流行的框架不但浪费资源，还会丢失信息。下面是斯坦福大学李飞飞教授开的网课“卷积神经网络和计算机视觉”第一讲里的一张图。这张图在说什么？

喂给AI大批这样的图片，加上“户外运动”这样的标签后，模型甚至可以吐出“草地上四个人在玩飞盘”这样靠谱的回答。人脑解读这样的图片，是个串行的时序过程，比如从姿态、眼神，追踪到左手第一人手上的飞盘。一个依赖并行探测的模型，很难或者不可能恢复其中丰富的信息。能恢复时序、恢复时序中隐蔽的语义的模型，更类脑，更难实现，但显然更有泛化能力，也更省能耗。

人工智能必须向大脑学习，并不是说要在细枝末节上进行高仿真的拷贝。一味追求“形似”，反过来会阻碍人工智能的发展。应该认真思考的，是如何做到“神似”，得其精髓而不拘泥枝节。显然，这里要问的，还是“源”在哪。唯有如此，才能在飞鸟的背后，捕捉到飞行。

学术要做最先，落地要做最好；原创的责任归学术界，落地的责任归产业界，前者从0到1，后者从1到无穷大。如果学术界追求体量而不是原创和影响力，那将是对资源的大浪费。

事实上，对原创的重视分布在整个生态环境。谷歌、脸谱等一线大公司在实验室里圈养大批优秀人工智能专家，其开源和长线的基础研究，质和量都不输、甚至超过学校实验室。除了推进科学，这样的布局也有商业上的考虑。举例说，卷积和长短程循环这两个基础部件，如果不是因为它们的专利已经过期，那么今天几乎所有的深度网络模型都要交专利费。可以想象，体量如此大的中国市场，要交的份额只会最多。

向“源”而问，才有原创，才能培育真正的科学精神，才能避免未来的巨额“原创税”。

文章观点不代表主办机构立场。