04 中国大脑计划:自下而上的超级工程

人机世界迫切需要新的大脑

很多人工智能科学家都拥有生物学和计算机科学两个方向的专业背景,这大概是智能生物发展的一个缩影。

地球就像是一台生物计算机,漫长的生命进化过程就是各类生物“程序”不断迭代的过程。在自然环境的作用下,无机物渐渐聚合成有机分子,有机分子演化组合成为蛋白质分子。携带生命信息的蛋白质分子仿佛是一个个数据字节,数量巨大又随机组合,能穷举出各种组合形态。其中一些不仅可以吞吐物质,还能进行新陈代谢并复制自己——生命便由此产生。

最基本的生命单位都携带着遗传基因编码。从此,生命的“编程语言”诞生了。大自然之手利用这种语言进行各种创造——基因代码变异、组合,产生各种新的生命体征,进化出五花八门的生物。而神经系统发育水平的高低直接决定该种生物的等级。

每种生物和新的生命组织都可以看作一段可执行程序。程序之间可以组合,代码可以更新,从而发展出更强大的程序。如果这段程序运作良好并且能可靠复制(繁殖),它就会生存下去。正如计算机中的程序必须“完善”才能持续运算下去一样。

不过,与我们如今手边的任意一台计算机相比,地球这台巨型生物计算机的运算速度实在是太慢了,一个程序的运行过程就是一个生物体的一生。几十亿年过去,才发展出唯一一种最高等级的智慧生物——人类。很自然地,这个星球上也没有什么自然生物可以进化出超过人类的大脑了,除了人类自己创造出的计算机。

计算机中的程序可以飞速迭代,但借此衍生出的人工智能并没有飞速发展。由于基于规则的编程和迭代太依赖人类,结果反而被人类制约了。如果让计算机自己编程呢?毕竟深度学习就是建立在非线性编程原理的基础上,让程序自己改造自己。我们往往难以理解深度学习神经网络解决问题的逻辑,正如人类并不了解自己脑中的那些意念、思想究竟是如何从脑细胞里产生的一样。

地球早已被生物层覆盖。如今,这部生物计算机迎来了第二次进化,那就是同样包裹着地表的计算机、通信网络、各类传感器和人类活动共同构造的信息层所孕育的进化。在数据分子与人类的结合中,新的数据生命形态正在形成。它们需要新的大脑。

图4-1 百度大脑示意图

注:使用手机百度或智能革命App扫描图片可见AR效果。

百度大脑就是这样一种尝试。比起生物界不自觉的进化之旅,它更在意的是当下的实际运用:个人、企业和社会都迫切需要人工智能的辅助,然而人工智能还散落在各处。百度大脑规划着要提供集中而优质的人工智能,通过互联网神经元把相关信息传导循环起来,加速世界的智能化。

第一棒:百度大脑

几年前,亚当·考特斯(Adam Coates)在斯坦福大学的研究进入博士后阶段,他曾问导师吴恩达:“做什么事情,在哪里做,能够让我们的研究在这个世界上产生最大的影响力?”吴恩达告诉他应该去百度。说起这件逸闻时,亚当担任百度硅谷中心主管已经一年多了。

如今,大概没有人能否认这组对话中蕴含的深谋远虑。不过在最初时,百度美国研究中心还扮演着员工赴美出差“中转站”的角色。

2014年,百度第一次披露“百度大脑”,这个抽象的概念仅仅在媒体上留下了一个影子。经过两年沉淀后,才有了2016年乌镇世界互联网大会上百度“第一次向外界系统介绍百度大脑”。此时,外界得知它已经和超过3万家企业展开合作。

研发百度大脑是一件苦差事,但负责研发的人未必都是苦孩子。这个团队里有从小玩小霸王的极客;有人的家乡还没有被百度地图所覆盖;有人在做“百度医疗大脑”的同时,重拾起学生时代对医药领域的热情;还有人一边说着“很难、很深”,一边坚持研究如何“把体验做到极致”。这种极致,有时对标的甚至是科幻。

许多百度大脑年轻的科学家都爱看科幻影视。普通人看到的是“幻”,这群博士、博士后看到的是“科”。同样是看美剧《西部世界》,语音部门的工程师高亮就说:“看剧情发展,我感到唤醒设计、声纹识别和远场技术被做到了极致。对,未来人机互动就应该是这样的!”

建设百度大脑也带有科幻成分。我们不妨先从了解其基础架构开始。

百度人工智能业务最基础的是“物料层”,有基于GPU/FPGA的云计算平台、深度学习代码平台和大数据储备。这一层提供了进化的环境和工具。最上层SaaS是人工智能的各种应用。

介于两者之间的是“人工智能基础技术层”。大脑所具备的“听说”(语音识别与语音合成)、“看”(视觉识别)、“读写”(自然语言处理)等认知功能就在这一层,大脑具备的决策规划、运动控制、预测推荐等决策功能也在这一层。

广义的百度大脑即包含了以上三层。张亚勤认为,三层的结合更体现出百度大脑的综合实力。

百度大脑是百度云的核心引擎,百度云是百度大脑的云化,云为百度大脑提供了神经元和数据训练源,百度大脑则通过云向各类产业输出服务。

具体来说,在“物料层”,百度是全球首家将GPU芯片大规模用于人工智能和深度学习领域,并规模化商用ARM(Acorn RISC Machine)服务器的公司。百度也自主研发了基于FPGA芯片的服务器。加上传统的基于CPU芯片的服务器,把这么多性能、结构、原理各异的服务器整合在一起,就需要强大的异构计算能力。通过异构计算技术、100G RDMA通信技术、高效的整机柜服务器技术,百度打造了全球最大规模的GPU和FPGA混合异构计算集群,把数十万台服务器合为一体,构成百度大脑的实体,保证了百度大脑超强的计算能力。

有了强大的硬件构造还不够,大脑中还要有内容和数据。这就好比是人类的记忆。在IaaS之上的PaaS是我们人工智能的平台,所有的样本、特征和功能都在PaaS这个层次生长。百度搜索十多年来累积的全网Web数据、搜索数据,以及百亿级数量的图像、视频、定位数据都是百度大脑不断学习、快速成长的养料。