03 在大数据与深度学习中蝶化的人工智能(第3/8页)

与时间数据博弈是富有挑战性的工作。2016年11月,百度正式接入公安部儿童失踪信息紧急发布平台,每当有儿童失踪事件发生时,百度地图和手机百度就会把失踪儿童的姓名、面貌特征、失踪时间等重要信息精准推送给失踪地点周边的用户,使用户可以第一时间参与找回失踪儿童的过程。而在失踪儿童被寻回后,百度地图和手机百度也会及时更新结案标识,让社会各界人士随时了解进展。能将信息早1秒钟提供给用户,就能给焦虑中的家庭多一分希望。

最后一点,也是最重要的,大数据的“大”表现为无尽的重复。对于语音识别来说,正因为人们重复讲述同样的语句,机器通过反复识别这些人类语音的细微差别,才能全面掌握人类语音。也正因为人们周而复始的运动,才让系统能捕捉城市运动的规律。“重复”的数学意义是“穷举”。以往人类无法通过穷举法来把握一个事情的规律,只能采用“取样”来估计,或者通过观察用简单明了的函数来代表事物规律,但大数据让穷举法这种“笨办法”变得可能了。

量变促成质变,在机器智能领域,数据量的大小和处理速度的快慢可以直接决定智能水平的高低。谷歌通过数据量提升翻译质量的故事早已不是秘密。

2005年,美国国家标准与技术研究所如往年一样举办机器翻译软件评测。有许多大学机构、大公司都从美国政府申请了研究机器翻译的科研经费,这些机构需要参加这个评测。没有获得政府资助的团队或者公司也可以自愿加入,谷歌就是后者。参与评测的还包括IBM、德国亚琛工学院等多家机器翻译界老牌公司,个个实力雄厚,在机器翻译领域深耕多年,只有谷歌是初出茅庐。

然而评测结果却让人大跌眼镜:谷歌取得了第一名,并且得分远远高于其他团队。在汉译英这方面,谷歌的表现达到了51.37%的BLEU分数,第二名和第三名的公司则仅达到34.03%和22.57%。最后,谷歌公布了自己的秘诀:用更多的数据!不只是比其他团队多一两倍,而是多上万倍的数据!因为谷歌可以通过搜索引擎收集互联网上人类给出的海量双语语料数据。同样一句汉语会有很多人给出译法,计算机会通过这种重复来统计出最常用的译法。在没有更改其他主要方法的情况下,仅仅依靠数据样本的增加就训练、改造出了超越其他机器翻译一个时代的产品。谷歌能赢,实际上就是因为“穷举”能力超过了别人。

谷歌、百度这一类互联网企业的数据优势是全方位的,除了翻译,还可以很容易地复制到其他领域,比如语音识别与图像识别。百度的“为你写诗”作为一个小游戏,同样结合了大数据与人工智能。百度主任架构师、机器翻译技术负责人何中军介绍,传统的写诗软件一般运用统计模型,根据给定的关键词生成第一句诗句,然后再生成第二句,不断重复这一过程,直到全诗生成完毕。而百度写诗的做法是这样的:用户可以输入任意词语或者句子,系统结合百度搜索引擎中的大数据对用户表达进行深度分析与联想,衍生出相关度较高的主题关键词。用户随便输入一个词或一句话,比如“西湖”,百度写诗系统通过对大量诗歌散文数据的分析,得出一首描写“西湖”的诗歌应该包含哪些主题词。对于“西湖”来说,得到的主题词可能有“断桥残雪”“烟雨”“垂柳”等。接下来利用深度神经网络技术,根据每一个主题词生成一句诗。这些主题词就相当于人类写作时经常用的提纲,根据提纲来创作可以保证全诗在意境上是统一的,而且前后诗句的内容在逻辑上也是顺畅的。之前大家说机器写的诗看起来每句话都还不错,但是整体意境不够,现在已经能有效弥补了。对于每一句诗歌的生成,则用到了机器翻译技术。对诗歌的第一句进行“翻译”得到第二句诗,再对第二句进行“翻译”得到第三句,以此类推。我们用“西湖”作为输入,“为你写诗”生成的七言诗意境优美、逻辑通畅。

图3-3 手机百度的“为你写诗”生成的七言诗

注:使用手机百度或智能革命App扫描图片可见AR效果。

人类的数据镜像

人类在科技产品的娇惯下,口味日渐挑剔,大数据能从那些枯燥乏味的选择之上给出一抹亮眼的色彩。以前的电视机不会回应我们的喜怒哀乐,但现在成熟的视频网站正在耐心仔细地收集着我们的每一种反馈,不管是收藏还是下载,是关闭还是快进,都一一记录,然后利用大数据计算出我们的喜好、消费能力等各种指标。

美剧《纸牌屋》风靡一时,剧中政客们斗牌,剧后则是大数据在下一盘看不见的大棋。出品人为美国著名的网络电视公司Netflix。它深谙大数据分析的妙处,除了以上提到的用户行为,还会尽力收集观看时段、观看设备、观看人数和场景,分析用户喜欢的节目中的主演状况、导演是谁等。通过大数据分析,断定《纸牌屋》的题材会火爆,于是从BBC(英国广播公司)手中高价购买了翻拍版权,并预测凯文·史派西是最合适的主演人选。最终结果证明了Netflix对于《纸牌屋》的押注完全正确。当我们在荧幕前感叹史派西所扮演的总统拥有掌控一切的智慧时,却没有意识到“数据总统”的威力。

美国新任总统特朗普就是一位充分利用数据竞选的总统。据彭博等媒体报道,他的技术团队通过脸书、推特等平台上的用户公开数据,如点赞、转发、收藏行为等,精准描述选民画像,向他们推送因人而异的竞选广告。甚至特朗普的每条推特、每条脸书都是有针对性的,不同内容对不同网民可见。

通过大数据对用户进行精准画像,这也是百度大脑擅长的领域。2016年十分火爆的电影《魔兽》的出品方传奇影业与百度大脑合作,根据对百度海量用户的分析,将电影广告精准推荐给潜在观众。虽然这部电影在北美市场票房不佳,但在中国大卖2.21亿美元。当魔兽粉丝在影院里高喊“为了部落!”的时候,也许正是大数据悄悄赋予了他们原力。

中国人都说“民以食为天”,比起挑选电影,怎么能“吃好”更是全民关心的热门话题。2013年百度曾发布过一个《中国十大“吃货”省市排行榜》,让网友乐此不疲。这个榜单利用了百度知道和百度搜索的大数据,根据网友们多达7700万条关于“吃”的问答,总结出了各地不同的饮食习惯和特色。