03 在大数据与深度学习中蝶化的人工智能

在历史的重复中变化

当我们谈论数据的时候我们在谈什么?

在大部分人的日常印象中,数据这个词代表的可能是每月的水、电、煤账单上的数字,或者是股票K线图上的红绿指数,还有可能是电脑文件里那一大堆看不懂的源代码。

人工智能眼中的数据含义远比这些广泛。数据的存在形式随着人类文明的发展不断改变,从最初的声音、文字、图画和数字,到电子时代的每一张图像、每一段语音、每一个视频,再到如今互联网时代人类的每一次鼠标点击、用手机时的每一次手指滑动,乃至每一下心跳和呼吸,甚至还包括经济生产中的一切人机动作、轨迹,皆已融入数据流。

不管是浩瀚永恒的引力波,还是复杂细微的DNA,今天的人类已经能够将各种或宏大或微小的事物转化为数据记录,变成我们生活的一部分。数据已经浸染我们生活的每一个细节,就好比生物学家认为人体组织的一半是由微生物组成的,在数字时代,我们生活的一半已然是数据。

历史总是螺旋式前进的。让我们回溯过去,远在人工智能诞生之前,人类在漫长的岁月中也践行着对于数据的发掘、计算和利用。

五千多年前,古埃及人就通过观测记录星象的位置总结出规律:每年当天狼星清晨出现在东方地平线上的时候,尼罗河便开始泛滥。他们照此制订农业耕作的计划,并且将这个周期进行总结,确定了一年365天的太阳历。遥远的天狼星与地球并无任何因果关系,只是出现在那个位置的时候,正好地球运转到一定的节气——这正是大数据时代的相关性计算的前身。

四千多年前,在今天英国的土地上出现了巨石阵——每块重达50吨的大石头组成了一个圆阵。这是一块原始钟表,夏至的时候,它的主轴线、通往石柱的古道和早晨的第一缕阳光就会处在同一条直线上;往相反的方向,冬至日的最后一缕阳光也会穿过石门。古人用笨重的石头仪表点燃了数据测量的曙光。与中国的日晷一样,这便是最早的数据可视化技术。

图3-1 巨石阵

资料来源:https://baike.baidu.com/pic/%E5%B7%A8%E7%9F%B3%E9%98%B5/1179755/0/6d81800a19d8bc3ed2257b32808ba61ea8d3451c?fr=lemma&ct=single#aid=17270777&pic=ac4bd11373f08202f436987e4efbfbedaa641bce

两千多年前,托勒密研究天地运动得出三大定律,为天文学打下基础。他的方法很有趣,一言以蔽之,是错误的方法里蕴藏着正确的思路。原本他误以为天体运动的轨迹是圆形,而实际上天体以椭圆轨迹运行。为了强行用“圆”函数来表达天体的实际运动曲线,他采用多个圆形的嵌套运动模拟出天体运动。他模拟天象使用的嵌套圆圈多达40个,相当于用多个圆运动函数来拟合成一个总体函数。这已经有了最早的拟合函数思想。

什么是拟合函数?当数据很多时,我们可以把数据想象为一个坐标系中分布的很多点。怎样寻找一个函数,使其曲线能够穿越尽可能多的点呢?如果这些点分布很规律,比如呈线性分布,就可以用线性方程描述。

图3-2 用线性方程表示函数

注:左图中分布的点可以用右图中y=ax+b形式的线性函数来近似表达。

如果分布点形成一个抛物线形状,那么函数也很容易得到,就是X2=2py的形式。但是如果这些数据点分布看上去很不规则时就很难找到一个单一函数。现代人想到用多个函数叠加的方法来模拟出一个总体的函数。调节每一个函数的权重,从而能够让叠加函数曲线尽可能多地穿过这些点。托勒密记录了大量天体运动的数据,然后尝试用叠加多个圆函数的方法模拟出椭圆轨迹的函数,以便把他记录的数据都包括进来。拟合函数方法适合从大量离散的数据记录中找寻规律,而这正是今天人工智能的基础,机器学习的基本数学方法。

由此可见,今天的很多基本数学方法古人已有,只是囿于能力无法尽情应用。

今天的人类可以用数字测绘来还原历史。即便在“我的世界”这样一款游戏中,计算机已经可以计算出每一块砖瓦的角度、长度,将几千年前的古城墙以完美的三维图像重现。那一刻,你会觉得所有古埃及、古希腊、古中国的壮美历史又重新与我们连接。但比起那宫殿中早已褪色的金冠银带,古人使用数据的智慧或许才是人类最宝贵的传承。

数据文明在进步,而大多数人还处在数据的懵懂之中。在日常生活中,数据的概念对于我们既亲近又陌生。我们亲近它,因为每个人从小就会接触加减乘除这样最基本的数据和算法。步入社会后不管从事什么职业,我们这一生也免不了和各类文件、报表或者账单打交道。但与此同时,当面对高科技产品中各种关于内存、分辨率等时髦又复杂的数据时,我们又越发觉得不了解它们甚至没意识到它们的存在。随着大数据、机器算法和人工智能的理念相继到来,这种陌生感愈发加深。

那么数据生活距离我们遥远了吗?正相反,在新的技术条件下,数据与我们日常生活的联系从未如此紧密过。我们的祖先很久以前就学会有条理地储存数据,但是从没像今天的我们一样如此活跃、具体地记录着自己与世界。

从最初的计算器、摄像头,到家用计算机、智能手机,再到大数据和人工智能,我们不断升级采集和利用数据的方式。而现在,从一辆车的每日碳排放量统计到全球气温的监测,从对每个人在网上发言喜好的分析到对总统选举时投票趋势的预测,从预测一只股票的涨跌幅度到观察评估整个经济系统的发展,我们都可以做到。数据将人与人、人与世界连接起来,构成一张繁密的网络,每个人都在影响世界,而每个人也在被他人影响。这种从微观到宏观的辩证关系就如同在全人类身上发生的量子力学现象,其中孕育着解答无数问题的真理。传统的统计方法已经无法处理这种相互影响的数据。怎么办?答案是让机器自己来处理数据,从数据里习得知识。这便是当代人工智能的本质。

早在60年前,人工智能就已经被科学家当作一门严肃科学来研究。即便普通老百姓都对人工智能兴趣盎然,然而人工智能却在“二战”后人类科技高速发展的几十年间鲜有突破。直到今天,我们才忽然发现各种人工智能的概念如雨后春笋般冒出来,以大数据、AlphaGo、百度无人车等新面貌闯入我们的生活。