您的位置: 花繁落烬 > 明星

海量数据下的艰难抉择——人工智能与大数据

2019-08-10来源:花繁落烬

   16年美国大选异常激烈来自不同阵营的候选人希拉里和特朗普拥有着数量庞大的支持者但是在竞选后期美媒民调显示希拉里已经略显优势看上去似乎胜券在握。然而一个叫作 MogIA的预测机器人却不这么认为。它收集了来自社交网络以及民调中的海量“另类数据”,断定特朗普会在最终胜出成为下一任美国总统。

尽管在竞选过程中人们对于这样的言论不以为然但结果却出乎所有人的预料 MogIA说对了特朗普当上了总统。

MogIA对于美国大选的预测就是运用了大数据的技术。近五年如果要在信息科技领域找一个关键词那么非“大数据”莫属如果找两个关键词那么一定是“大数据”“云计算”而进一步说云计算”就是用来处理大数据的所以大数据绝对是这些年来科技领域的明星。大数据一经提出就风靡全球这些年渗透进人们生活的方方面面。越来越多的人看到了信息的价值并且从海量的信息中获取收益

诚然信息技术的发展将人们的生活量化在过去类似于偏好、乐趣、态度这种抽象的概念都可以通过某种映射将其转化为数据利用数据的存储和处理技术预测将来会发生的事情。越来越多的企业依靠大数据发展壮大大数据带来的社会效益和经济效益毋庸置疑。

而人工智能中机器对人类最重要的模拟就是学习。人类通过获取已经存在的知识或定律并能将其应用于现实生活中这就完成了一个学习的过程。从本质上讲人类的学习模式是积累大量的事实从而能通过逻辑分析预测将来可能发生的事情或在遇到类似的问题时能够对。人类认为很重要的所谓的“经验”和“阅历”其实都是大量事的叠加。例如通过阅读大量的文学作品而成为作家或者背单词以提英语水平甚至通过与很多人博弈而成为一位棋手这都是积累的过程,可见人类的学习实际上就是知识积累的过程

要实现机器人像人类一样学习最难攻克的就是如何使机器人拥有理解并积累事实的能力。诸如机器人能够用极短的时间找出一步棋子的最佳算或者通过比较选择自动行驶的最优路线等都是数学问题可以轻易地被转换为数字利用数学中的最优算法通过芯片和磁条的运转都可以解决。但是人类的世界并不都是数字可以用数字表达的事物可能只占得到万分之一机器人大概可以分辨一幅面的尺寸有多大,但是它们无法分辨这幅画美不美机器人能够统计一篇文章有多少字但它们无法判断这篇文章写得好不好。

在大数据技术出现之前人们已经能够通过数据对现象进行理性分析而不是简单地试图透过现象去推测本质。例如天气预报可以通过上百年的数据去推断一个地区的气候特点并依据此预测该地区的天气状况地理环境决定论通过大量事实获得地理和环境对人类社会和政权的影响这些都可以看作早期的大数据思想尽管几百年的天气状况数据极为庞大但是这样的数据量早已经被如今大多数行业运行中产生的数据所超越。过去数据被人们视而不见因为在动力时代、电力时代甚至早期的信息时代人们更愿意采用具体而形象的方式改造世界比如蒸汽机、发电机等然而现在人们发现诸如信息和数字这种抽象的东西更好用正如货币越来越少地出现在人们的生活中实际上是移动支付将其变为简单的数字。而股票、期货等利用简单的数字去表征财富也成为了人们更愿意接受的方式。

大数据技术则这个数据的数量将大得惊人但是价值却不言而喻。目前主流的学术观点中大数据的特点被归结为三个方面。

首先大数据不同于以往的数字处理方式在过去处理海量数据困难的情况下人们只能采用抽样的方式对数据整体规律进行把握即在大量数据中抽取有代表性的样本以此代表整体的特征这也是概率学最重要的思想。但是大数据技术却需要掌握所有的数据。

在过去的几百年这种思想似乎非常受用仰仗着概率学的发展人们对于自然规律的认识也逐步加深人们也开始更加青睐这种高效又相对准确的方法。概率学极大地加速了人们认识和改造世界的速度心理学家能够通过对一小群人的抽样研究了解群体心理学的状况质检员可以随机抽取产品以了解整个生产线的产品质量。实际上这种抽样调查的思想很多情况下忽略了所谓的“黑天鹅”现象。数以亿计的群体中可能出现了一个异样的个体尽管数量非常小但却是不能忽略的因为当前科学界的研究对象往往都是那些小概率事件如案例极为稀少的遗传性疾病数百年才出现一次的天文景观等如果因为出现概率小而忽略这些现象显然是不合适的。

而大数据技术将不再依赖于成熟的抽样思想。大数据技术的前提是人类能够实现对海量数据的储存。当前随着存储介质的不断升级数据的存储容量不断提升很快人们将能够存储所需要的所有数据。目前云技术的不断发展极大地满足了人类对数据存储量的需求。过去我们开玩笑觉得不少网络巨头的云产业最终沦为了网盘而现在看来大数据技术所需要的就是大容量的网盘。


另外大数据更加强调模糊而不是精确。所谓的模糊讲得其实是种处理思想。因为对于海量数据即使可以储存但也难以对它们逐个进行处理因而大数据技术不需要高质量的数据它需要的仅仅是数据。当前的数据处理技术对于数据有着很高的要求模棱两可的数据被认为是没有价值的。但是在大数据时代凡是数据都可以为人类服务。

例如全国警方可以根据人类行为的部分模糊历史数据判断在哪里会有犯罪发生这在依赖于抽样调查的年代是无法想象的。

相比于当前我们喜欢追求数据之间因果关系的习惯大数据技术更看重数据间的相关性。目前大数据处理主流流行的Hadoop算法极具创意地开始模糊数据间的因果关系因为在海量数据中每个数据之间都可能存在着因果关系但大部分因果关系可能都是没有价值的而当数据量庞大时数据之间的相关性则既简单明了又能够起到更大的作用。尽管大数据作为严肃科学走进了人们的视野但是人们更喜欢利用它做一些轻松的事情比如预测电视剧的结局或者预测竞赛的输赢预测大选的结果等。尽管这听上去有些不可思议但是这些预测的结果还是非常可观的。

大数据与以往数据处理技术存在着极大的差异那么大数据的真正作用在哪儿呢??

答案只有一个——是预测。大数据尝试使用海量数据、模糊处理数据并分析数据间的相关性其目的是进行预测。例如气象中通过多年的天气特征总结出气候变化从而预测特定日期的天气这样的方式已经初具大数据算法的特征但大数据技术并不仅仅做这样简单的预测。小到亚马逊会根据顾客的搜索记录向其推荐商品到工业生产中利用市场数据指导生产计划再到参照线路运行记录预测上千公里的电力线路的故障点甚至用难以计数的交易数据预测金融市场的走向大数据技术的应用领域可以说是只有想不到没有做不到。也难怪短短几年的时间大数据技术几乎霸占了各个领域的头条。


本文由花繁落烬整理,内容仅供参考,未经书面授权禁止转载!图片来源图虫创意,版权归原作者所有。

相关阅读