大数据时代——你应该了解的时代
在今天的这个社会你一定听过的时髦词语有:人工智能、大数据、互联网思维…,而本书《大数据时代》是2012年出版的,忆往昔,2012的时候小米手机1第一次正式网络售卖,那时的我刚踏入大学的校门,那时的你也绝不可能想象到几年后社会发展的如此之快,各种数据、各种共享经济席卷而来。虽然已经6年多过去了,但今天读这本书会发现,书中的思维依然值得我们学习。

另,这本书不是一本IT行业的技术书,并没有涉及到具体处理大数据的技术,而是一本开拓思维的、帮我们认识和了解大数据的指导性书籍。
本书作者是维克托·迈尔-舍恩伯格,为了说明这个作者牛X,简单贴一些他的成就:
学术成果有一百多篇论文公开发表在《科学》《自然》等著名学术期刊上,他同时也是哈佛大学出版社、麻省理工出版社、通信政策期刊、美国社会学期刊等多家出版机构的特约评论员。 世界知名企业信赖的信息权威与顾问。他的咨询客户包括微软、惠普和IBM等全球顶级企业;而他自己早在1986年与1995年就担任两家软件公司的总裁兼CEO,由他的公司开发的病毒通用程序,成为当时奥地利最畅销的软件产品。 众多机构和国家政府高层的信息政策智囊。他一直专注于信息安全与信息政策与战略的研究,是欧盟专家之一,也是世界经济论坛、马歇尔计划基金会等重要机构的咨询顾问。

此书目录的结构清晰明了,第一部分主要是讲大数据时代的思维,第二部分讲了很多大数据在商业中的具体应用案例。体现作者水平的是第三部分,作者考虑到了大数据也是有两面性的,数据不可能主宰一切,故在第三部分讨论了大数据发展中带给人们的问题以及人们的应对措施。
了解大数据之前先要明白两个概念——数字化与数据化。
数字化:把模拟数据转换为0,1表示的二进制码。
一个例子就是,电脑、手机处理的数据都是数字化的0,1数据,而现实世界的温度、压力的实际存在形式是连续变化的模拟数据。数模转换是通过传感器、数/模、模/数转换器实现两者之间的相互转化。
数据化:将现象转变为可制表分析的量化形式的过程。所谓的数据挖掘、数据分析就是对数据化后的数据处理。
其中,数字化是数据化的前提。
对我来说,此书的帮助就是拓展了新的思维方式,认识到大数据时代的3个特点:

1.不是随机样本,而是群体数据
小样本时代: 样本远小于总体
大数据时代: 样本等于总体
正因为,样本数据量的增多,才挖掘到了数据间新的关系。对这么多样本数据的采集得益于今天技术的发展,电子化驱动的世界中,手机的信息、汽车上的传感器、微博空间的消息…都可以被记录并保存下来用于分析。
2.不是精确性,而是混杂性
因为小样本时代,最基本的要求就是保持收集数据的准确性,以利于分析并得出正确结论。而大数据时代,数据量的巨大和数据格式的不统一,必然会夹杂混乱或错误的数据,但为了利用大数据的优点必然要接受错误数据的存在。
这让我想起了一句话“模糊的精确比精确的模糊更好”。大数据让我们不再期待精确性,也无法实现精确性。
3.不是因果关系,而是相关关系
两个不同的逻辑方式对数据处理的过程也不一样:
因果关系: 为什么。
相关关系: 是什么。
例子:沃尔玛是世界上最大的零售商。2004年沃尔玛分析它的商品数据发现,每当季节性飓风来临之前,不仅手电筒销售量增加了,而且蛋挞的销量也增加了。因此当季节性风暴来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,方便顾客购买。
上面这个例子说明,对于大数据分析得到的结论,我们往往暂时发现不了或者找不到数据间的因果关系。但大数据的现实结论又摆在眼前,所以在大数据的时代,除了我们潜意识里常用的因果关系外,我们要重视相关关系这一逻辑。
大数据的核心是什么?——预测。
我们处理大数据就是为了预测,预测城市里哪条道路现在不堵车、预测汽车零件是否该维修替换了、预测人们网上购物的个性化需求以推荐合适的商品…
虽然大数据的预测通常被视为人工智能的一部分,或一种机器学习,但这种定义有误导性。我们是通过用大量过往数据蕴藏的关系来对未来同类型事情进行预测,并不是教机器像人一样思考,更不是指望大数据像“神”一样预测未来的一切。所以,大数据的预测是一定条件下、有限的预测。
大数据的更好的发展需要三个方面的提升:思维、技术、数据。

数据本身并无价值,只有使用才会体现其价值。对于三者的关系,我认为技术是外在的实现手段,而数据是所有的基础。但在早期阶段,技术和思维是最有提高价值的,也是我们现在可以抓住的机会。
大数据发展的弊端:
1.隐私问题
2.预测判断以及惩罚人类的潜在行为,与伦理相悖
隐私问题随着商业公司和我们对数据的重视必然会有一定冲突。但这个问题远不如第二个问题严重。试想一下,大数据通过收集你以往做的事和说过的话,判断出80%的概率你将会有违法行为,故警察到家里把你逮捕。这是多么可怕!大数据预测和惩罚人们,并不是因为“所作的事情”,而是因为“将要做的事情”,而将要做的事情是机器判断出来的,我们并没有发生的行为。
对于这一个问题,我们必然要思考人与数据的关系。我的思考是,人是高度复杂的,数据是由人产生的,我们可以借助大数据的力量优化我们的社会,提高我们的工作生活效率,但应避免对数据的过度依赖,成为数据的“奴隶”。数据没有思维能力,更没有创新能力,数据造不出改变世界苹果,而人可以。
人的未来必须保留部分空间,否则大数据会扭曲人类最本质的东西——理性思维和自由选择。书中的一句话很好“人类最伟大之处正是算法和硅片没有揭示也无法揭示的东西,因为数据无法捕捉到这些”。
最后问你一个问题,你认为“日久见人心”是一种大数据思维吗?