《大数据时代》读书笔记

《大数据时代》BIG DATA
生活、工作和思维的大变革A REVOLUTION THAT WILL TRANSFORM HOW WE LIVE, WORK, AND THINK
[英]维克托·迈尔-舍恩伯格Viktor Mayer-schonberger 肯尼思·库克耶Kenneth Cukier 著
盛杨燕 周涛 译

已经发生的大变革

1.2009年甲型H1N1流感爆发时,google通过观察人们在网上的搜索记录,提前预测流感的传播并判断出流感是从哪里传播出来的。——大数据变革公共卫生

2.奥伦·艾奇奥尼Oren Etzioni创建Farecast的故事。机票票价预测准确率75%,帮消费者省下一大笔钱。——变革商业

3.变革思维,开启重大的时代转型。
技术成熟度曲线

预测,大数据的核心!

大数据时代的思维变革

1.不是随机样本,而是全体数据。随机采样时现代社会测量领域的主心骨,但只是捷径。它的成功依赖于采样的绝对随机性,这是非常困难的。

2.不是精确性,而是混杂性。大数据通常用概率说话,而非确凿无疑。麻神理工与通货紧缩预测软件;hadoop与VISA的13分钟;ZestFinance。

3.不是因果关系,而是相互关系。亚马逊推荐系统;关联物,预测的关键;Target与怀孕预测;相关关系,清晰的新视角(因果关系可能会被蒙蔽掉的);

将“样本=总体”植入思维。
接受混乱和不确定性。
侧重于是什么,而非为什么。

数据化,一切皆可量化

莫里的导航图,大数据的最早实践之一;
数据化:把现象转变成可制表分析的量化形式的过程。
谷歌的数字图书馆;多效地理定位和UPS的最佳行车路径。

价值

数据的基本用途为信息的搜集和处理提供了依据。
数据的价值不会随着它的使用而减少,可以不断地被处理。
数据的潜在价值:IBM与电动汽车动力与电力供应系统优化预测
释放数据的潜在价值:基本再利用、数据集整合、寻找“一分钱两份货”;数据的折旧值、数据废弃、开放数据。

数据再利用
亚马逊与AOL的对比;Google与Nuance

重组数据
总和比部分更有价值

可扩展数据
零售店监控摄像头(安保、客户流动向);谷歌街景与GPS采集

数据的折旧值
随着时间的推移,大多数数据都会失去一部分基本用途,但潜在价值依然强大。

数据废气
微软和谷歌的拼写检查:那些“不合标准”、“不正确”或“有缺陷”的数据也是非常有用的。
数据废气:它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。
NOOK快照

开放数据
奥巴马就职第一天的总统备忘录“面对怀疑,公开优先”、data.gov
FlyOnTime的航班时间预测:交互地判断恶劣天气使某一特定机场的航班延迟的可能性有多大。

给数据估值
公司账面价值和市场价值之间的差额被记为“无形资产”…将数据授权给第三方
DataMarket-Find, Understand and Share Data,提供其他机构(如联合国、世界银行和欧盟统计局等)的免费数据集,靠倒卖商业供应商(如市场研究公司)的数据来获利。
InfoChimps,信息中间人。

角色定位:数据、技术与思维的三足鼎立
大数据价值链的3个构成:基于数据本身的公司、基于技能的公司(譬如分析)、基于思维的公司(有怎样挖掘数据新价值的独特想法)。

ITA software为Farecast提供数据,自身并不进行这种数据分析。商业定位不一样,需要“尽量避免用任何数据来暴露航空公司的利润问题”。

价值链的核心?VISA和MasterCard的商户推荐

埃森哲的无线传感器案例;微软的Amalga系统

FlightCaster的大数据思维:分析过去十年里每个航班的情况,然后将其与过去和现实的天气情况进行匹配,预测航班是否晚点。数据拥有者没有这样使用数据的动机和强制要求。

所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。

全新的数据中间商
很多行业已经有过信息共享,如保险、银行、能源和通信,在这些行业里信息溜溜是避免问题最重要的一环,监管部门也要求他们信息互通。但数据进入市场,可以被挖掘出新的价值。

交通数据处理公司Inrix(上下班高峰交通变好,说明失业率增加了)

这些中间人收益丰厚,但并不威胁到为其提供数据的数据拥有者的利润。

随着数据价值转移到数据拥有者手上,传统的商业模式也被颠覆。

大数据,决定企业竞争力

劳斯莱斯出售发动机,同时通过按时计费的方式提供有偿监控服务,一旦出现问题还进一步提供维修和更换服务。

苹果在于运营商签订的合约中规定运营商提供给它大部分的有用数据。

所有的公司都能通过巧妙地挖掘数据价值获得利益。数据能优化生产和服务,甚至催生新的行业。

让数据主宰一切的隐忧

1989年柏林墙倒塌之前,民主德国Stasi时刻监视民众的一举一动,导致人与人之间丧失了最基本的信任。
1943年美国人口普查局递交了地址数据来帮助美国政府拘留日裔美国人。
荷兰著名的综合民事记录数据则被纳粹用来搜捕犹太人……
互联网时代,隐私受到威胁,大数据更加深化了。

有意识避免的某些信息成为此地无银。模糊化不可用。

匿名化不可用。

预测与惩罚不是因为“所做”,而是因为“将做”。

数据独裁
麦克纳马拉的越战数据案例
谷歌招聘的案例
盲目信任数据的力量和潜能而忽略局限性:卓越的才华并不依赖数据(乔帮主的产品哲学)、不能为数据而数据

掌控:责任与自由并举的信息管理

1. 个人隐私保护,从个人许可到让数据使用者承担责任。

2.个人可以并应该为他们的行为而非倾向负责。

3.击碎黑盒子,大数据算法师的崛起(外部+内部)

4.反数据垄断大亨,防止数据垄断的出现。

大数据提供的是参考答案,而不是最终答案。