大数据时代经典语录
大数据时代经典语录
正文:
第一章:样本 =全体
统计学家证明,采样分析的精确性随着采样随机性的增加而大幅度提高,
但与样本数量的增加关系不大。随机采样取得了巨大的成功,但是他的成功利亚与
采样的绝对随机性,实现采样的随机性非常困难,一旦采样过程中存在任何偏见,
分析结果就会相去甚远。 搜集的数据越来越多,分析和预测结果就会越来越准
确,并发现一些细节和微乎其微的重要问题。
有些情况下,异常值才是重要的信息,大数据的处理方法就不会错过这个
异常值。商务是即时的,因此数据分析也应该是即时的。 《魔鬼经济学》
大数据是指不用随机分析法这样的捷径,而是通过采用所有数据的方法。
数据量不一定很大,但需要全部,包含了所有的信息。
Lytro 相机记录整个光场的信息,搜集了所有的数据,拍摄完之后再对
焦,而且有“可循环利用性”。 《爆发》
第二章:混杂性。
只有 5%的数据是结构化的,可以适用于传统数据库,如果不接受混乱,
剩下 95%的非结构化数据都无法被利用。
少量数据下运行最佳的算法,可能在大数据下可能会表现差强人意,在少
量数据下表现差的算法,可能在大数据下惊呆小伙伴们。大数据的简单算法比小数
据的复杂算法更有效,混杂是关键。
谷歌翻译之所以好,除了数据量庞大以外,还接受了有错误的数据,即来
自互联网的废弃内容。
Hadoop 超大量数据下的分布式处理,假设系统瘫痪而建立数据副本,假
定数据量巨大无法移动,人们必须在本地进行数据分析。它的输出结果不想关系型
数据库那般精确,无法用于卫星发射、开具银行账户明细,但是运行却快很多。
第三章 不是因果关系,而是相关关系