在时间分布和数量上无限的一系列动态数据集合体。
2.试述流数据的特点。
数据量大,但是不十分关注存储;注重数据的整体价值,不过分
关注个别数据;
数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的
数据元素的顺序。
3.在流计算中的理念中,数据的价值与时间具备怎样的关系?
数据的价值随着时间的流逝而降低。
高性能、海量式、实时性、分布性、易用性、可靠性。
5.试述 MapReduce 框架为何不适合用于处理流数据。
完成一个任务甚至需要经过多轮的迭代,很显然不能满足在时间
延迟方面的实时响应需求。
6.将基于 MapReducee 的批量处理转为小批量处理,每个一个周期就
启动一次 MapRedcue 作业,通过这样的方式来处理流数据是否可行?
为什么?
切分成小的片段的同时也增加了任务处理的附加开销,还要处理
片段之间的依赖关系;