大数据科普:大数据后台层次角色及数据流向.doc
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
大数据科普:大数据系统后台层次角色 及数据流向 最近有不少质疑大数据的声音,这些质疑有一定的道理,但结论有些以偏概全,应该 具体问题具体分析。对大数据的疑问和抗拒往往是因为对其不了解,需要真正了解之后 才能得出比较客观的结论。 大数据是一个比较宽泛的概念,它包含大数据存储和大数据计算,其中大数据计算 可大致分为计算逻辑相对简单的大数据统计,以及计算逻辑相对复杂的大数据预测。下 面分别就以上三个领域简要分析一下: 第一,大数据存储解决了大数据技术中的首要问题,即海量数据首先要能保存下来 ,才能有后续的处理。因此大数据存储的重要性是毫无疑问的。 第二,大数据统计是对海量数据的分析统计和轻度挖掘,例如统计海量用户产品的 日/月活跃度、用户基于地区的分布、用户历史操作、运营侧数据指标等,这些需要大数 据计算平台的支持才能实现,对于拥有海量用户的互联网公司来说是不可或缺的技术。 第三,大数据预测领域才是争议最多的领域。事实上,预测必有误差、必有小概率 事件,大数据预测的背后是各种机器学习/模式识别等深度挖掘算法,这些算法只是工具 而已,用得好不好、恰不恰当还是要看应用的领域和使用 大数据是信息技术领域的一个重要概念,涉及数据的存储、分析和预测等多个方面。在这个宽泛的领域中,大数据存储、大数据统计和大数据预测是其核心组成部分。 大数据存储是大数据技术的基础,它解决了海量数据的保存问题。大数据存储系统通常采用分布式架构,能够处理PB级别的数据,如Hadoop的HDFS(Hadoop Distributed File System)就是一种典型离线存储系统,适用于对数据访问响应时间要求较低的场景。为了保证数据的安全性和可靠性,不同的硬件配置方案会被选用,如SATA、RAID或SAS硬盘,以及千兆或万兆网卡来适应不同的网络需求。随着SSD成本的降低,它也成为高IO性能应用的理想选择。 大数据统计则关注对大量数据的分析和轻度挖掘,例如用户行为分析、地理位置分布等。这些任务需要大数据计算平台的支持,如Hadoop MapReduce或Spark等。这些平台能够处理大规模数据集,为互联网公司提供关键的运营指标。 大数据预测是大数据技术最具争议的部分,它涉及到机器学习和模式识别等深度挖掘算法。尽管预测可能存在误差和小概率事件,但正确应用这些算法可以在某些领域产生显著价值。例如,推荐系统、市场趋势预测等。然而,预测的准确性和实用性高度依赖于算法选择、数据质量和团队的专业能力。 在大数据系统的后台层次中,软件层面包括云存储层和计算层。云存储层一般分为离线存储和在线存储,如HDFS提供离线存储,而Memcached和Redis等提供在线存储和缓存功能。在线计算层则分为离线计算(如MapReduce)和实时计算(如Storm或Spark Streaming),满足不同时效性的计算需求。数据管道系统,如消息队列,用于不同计算层间的通信和数据传输。 大数据预测的精准度要求很高,因此只有少数产品能够真正做到这一点。为了保证服务的高可用性,多机房、多城市容灾部署成为必要。虚拟机技术允许资源的高效复用和精细化管理,进一步优化大数据平台的性能和稳定性。 总结起来,大数据不仅仅是存储和处理大量数据的技术,它包含了从数据收集到分析再到预测的一系列复杂流程。理解大数据的后台层次角色和数据流向对于评估和利用大数据技术至关重要,同时也提醒我们,批判大数据时需要具体问题具体分析,因为其价值取决于应用场景和实施策略。
- 粉丝: 195
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助