藏经阁-Real-time Platform for Second Look Use Case using Spark and
藏经阁-Real-time Platform for Second Look Use Case using Spark and Cassandra 在大数据时代,数据科学家和工程师面临着一个巨大的挑战,即如何快速、准确地处理和分析大量数据,以便进行预测和决策。在 Comcast 公司,Sridhar Alla 和 Shekhar Agrawal 提出了一个实时的大数据平台,即 Sparkle,用于解决数据科学中的第二次查看用例。 Sparkle 平台的主要特点是使用 Apache Spark 和 Cassandra 构建的实时数据处理系统,具有高度可扩展性、持久化缓存、SQL能力和机器学习能力等特点。该平台可以满足 Comcast 公司的各种数据需求,从日志分析到客户电话分析、 churn 模型、价格弹性、地理空间路由优化等。 Sparkle 平台的架构主要由三个部分组成:Perpetual Spark Engine、RESTful API 和 Connectors。Perpetual Spark Engine 是 Sparkle 的核心引擎,负责处理和分析大量数据。RESTful API 是一个控制面板,允许用户通过低级语言访问和控制 Sparkle 平台。Connectors 是一组插件,用于连接各种数据源,如 Cassandra、Hbase、MongoDB 等。 Sparkle 平台的特点包括: * 高度可扩展性:Sparkle 平台可以处理大量数据,并且可以水平扩展以满足不断增长的数据需求。 * 持久化缓存:Sparkle 平台使用缓存来存储数据,以提高数据处理速度。 * SQL 能力:Sparkle 平台支持 SQL 查询,允许用户使用熟悉的 SQL 语句来查询数据。 * 机器学习能力:Sparkle 平台支持机器学习算法,如 Logistic Regression、Neural Networks、LDA 等。 * 多租户:Sparkle 平台支持多租户,允许多个用户共享同一个平台。 Sparkle 平台的应用场景包括: * 客户电话分析:Sparkle 平台可以用于分析客户电话记录,以预测客户流失率和降低客户服务成本。 * Churn 模型:Sparkle 平台可以用于构建 churn 模型,以预测客户流失率。 * 价格弹性:Sparkle 平台可以用于分析价格弹性,以预测产品销售额。 * 地理空间路由优化:Sparkle 平台可以用于优化地理空间路由,以降低物流成本。 Sparkle 平台是一个强大且灵活的实时大数据平台,能够满足 Comcast 公司的各种数据需求,并具有高度可扩展性、持久化缓存、SQL 能力和机器学习能力等特点。 知识点: * Apache Spark 是一个开源的数据处理引擎,能够快速处理大量数据。 * Cassandra 是一个 NoSQL 数据库,能够存储大量数据。 * RESTful API 是一个基于 HTTP 的 API,允许用户使用低级语言访问和控制平台。 * 机器学习是数据科学的一个重要分支,用于预测和分类数据。 * 多租户是指多个用户共享同一个平台,以提高资源利用率。 * 数据科学是一门跨学科的科学,涉及到数学、统计学、计算机科学和 domain knowledge 等。
剩余28页未读,继续阅读
- 粉丝: 84
- 资源: 1万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助