没有合适的资源？快使用搜索试试~ 我知道了~

文库首页操作系统OS藏经阁-Apache Spark at Scale_ A 60 TB+ production use case.pdf

藏经阁-Apache Spark at Scale_ A 60 TB+ production use case.pdf

阿里云

需积分: 5 0 下载量 184 浏览量 2023-08-26 15:13:23 上传评论收藏 1.79MB PDF 举报

温馨提示

试读

26页

藏经阁-Apache Spark at Scale_ A 60 TB+ production use case.pdf

资源推荐

资源详情

资源评论

Apache Spark at Scale: A 60 TB+

production use case

Sital Kedia

Facebook

Agenda

•

Use case: Entity ranking

•

Previous Hive implementation

•

Spark implementation

•

Performance comparison

•

Reliability improvements

•

Performance improvements

•

Conﬁguration tuning

Use case: Entity ranking

•

Used to serve realtime queries to rank entities

•

Entity can be users, places, pages etc

•

Raw features generated oﬄine using Hive and loaded onto the

system for real-time query.

Previous Hive implementation

INSERT OVERWRITE TABLE tmp_table1!

PARTITION ( . . .)

SELECT entity_id, target_id, feature_id, feature_value

FROM input_table!

WHERE ...

INSERT OVERWRITE TABLE tmp_table2!

PARTITION ( . . .)

SELECT entity_id, target_id, AGG(feature_id, feature_value)

FROM tmp_table1!

SELECT TRANSFORM (entity_id % SHARDS as shard_id, ...) !

USING 'indexer' -- writes indexed ﬁles to hdfs

AS shard_id, status!

FROM tmp_table2

Input table

tmp_table1

tmp_table2

indexed!

hdfs_ﬁles

•

60 TB + compressed input

data size

•

Split into hundreds of smaller

hive jobs sharded by entity id

•

Unmanageable and slow

Filter

Aggregate

Shard

剩余25页未读，继续阅读

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

weixin_40191861_zj

粉丝: 63
资源: 1万+

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

藏经阁-Apache Spark at Scale_ A 60 TB+ production use case.pdf

藏经阁-Tuning Apache Spark for Large Scale Workloads.pdf

藏经阁-Challenging Web Scale Graph Analytics with Apache Spark.pdf

藏经阁-Yelp Ad Targeting at Scale with Apache Spark.pdf

藏经阁-Apache Spark MLlib_'s Past Trajectory and New Directions.pdf

藏经阁-Deep Dive into Catalyst_ Apache Spark _'s Optimizer.pdf

藏经阁-Apache Spark_ Cloud and On-Prem.pdf

藏经阁-_基于 Apache_ Spark_ 的大规模 分布式机器学习实践.pdf

藏经阁-Apache Spark -Apache HBase Con.pdf

藏经阁-PostgresChina2018_唐建法_MongoDB_4.0_开创_NoSQL_＋_ACID新纪元.pdf

藏经阁-PostgresChina2018_肖斐_PostgreSQL数据库时空引擎Ganos.pdf

藏经阁-PostgresChina2018_周飞_PG在Hellobike的应用.pdf

藏经阁-PostgresChina2018_李海龙_Qunar的PostgreSQL运维实践.pdf

藏经阁-Deep Dive into Catalyst_ Apache Spark 's Optimizer.pdf

藏经阁-Apache Spark – Apache HBase Connector.pdf

藏经阁-Apache Spark on Kubernetes.pdf

藏经阁-Apache Spark & SPARK SUMMIT Ci.pdf

藏经阁-APACHE SPARK FOR MACHINE.pdf

藏经阁-ApacheSpark’sPerformanceProjec.pdf

藏经阁-Apache Spark & Citizen Science.pdf

操作系统学习与考试系统(XOSCATS)

SquareLine-Studio 1.3.0安装包

王道操作系统课件 2024

C语言规范标准-C99(中文版)

ELF解析工具 v1.7（elf格式解析工具)

计算机组成原理：最详细笔记 word格式下载

KeepOutlookRunning.7z

dell r730xd 调速工具

贵州电信天邑TY1613-s905l3-b-rtl8822cs当贝固件刷机教程

最新资源

藏经阁-_基于 Apache_ Spark_ 的大规模分布式机器学习实践.pdf