单选题(30 题)
1、Task 运行在下面哪个选项中 Executor 上的工作单元 ( )
A.Driver program B.spark master C.worker node D.Cluster manager
2、( )是一个交互式笔记本,支持运行 40 多种编程语言
A.PySpark B.Jupyter Notebook C.Anaconda D.Pycharm
3、( )是负责实时流处理的应用。
A.Spark Streaming B.Spark SQL C.MLlib D.GraphX
4、( ) 是 spark 最基本的数据抽象。
A.Spark Streaming B.Spark SQL C.MLlib D.RDD
5、下面哪个端口不是 spark 自带服务的端口 ( )
A.8080 B.4040 C.8090 D.18080
6、在 vi 中退出不保存的命令是? ( )
A. :q B. :w C. :wq D. :q!
7、一个父 RDD 的 Partition 会被多个子 RDD 的 Partition 所使用,这种依赖为:( )
A.窄依赖 B.宽依赖 C.全依赖 D.不依赖
8、使用( )给 DataFrames 数据去重
A.orderBy B.distinct C.count D.groupBy
9、在一次机器学习中,数据中无标签值,那么该学习就是( )
A.监督学习 B.无监督学习 C.强化学习 D.自我学习
10、( )最早是 Cloudera 提供的日志收集系统,目前是 Apache 下的一个孵化项目,支持在
日志系统中定制各类数据发送方,用于收集数据的工具。
A.Flume B.Zookeeper C.Storm D.Sparkstreaming
11、我们通常使用下列哪个库来处理数据、提取特征:( )
A.sklearn B.Weka C. Java-ML D.MALLET
12、下列哪个选项是在 Spark 平台下,面向大规模图计算的组件,通过引入属性图,构建
图计算础模型:( )
A.GraphLab B.Pregel C.Giraph D.GraphX
13、下列哪一个不属于 GraphFrames 库的优点:( )
A.多语言支持 B.强大的查询能力
C.支持所有的图形模型 D.保存和载入图模型
14、GraphFrames 中最短路径的 API 为:( )
A.bfs(fromExpr, toExpr, edgeFilter=None, maxPathLength=10)
B.labelPropagation(maxIter)
C.shortestPaths(landmarks)
D.pageRank(resetProbability=0.15, sourceId=None, maxIter=None, tol=None)
15、下列哪个选项不是 GraphFrame 提供的基本视图:( )
A.顶点表视图 B.边表视图 C.模式视图 D.三角视图
16、GraphX 中最基本的数据结构不包含哪一项?( )
A.顶点 B.边 C.边三元组 D.角
17、( )可用于发现网络中环,经常用于社交网络,发现社交圈子,算法使用顶点 ID 标注
图中每个连通体,将连通体中序号最小的顶点的 ID 作为连通体的 ID
A.三角形计数 B.连通分量 C.标签传播算法 D.PageRank 算法
18、( )用于确定通过图数据集中每个顶点的三角形数量。当计算三角形个数时,图都被作
为无向图处理,平行边仅计算一次,自环则会被忽略。