【免费】研究生毕业论文中所用到的聚类算法的Spark实现，以及在调研过程中收集到的聚类算法.zip资源-CSDN文库

共40个文件

scala：14个

java：8个

xml：3个

需积分: 0 144 浏览量 2023-12-11 22:04:46 上传评论收藏 63KB ZIP 举报

本科研究生毕业设计论文模板（非官方，仅供参考，使用前请务必自己再检查一遍字体等格式是否正确！）本科研究生毕业设计论文模板（非官方，仅供参考，使用前请务必自己再检查一遍字体等格式是否正确！）本科研究生毕业设计论文模板（非官方，仅供参考，使用前请务必自己再检查一遍字体等格式是否正确！）本科研究生毕业设计论文模板（非官方，仅供参考，使用前请务必自己再检查一遍字体等格式是否正确！）本科研究生毕业设计论文模板（非官方，仅供参考，使用前请务必自己再检查一遍字体等格式是否正确！）本科研究生毕业设计论文模板（非官方，仅供参考，使用前请务必自己再检查一遍字体等格式是否正确！）本科研究生毕业设计论文模板（非官方，仅供参考，使用前请务必自己再检查一遍字体等格式是否正确！）本科研究生毕业设计论文模板（非官方，仅供参考，使用前请务必自己再检查一遍字体等格式是否正确！）本科研究生毕业设计论文模板（非官方，仅供参考，使用前请务必自己再检查一遍字体等格式是否正确！）本科研究生毕业设计论文模板（非官方，仅供参考，使用前请务必自己再检查一遍字体等格式是否正确！）本科研究生毕业设计论文模板（非官方，仅供参考，使用前请务必自己再检查一遍字体等格式是否正确！）本科研究生毕业设计论文模板（非官方，仅供参考，使用前请务必自己再检查一遍字体等格式是否正确！）本科研究生毕业设计论文模板（非官方，仅供参考，使用前请务必自己再检查一遍字体等格式是否正确！）本科研究生毕业设计论文模板（非官方，仅供参考，使用前请务必自己再检查一遍字体等格式是否正确！）本科研究生毕业设计论文模板（非官方，仅供参考，使用前请务必自己再检查一遍字体等格式是否正确！）本科研究生毕业设计论文模板（非官方，仅供参考，使用前请务必自己再检查一遍字体等格式是否正确！）本科研究生毕业设计论文模板（非官方，仅供参考，使用前请务必自己再检查一遍字体等格式是否正确！）本科研究生毕业设计论文模板（非官方，仅供参考，使用前请务必自己再检查一遍字体等格式是否正确！）本科研究生毕业设计论文模板（非官方，仅供参考，使用前请务必自己再检查一遍字体等格式是否正确！）本科研究生毕业设计论文模板（非官方，仅供参考，使用前请务必自己再检查一遍字体等格式是否正确！）

资源推荐

资源详情

资源评论

收起资源包目录

研究生毕业论文中所用到的聚类算法的Spark实现，以及在调研过程中收集到的聚类算法.zip （40个子文件）

21211

hierarchical clustering on spark

pom.xml 2KB

src

.DS_Store 6KB

main

.DS_Store 6KB

java

.DS_Store 6KB

SparkPinkMST

UnionFind.java 2KB

DataSplitter.java 13KB

Point.java 3KB

Edge.java 583B

PointWritable.java 2KB

PinkKryoRegistrator.java 321B

Pink.java 11KB

PinkMST.java 11KB

sparkConfig 511B

run.py 1KB

.gitignore 13B

run 238B

README.md 798B

dbscan-on-spark

pom.xml 4KB

src

test

resources

labeled_data.csv 30KB

org

apache

spark

log4j-defaults.properties 681B

scala

org

apache

spark

mllib

clustering

dbscan

DBSCANGraphSuite.scala 2KB

LocalDBSCANArcherySuite.scala 2KB

EvenSplitPartitionerSuite.scala 2KB

DBSCANSuite.scala 2KB

util

MLlibTestSparkContext.scala 1KB

main

scala

SampleDBSCANJob.scala 2KB

org

apache

spark

mllib

clustering

dbscan

DBSCANLabeledPoint.scala 1KB

DBSCANPoint.scala 1KB

DBSCAN.scala 9KB

DBSCANGraph.scala 2KB

LocalDBSCANArchery.scala 3KB

LocalDBSCANNaive.scala 3KB

DBSCANRectangle.scala 2KB

EvenSplitPartitioner.scala 6KB

LICENSE 11KB

dbscan-on-spark_2.10.iml 15KB

.gitignore 57B

scalastyle-config.xml 8KB

README.md 3KB

README.md 633B

# DBSCAN on Spark ### Overview [DBSCAN clustering algorithm](http://en.wikipedia.org/wiki/DBSCAN) 的实现 on top of [Apache Spark](http://spark.apache.org/). It is loosely based on the paper from He, Yaobin, et al. ["MR-DBSCAN: a scalable MapReduce-based DBSCAN algorithm for heavily skewed data"](http://www.researchgate.net/profile/Yaobin_He/publication/260523383_MR-DBSCAN_a_scalable_MapReduce-based_DBSCAN_algorithm_for_heavily_skewed_data/links/0046353a1763ee2bdf000000.pdf). I have also created a [visual guide](http://www.irvingc.com/visualizing-dbscan) that explains how the algorithm works. ### Current vesion of DBSCAN is dbscan-on-spark_2.10:0.2.0-SNAPSHOT Be aware that current version of DBSCAN in this repo is : <groupId>com.irvingc.spark</groupId> <artifactId>**dbscan-on-spark_2.10**</artifactId> <version>**0.2.0-SNAPSHOT**</version> It is not present in any official repository and to make it work, you need to build it yourself. ### Getting DBSCAN on Spark Version 0.1.0 of DBSCAN on Spark is published to [bintray](https://bintray.com/). If you use SBT you can include SBT in your application adding the following to your build.sbt: ``` resolvers += "bintray/irvingc" at "http://dl.bintray.com/irvingc/maven" libraryDependencies += "com.irvingc.spark" %% "dbscan" % "0.1.0" ``` If you use Maven or Ivy you can use a similar resolver, but you just need to account for the scala version (the example is for Scala 2.10): ``` ... <repositories> <repository> <id>dbscan-on-spark-repo</id> <name>Repo for DBSCAN on Spark</name> <url>http://dl.bintray.com/irvingc/maven</url> </repository> </repositories> ... <dependency> <groupId>com.irvingc.spark</groupId> <artifactId>dbscan_2.10</artifactId> <version>0.1.0</version> </dependency> ``` DBSCAN on Spark is built against Scala 2.10. ### Example usage I have created a [sample project](https://github.com/irvingc/dbscan-on-spark-example) showing how DBSCAN on Spark can be used. The following however should give you a good idea of how it should be included in your application. ```scala import org.apache.spark.mllib.clustering.dbscan.DBSCAN object DBSCANSample { def main(args: Array[String]) { val conf = new SparkConf().setAppName("DBSCAN Sample") val sc = new SparkContext(conf) val data = sc.textFile(src) val parsedData = data.map(s => Vectors.dense(s.split(',').map(_.toDouble))).cache() log.info(s"EPS: $eps minPoints: $minPoints") val model = DBSCAN.train( parsedData, eps = eps, minPoints = minPoints, maxPointsPerPartition = maxPointsPerPartition) model.labeledPoints.map(p => s"${p.x},${p.y},${p.cluster}").saveAsTextFile(dest) sc.stop() } } ``` ### License DBSCAN on Spark is available under the Apache 2.0 license. See the [LICENSE](LICENSE) file for details.

评论收藏

内容反馈