Mapreduce实现KNN算法和K-means算法.zip_bottleudc_hadoop_java_mapReduce_p

共1个文件

pdf：1个

版权申诉

hadoop

java

mapreduce

pdf

5星 · 超过95%的资源 117 浏览量 2022-09-23 03:47:51 上传评论 1 收藏 983KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

Mapreduce实现KNN算法和K-means算法.zip （1个子文件）

Mapreduce实现KNN算法和K-means算法.pdf 1.05MB

Mapreduce實現KNN算法和K-means算法

⼀.使⽤平台及算法介紹

①hadoop

Hadoop是⼀個這合⼤數據的分布式存儲和計算平臺。框架主要由HDFS和MapReduce組

成︔

HDFS:Hadoop Distributed File System分布式⽂件系統,⽤來管理⽂件的，在hdfs上存儲的數

據是分散很多服務器之上的,但是⽤⼾感覺不到,⽂件真的分布在很多臺機器上,就像壹臺機器

上似的。

MapReduce：分布式並⾏計算框架.實現的是分布式計算,⼤數據分布在很多臺服務器上,需

要它去並⾏地去執⾏。

運⾏原理：

MapReduce程序的執⾏過程分为兩個階段：Mapper階段和Reducer階段。

其中Mapper階段可以分為6個步驟：

第壹階段：先將 HDFS中的輸入⽂件 ﬁle按照壹定的標準進⾏切⽚，默認切⽚的類為

FileInputFormat，通過切⽚輸入⽂件將會變成split1、split2、split3……︔隨後對輸入切⽚split

按照⼀定的規則解析成鍵值對<k1,v1>,默認處理的類為TextInputFormat。其中k1就是我們常說

的起始偏移量，v1就是⾏⽂本的內容。

第⼆階段：調⽤⾃⼰編寫的map邏輯，將輸入的鍵值對<k1，v1>變成<k2，v2>。在這裏要注

意：每⼀個鍵值對<k1,v1>都會調⽤⼀次map函數。

第三階段：按照⼀定的規則對輸出的鍵值對<k2,v2>進⾏分區：分區的規則是針對k2進⾏的，

比如說k2如果是省份的話，那麽就可以按照不同的省份進⾏分區，同⼀個省份的k2劃分到⼀

個區。注意：默認分區的類是HashPartitioner類，這個類默認只分為⼀個區，因此Reducer任

務的數量默認也是1.

第四階段：對每個分區中的鍵值對進⾏排序。註意：所謂排序是針對k2進⾏的，v2是不參與

排序的，如果要讓v2也參與排序，需要⾃定義排序的類，具體過程可以參看博主⽂章。

第五階段：排序完之後要進⾏分組，即相同 key的 value放到同⼀個集合當中，例如在

WordCount程序中的<hello,{1,1}>執⾏的就是這個步驟，但是要注意：分組也是針對key進⾏

的，經過分組完之後，就得到了我們熟悉的鍵值對<k2,v2s>.

第六階段（可選）：對分組後的數據進⾏歸約處理。通過歸約處理鍵值對<k2，v2s>變成了

<k2,v2>，經過這⼀階段，傳送到Reducer任務端的數據量會減少。但是規約的使⽤是有條件

的，所以這⼀階段是可以選擇的。

Mapper任務處理完之後，就進入到了我們的Reducer階段： Reducer任務的執⾏過程可以分為3

個階段：

第⼀階段：對多個Mapper任務的輸出，按照不同的分區，通過網絡拷⾙到不同的Reducer節點

上進⾏處理，將數據按照分區拷⾙到不同的Reducer節點之後，對多個Mapper任務的輸出在進

⾏合並，排序。例如：在WordCount程序中，若⼀個Mapper任務輸出了<hello,{1,1}>，另外⼀

個Mapper任務的輸出為<hello,{1,1,1}>，經過在次合並之後變為<hello,{1,1,1,1,1}>.

第⼆階段：調⽤⾃⼰的reduce邏輯，將鍵值對<k2,v2s>變為<k3,v3>.在這裏注意：每⼀個鍵值

對<k2,v2s>都會調⽤⼀次reduce函數。

第三階段：將Reducer任務的輸出保存到HDFS指定的⽂件中。

②KNN算法

KNN算法又稱為k近鄰分類(k-nearest neighbor classification)算法。最簡單平凡的分類器。KNN

算法則是從訓練集中找到和新數據最接近的k條記錄，然後根據他們的主要分類來決定新數據

的類別。該算法涉及3個主要因素：訓練集、距離、k的⼤⼩。可⽤於客⼾流失預測、欺詐偵

測等（更適合於稀有事件的分類問題）。

計算步驟如下：!

1）計算距離：給定測試對象，計算它與訓練集中的每個對象的距離。距離計算可以選擇歐

氏距離、曼哈頓距離、余弦距離等。計算距離之前最好對數據進⾏規範化處理，以便於更好

的計算。!

2）尋找鄰居：圈定距離最近的k個訓練對象，作為測試對象的近鄰。K值的選擇可以通過

若⼲試驗，選取分類誤差最⼩的K值。!

3）判斷分類：根據這k個近鄰歸屬的主要類別，來對測試對象分類。判定⽅式主要是投票

決定，少數服從多數，近鄰中哪個類別的點最多就分為該類。也可以通過加權投票⽅法來決

定。

優點：!

簡單，易於理解，易於實現，無需估計參數，無需訓練!

適合對稀有事件進⾏分類（例如當流失率很低時，比如低於0.5%，構造流失預測模型）!

特別適合於多分類問題(multi-modal,對象具有多個類別標簽)，例如根據基因特征來判斷其功

能分類，KNN比SVM的表現要好!

缺點：

計算開銷⼤，需要有效的存儲技術和並⾏硬件的⽀撐。

可解釋性較差，無法給出決策樹那樣的規則。

③K-means算法

K-means算法是輸入聚類個數k，以及包含 n個數據對象的數據庫，輸出滿󰨤差最標

準k個聚類的種算法。k-means 算法接受輸入󰮢 k ；然後將n個數據對象劃分為 k個聚類以

使得所獲得的聚類滿󰨤：同壹聚類中的對象相似度較󰷼；󰖳不同聚類中的對象相似度較

。聚類相似度是󰉁各聚類中對象的均值所獲得個“中對象”（引中）󲫖進󰢩計算

的。

k-means 算法基本步驟

（1）從 n個數據對象任意選擇 k 個對象作為初始聚類中；

（2）根據每個聚類對象的均值（中對象），計算每個對象與這些中對象的距離；

並根據最距離重新對相應對象進󰢩劃分；

（3）重新計算每個（有變化）聚類的均值（中對象）；

（4）計算標準測度函數，當滿󰨤定條件，如函數收斂時，則算法終；如果條件不

滿󰨤則回到步驟（2）。

、實驗內容

KNN：

我們主要把KNN的代碼分為四部分，InitPoints（訓練），Map，Reduce，Main；

對於InitPoints函數，主要就是󰢩󰢩地讀取訓練集件裏的訓練點，然後存儲在

point_trainning中：

Map：

⽂件分⽚後，⼀個⽂件分⽚對應⼀個map，然後進入到Map的運⾏階段，map是需要我們實現

的函數。每讀⼀⾏數據，就會運⾏⼀次map。在這裏，參數key是這⼀⾏的起始偏移量，value

是這⼀⾏的數據。那麽對於這⼀⾏數據，我們需要計算它與訓練集中所有數據的距離，就是

在遍歷訓練集集合，算出距離，然後寫入鍵值對，鍵是該⾏輸入，也就是輸入map的鍵值對

中的值，⽽值是與本條測試數據距離訓練數據的距離。

Reduce：

在reduce裏需要實現的就是對離測試點的距離進⾏排序，然後取出最近的K個點，然後統計這

K個點的類型，出現的最多的類型就是這個測試點的類型。

Main：

⾸先構建⼀個job，在mapreduce框架裏⼀個mapreduce任務也叫mapreduce作業也叫做⼀個

mapreduce的job，⽽具體的map和reduce運算就是task了，這裏我們構建⼀個job，構建時候有

兩個參數，⼀個是配置信息，⼀個是這個job的名稱。然後加載我們編譯好的⽂件，程序的類

评论收藏

内容反馈

版权申诉

NAFLFTHAGN

2022-11-14

资源内容详尽，对我有使用价值，谢谢资源主的分享。
lijian0088

2023-06-21

超赞的资源，感谢资源主分享，大家一起进步！

寒泊

粉丝: 75
资源: 1万+

Mapreduce实现KNN算法和K-means算法.zip_bottleudc_hadoop_java_mapReduce_p

基于Java实现 KNN（K-近邻分类）算法【100013029】

云计算MapReduce实现KNN算法

基于Hadoop平台的KNN分类器的优化和实现

基于MapReduce和分布式缓存的KNN分类算法研究

MapReduce-KNN:（java）Hadoop MapReduce的K最近邻实现

knn.zip_knn_knn算法_实现KNN算法java

hadoop_kmeans_algorithm:使用java在Hadoop中实现的k-means算法

基于Hadoop实现的MapReduce架构编写的KNN算法+源代码+文档说明.zip

KNN算法基于Hadoop平台的MapReduce实现.zip

KNN分类算法的MapReduce并行化实现1

KNN算法基于Hadoop平台实现的的MapReduce实现+源代码+文档说明

竞赛资料源码-基于Hadoop的MapReduce架构编写的KNN算法.zip

KNN分类算法的MapReduce并行化实现 (2013年)

数据算法 Hadoop Spark大数据处理技巧

Hadoop大数据开发基础.rar

STM32CubeMX安装包(版本:6.9.0) 附带 Java安装包(版本:371) - -2023年7月14日

基于spring boot的小区物业管理系统源码+论文+答辩ppt

最新Java JDK 8安装版（Windows 64位）

Java实现ocr图片识别（PaddleOCR）飞桨

自主研发的软著申请代码文档整理输出工具

毕业设计-基于JAVA的springboot超市进销存系统(源代码+论文）

Java 面经手册·小傅哥.pdf

java-11 windows-x64 安装包

Java面试八股文2023最新版

2024最强Java面试八股文

JDK1.8 windows 64位

人大金仓驱动包kingbasejdbc.jar V8.6.0、8.8.0驱动jar包

JavaWeb仿小米在线商城ShoppingMall

最新资源