基于hadoop实现的评价预测系统+源代码+文档说明

共139个文件

gif：75个

js：20个

java：14个

版权申诉

hadoop

毕业设计

195 浏览量 2023-12-16 23:08:17 上传评论收藏 2.15MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

基于hadoop实现的评价预测系统+源代码+文档说明（139个子文件）

layui.css 71KB

layer.css 14KB

layui.mobile.css 10KB

laydate.css 7KB

code.css 1KB

iconfont.eot 38KB

59.gif 10KB

22.gif 10KB

24.gif 8KB

13.gif 7KB

16.gif 7KB

39.gif 6KB

64.gif 6KB

63.gif 6KB

50.gif 6KB

loading-0.gif 6KB

4.gif 6KB

1.gif 5KB

42.gif 5KB

71.gif 5KB

21.gif 5KB

20.gif 5KB

29.gif 5KB

70.gif 4KB

5.gif 4KB

17.gif 4KB

27.gif 4KB

9.gif 4KB

44.gif 4KB

11.gif 4KB

8.gif 4KB

3.gif 4KB

23.gif 4KB

34.gif 4KB

41.gif 4KB

38.gif 4KB

65.gif 3KB

32.gif 3KB

45.gif 3KB

7.gif 3KB

12.gif 3KB

26.gif 3KB

60.gif 3KB

2.gif 3KB

40.gif 3KB

25.gif 3KB

19.gif 3KB

66.gif 3KB

18.gif 3KB

46.gif 3KB

10.gif 3KB

28.gif 3KB

51.gif 3KB

57.gif 3KB

67.gif 3KB

0.gif 3KB

48.gif 3KB

43.gif 3KB

30.gif 2KB

61.gif 2KB

33.gif 2KB

69.gif 2KB

14.gif 2KB

47.gif 2KB

36.gif 2KB

49.gif 2KB

58.gif 2KB

6.gif 2KB

54.gif 2KB

53.gif 2KB

56.gif 2KB

62.gif 2KB

31.gif 2KB

55.gif 2KB

35.gif 2KB

15.gif 2KB

loading-2.gif 2KB

37.gif 1KB

68.gif 1KB

52.gif 777B

loading-1.gif 701B

index.html 10KB

NativeIO.java 26KB

HDFSApp.java 6KB

MapperReducerController.java 6KB

PredictReducer.java 6KB

PredictApp.java 2KB

PredictMapper.java 2KB

WordCountMapper.java 2KB

WordCountApp.java 2KB

Swagger2.java 1KB

WordCountReducer.java 935B

CommonreturnType.java 820B

App.java 580B

MyResult.java 360B

PredictResult.java 304B

echarts.js 2.84MB

jquery-1.12.3.js 287KB

layui.all.js 271KB

jquery.js 95KB

共 139 条

# hadoop-word-predict 基于hadoop的评价预测系统 # 实验的题目如下编写java程序，使其能够实现基于上传至hdfs的“学号_上传文件.txt”数据集训练情感分类器的目的。在训练的过程中，应过滤包含非中文字符或全部由非中文字符构成的词语。保存模型文件至“学号_模型.txt”文件中。格式要求：类标_词语1\t计数类标_词语2\t计数类标_词语3\t计数 …… 类标1\t计数类标2\t计数基于训练得到的模型参数（即Nc和Ncw，其中，c表示情感标签类别，c∈{好评，差评}，w∈V，V是“学号_上传文件.data”数据集包含的中文词典集合），对“test.txt”数据集中的各条记录进行“情感标签”判别。判别结果输出至“学号_预测结果.txt”文件中。“学号_预测结果.txt”文件中的每行是行号及“test.txt”中预测的“情感标签”：格式要求： 1 情感标签 2 情感标签 3 情感标签 …… 2000 情感标签训练和预测用的数据格式如下好评几乎凌晨才到包头包头没有什么特别好酒店每次来就是住这家所以没有忒多对比感觉行下次还是得到这里来住好评住过几次东莞酒店海悦地理位置早餐最棒听说朋友说请来厨师来头呵呵冲这个去好评酒店设施比较不错就是携程价格酒店前台一样没有竞争力好评房间不算大中规中矩北方服务真的不敢恭维 CHECK IN 后没有服务生帮你拿行李到房间去周围酒店没啥逛自己吃早饭可以去万豪喜来登之间那条路永和豆浆店很便宜好评通过朋友介绍住苏州南林饭店一进酒店大堂感觉很好酒店行李员前台服务员大堂经理很热情有种宾至如归感觉房间很特色背景墙上金色字体诗词我住朝南景观房感觉真的很好一出门就是娱乐酒吧一条街美食一条街出门很方便下次来苏州我会选择南林我会介绍我朋友入住南林饭店好评西宁住过几个酒店此酒店虽然比起内地四星级差一些但西宁算是不错价格不高房间里东西倒干净地毯有点脏用地暖感觉比空调舒服多没有噪音安全周围环境尚可好评房间算整齐宽敞我住标准间大床房只是浴室淋浴笼头不太好出水不均匀洗澡不舒服服务不错到酒店早上点让我提前入住而且结账速度比较快不耽误时间酒店靠近号地铁算方便 # 内容说明为了实现预测模型使用了两组mapperreducer ## 第一组：进行词频统计，得到每个词在对应评价下的数目，格式如下类标_词语1\t计数类标_词语2\t计数类标_词语3\t计数好评_好吃\t23 ### mapper实现：将一行数据先以\t进行分割得到关键字行，再将关键字行以空格分割，分割后以<评价词_关键字，1>写入上下文 ### reducer实现读取上下文，对第二个属性值进行累加，等到每个组合关键字的计数，再以<评价词_关键字，计数>写入上下文 ### 好评差评计数实现 mapper时判断是否为好评，如果为好评，写入一条<统计_好评，1>到上下文；如果为差评，写入一条<统计_差评，1>到上下文注意：reducer时进行了自动排序，要把统计结果放最后就要加一个不同于前面数据的名 ## 第二组：进行评价预测，得到预测的结果，格式如下 1 情感标签 2 情感标签 3 情感标签 4 好评 ### mapper实现 mapper主要完成预测数据的分词，预测时只需要后面的关键字组，所以以\t先分割出关键字行，再以空格分割出关键字组，将关键字以<行号，关键字>写入上下文 ### reducer实现先用一个静态代码块加载训练出的模型到一个hashmap内，方便预测时使用，写一个函数判断一行对应的关键字集合预测是否是好评，然后在上下文写入<行号，评价词> ### 好评判断算法实现 Integer good = wordMap.get("好评_" + value); Integer bad = wordMap.get("差评_" + value); good = good == null ? 1 : good + 1; bad = bad == null ? 1 : bad + 1; if (good != bad) { Double v = (good > bad) ? Math.ceil(good /bad) : -Math.ceil(bad / good); goodNum += v.intValue(); } 遍历关键字集合，对每个关键字进行拼接后从训练模型集合里面获取个数，如果为空设为1，如果不为空设为n+1 goodNum代表一行词语的好评系数，如果 >= 0 就为好评，反之为差评如果一个词的好评和差评计数一样，好评系数为0 如果一个词好评数目 > 差评数目，用好评数 / 差评数向上取整作为好评系数如果一个词好评数目 < 差评数目，用差评数 / 好评数向上取整再去相反数作为好评系数将每个词的好评系数进行累加就得到一行词的评价 ### 好评差评统计和正确率计算在reducer中添加三个计数器，分别计算好评数，差评数，统计正确数在一行数据评价完成后，判断是好评就好评计数加一，反正差评计数加一根据预测文件的格式，可以发现前1000条为好评，后1000条为差评，将预测结果与之判断，如果相同，正确计数加一最后将三个参数在第2000行上下文写出去之后以<学号，描述_个数（比例）>的格式写入上下文 # 页面实现按照实验要求需要实现一个预测文件上传界面和预测结果和数据展示界面这里采用了Springboot快速搭建了一个前后端分离的框架，然后实现了两个restful风格的接口进行数据交互，具体实现如下： ### 文件上传文件上传采用了分步上传，首先将文件以MultipartFile上传到系统部署平台（或文件服务器）下的一个文件夹，并获取到文件在部署平台下的路径，然后将文件上传到hdfs ### 数据展示接口首先编写了json返回对象 private Double goodCount;//好评数 private Double badCount;//差评数 private Double correct;//正确率 private List<PredictResult> predictResults;//评价词组 PredictResult： private String lineNum;//行号 private String pResult;//预测结果 private String tResult;//实际结果数据展示中，预测结果以分页表格进行显示，评价统计和正确率调用echart.js以饼图进行实现 ![](https://github.com/737874762/hadoop-word-predict/blob/master/upload/ysym.png)

评论收藏

内容反馈

版权申诉