# hadoop-word-predict
基于hadoop的评价预测系统
# 实验的题目如下
编写java程序,使其能够实现基于上传至hdfs的“学号_上传文件.txt”数据集训练情感分类器的目的。在训练的过程中,应过滤包含非中文字符或全部由非中文字符构成的词语。保存模型文件至“学号_模型.txt”文件中。格式要求:
类标_词语1\t计数
类标_词语2\t计数
类标_词语3\t计数
……
类标1\t计数
类标2\t计数
基于训练得到的模型参数(即Nc和Ncw,其中,c表示情感标签类别,c∈{好评,差评},w∈V,V是“学号_上传文件.data”数据集包含的中文词典集合),对“test.txt”数据集中的各条记录进行“情感标签”判别。判别结果输出至“学号_预测结果.txt”文件中。“学号_预测结果.txt”文件中的每行是行号及“test.txt”中预测的“情感标签”:格式要求:
1 情感标签
2 情感标签
3 情感标签
……
2000 情感标签
训练和预测用的数据格式如下
好评 几乎 凌晨 才 到 包头 包头 没有 什么 特别 好 酒店 每次 来 就是 住 这家 所以 没有 忒 多 对比 感觉 行 下次 还是 得到 这里 来 住
好评 住 过 几次 东莞 酒店 海悦 地理位置 早餐 最棒 听说 朋友 说 请来 厨师 来头 呵呵 冲 这个 去
好评 酒店设施 比较 不错 就是 携程 价格 酒店 前台 一样 没有 竞争力
好评 房间 不算 大 中规中矩 北方 服务 真的 不敢恭维 CHECK IN 后 没有 服务生 帮 你 拿 行李 到 房间 去 周围 酒店 没 啥 逛 自己 吃 早饭 可以 去 万豪 喜来登 之间 那条 路 永和 豆浆店 很 便宜
好评 通过 朋友 介绍 住 苏州 南林 饭店 一进 酒店 大堂 感觉 很 好 酒店 行李 员 前台 服务员 大堂 经理 很 热情 有种 宾至如归 感觉 房间 很 特色 背景 墙上 金色 字体 诗词 我 住 朝南 景观 房 感觉 真的 很 好 一 出门 就是 娱乐 酒吧 一条街 美食 一条街 出门 很 方便 下次 来 苏州 我 会 选择 南林 我 会 介绍 我 朋友 入住 南林 饭店
好评 西宁 住 过 几个 酒店 此 酒店 虽然 比起 内地 四星级 差 一些 但 西宁 算是 不错 价格 不 高 房间 里 东西 倒 干净 地毯 有点 脏 用 地 暖 感觉 比 空调 舒服 多 没有 噪音 安全 周围环境 尚可
好评 房间 算 整齐 宽敞 我 住 标准间 大床 房 只是 浴室 淋浴 笼头 不太好 出水 不 均匀 洗澡 不 舒服 服务 不错 到 酒店 早上 点 让 我 提前 入住 而且 结账 速度 比较 快 不 耽误时间 酒店 靠近 号 地铁 算 方便
# 内容说明
为了实现预测模型使用了两组mapperreducer
## 第一组:进行词频统计,得到每个词在对应评价下的数目,格式如下
类标_词语1\t计数
类标_词语2\t计数
类标_词语3\t计数
好评_好吃\t23
### mapper实现:
将一行数据先以\t进行分割得到关键字行,再将关键字行以空格分割,分割后以<评价词_关键字,1>写入上下文
### reducer实现
读取上下文,对第二个属性值进行累加,等到每个组合关键字的计数,再以<评价词_关键字,计数>写入上下文
### 好评差评计数实现
mapper时判断是否为好评,如果为好评,写入一条<统计_好评,1>到上下文;如果为差评,写入一条<统计_差评,1>到上下文
注意:reducer时进行了自动排序,要把统计结果放最后就要加一个不同于前面数据的名
## 第二组:进行评价预测,得到预测的结果,格式如下
1 情感标签
2 情感标签
3 情感标签
4 好评
### mapper实现
mapper主要完成预测数据的分词,预测时只需要后面的关键字组,所以以\t先分割出关键字行,再以空格分割出关键字组,将关键字以<行号,关键字>写入上下文
### reducer实现
先用一个静态代码块加载训练出的模型到一个hashmap内,方便预测时使用,写一个函数判断一行对应的关键字集合预测是否是好评,然后在上下文写入<行号,评价词>
### 好评判断算法实现
Integer good = wordMap.get("好评_" + value);
Integer bad = wordMap.get("差评_" + value);
good = good == null ? 1 : good + 1;
bad = bad == null ? 1 : bad + 1;
if (good != bad) {
Double v = (good > bad) ? Math.ceil(good /bad) : -Math.ceil(bad / good);
goodNum += v.intValue();
}
遍历关键字集合,对每个关键字进行拼接后从训练模型集合里面获取个数,如果为空设为1,如果不为空设为n+1
goodNum代表一行词语的好评系数,如果 >= 0 就为好评,反之为差评
如果一个词的好评和差评计数一样,好评系数为0
如果一个词好评数目 > 差评数目,用好评数 / 差评数 向上取整作为好评系数
如果一个词好评数目 < 差评数目,用差评数 / 好评数 向上取整再去相反数作为好评系数
将每个词的好评系数进行累加就得到一行词的评价
### 好评差评统计和正确率计算
在reducer中添加三个计数器,分别计算好评数,差评数,统计正确数
在一行数据评价完成后,判断是好评就好评计数加一,反正差评计数加一
根据预测文件的格式,可以发现前1000条为好评,后1000条为差评,将预测结果与之判断,如果相同,正确计数加一
最后将三个参数在第2000行上下文写出去之后以<学号,描述_个数(比例)>的格式写入上下文
# 页面实现
按照实验要求需要实现一个预测文件上传界面和预测结果和数据展示界面
这里采用了Springboot快速搭建了一个前后端分离的框架,然后实现了两个restful风格的接口进行数据交互,具体实现如下:
### 文件上传
文件上传采用了分步上传,首先将文件以MultipartFile上传到系统部署平台(或文件服务器)下的一个文件夹,并获取到文件在部署平台下的路径,然后将文件上传到hdfs
### 数据展示接口
首先编写了json返回对象
private Double goodCount;//好评数
private Double badCount;//差评数
private Double correct;//正确率
private List<PredictResult> predictResults;//评价词组
PredictResult:
private String lineNum;//行号
private String pResult;//预测结果
private String tResult;//实际结果
数据展示中,预测结果以分页表格进行显示,评价统计和正确率调用echart.js以饼图进行实现
![](https://github.com/737874762/hadoop-word-predict/blob/master/upload/ysym.png)
没有合适的资源?快使用搜索试试~ 我知道了~
基于SpringBoot+Hadoop的评价预测系统的设计与实现+部署文档+全部资料 高分项目.zip
共141个文件
gif:75个
js:20个
java:14个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 121 浏览量
2024-05-13
18:09:40
上传
评论
收藏 2.18MB ZIP 举报
温馨提示
【资源说明】 基于SpringBoot+Hadoop的评价预测系统的设计与实现+部署文档+全部资料 高分项目.zip基于SpringBoot+Hadoop的评价预测系统的设计与实现+部署文档+全部资料 高分项目.zip 【备注】 1、该项目是个人高分项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的在校学生、老师或者企业员工下载使用,也可作为毕业设计、课程设计、作业、项目初期立项演示等,当然也适合小白学习进阶。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!
资源推荐
资源详情
资源评论
收起资源包目录
基于SpringBoot+Hadoop的评价预测系统的设计与实现+部署文档+全部资料 高分项目.zip (141个子文件)
layui.css 71KB
layer.css 14KB
layui.mobile.css 10KB
laydate.css 7KB
code.css 1KB
iconfont.eot 38KB
59.gif 10KB
22.gif 10KB
24.gif 8KB
13.gif 7KB
16.gif 7KB
39.gif 6KB
64.gif 6KB
63.gif 6KB
50.gif 6KB
loading-0.gif 6KB
4.gif 6KB
1.gif 5KB
42.gif 5KB
71.gif 5KB
21.gif 5KB
20.gif 5KB
29.gif 5KB
70.gif 4KB
5.gif 4KB
17.gif 4KB
27.gif 4KB
9.gif 4KB
44.gif 4KB
11.gif 4KB
8.gif 4KB
3.gif 4KB
23.gif 4KB
34.gif 4KB
41.gif 4KB
38.gif 4KB
65.gif 3KB
32.gif 3KB
45.gif 3KB
7.gif 3KB
12.gif 3KB
26.gif 3KB
60.gif 3KB
2.gif 3KB
40.gif 3KB
25.gif 3KB
19.gif 3KB
66.gif 3KB
18.gif 3KB
46.gif 3KB
10.gif 3KB
28.gif 3KB
51.gif 3KB
57.gif 3KB
67.gif 3KB
0.gif 3KB
48.gif 3KB
43.gif 3KB
30.gif 2KB
61.gif 2KB
33.gif 2KB
69.gif 2KB
14.gif 2KB
47.gif 2KB
36.gif 2KB
49.gif 2KB
58.gif 2KB
6.gif 2KB
54.gif 2KB
53.gif 2KB
56.gif 2KB
62.gif 2KB
31.gif 2KB
55.gif 2KB
35.gif 2KB
15.gif 2KB
loading-2.gif 2KB
37.gif 1KB
68.gif 1KB
52.gif 777B
loading-1.gif 701B
index.html 10KB
NativeIO.java 26KB
HDFSApp.java 6KB
MapperReducerController.java 6KB
PredictReducer.java 6KB
PredictApp.java 2KB
PredictMapper.java 2KB
WordCountMapper.java 2KB
WordCountApp.java 2KB
Swagger2.java 1KB
WordCountReducer.java 935B
CommonreturnType.java 820B
App.java 580B
MyResult.java 360B
PredictResult.java 304B
echarts.js 2.84MB
jquery-1.12.3.js 287KB
layui.all.js 271KB
jquery.js 95KB
共 141 条
- 1
- 2
资源评论
不走小道
- 粉丝: 3210
- 资源: 5120
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功