# news-classifier
给定训练新闻数据集,可以对输入的测试新闻进行自动分类识别
## 分类实现原理
* 总体上利用了余弦相似度计算的原理来计算文本相似度
* 其中的特征向量由训练数据集中的关键词构成,其中词语的寻找利用了中科大的ICTCLAS分词系统来做,提取其中的专业性的名词
* 利特征向量与标准向量进行余弦值的计算
## 使用方法
* 设定特征向量维数
* 给定训练新闻数据集,数量最后多一些,用于进行特征向量的计算
* 给定测试新闻数据集
* 输出分类结果
没有合适的资源?快使用搜索试试~ 我知道了~
给定训练新闻数据集,可以对输入的测试新闻进行自动分类识别.zip
共42个文件
txt:8个
java:6个
map:4个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 133 浏览量
2024-01-04
01:45:01
上传
评论
收藏 3.56MB ZIP 举报
温馨提示
给定训练新闻数据集,可以对输入的测试新闻进行自动分类识别
资源推荐
资源详情
资源评论
收起资源包目录
给定训练新闻数据集,可以对输入的测试新闻进行自动分类识别.zip (42个子文件)
news-classifier-master
.gitattributes 378B
NewsClassify
News.java 2KB
Client.java 1KB
data
testNews3.txt 6KB
testNews1.txt 1KB
trainNews1.txt 4KB
trainNews2.txt 4KB
testNews2.txt 1KB
Word.java 383B
NewsClassifyTool.java 5KB
ICTCLAS_Sample
Windows_32_jni_Demo
user.lic 222B
userdict.txt 24B
TestMain.java 4KB
ICTCLAS50.h 9KB
ICTCLAS50.dll 68KB
ICTCLAS_I3S_AC_ICTCLAS50.h 2KB
test.txt 615B
ICTCLAS50.lib 7KB
ICTCLAS
I3S
AC
ICTCLAS50.java 909B
Configure.xml 1KB
TestMain.class 2KB
Data
GranDict.pdat 1.89MB
CoreDict.pos 1.7MB
FieldDict.pdat 256KB
nr.fsa 3KB
ICTCLAS_First.map 192B
PKU.map 211B
CoreDict.pdat 1.62MB
ICTPOS.map 310B
character.idx 512KB
PKU_First.map 192B
BiWord.big 3.36MB
FieldDict.pos 72B
nr.role 1.68MB
ICTCLAS30.ctx 36KB
CoreDict.unig 467KB
GranDict.pos 1.7MB
character.type 64KB
nr.ctx 2KB
readme.txt 452B
.gitignore 574B
README.md 612B
共 42 条
- 1
资源评论
马coder
- 粉丝: 1203
- 资源: 6602
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功