# news-classifier
给定训练新闻数据集,可以对输入的测试新闻进行自动分类识别
## 分类实现原理
* 总体上利用了余弦相似度计算的原理来计算文本相似度
* 其中的特征向量由训练数据集中的关键词构成,其中词语的寻找利用了中科大的ICTCLAS分词系统来做,提取其中的专业性的名词
* 利特征向量与标准向量进行余弦值的计算
## 使用方法
* 设定特征向量维数
* 给定训练新闻数据集,数量最后多一些,用于进行特征向量的计算
* 给定测试新闻数据集
* 输出分类结果
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
给定一个训练新闻数据集,可以使用新闻分类器对输入的测试新闻进行自动分类和识别.zip (43个子文件)
给定训练新闻数据集,可以对输入的测试新闻进行自动分类识别_news-classifier
项目内附说明
如果解压失败请用ara软件解压.txt 42B
news-classifier-master
.gitattributes 378B
NewsClassify
News.java 2KB
Client.java 1KB
data
testNews3.txt 6KB
testNews1.txt 1KB
trainNews1.txt 4KB
trainNews2.txt 4KB
testNews2.txt 1KB
Word.java 383B
NewsClassifyTool.java 5KB
ICTCLAS_Sample
Windows_32_jni_Demo
user.lic 222B
userdict.txt 24B
TestMain.java 4KB
ICTCLAS50.h 9KB
ICTCLAS50.dll 68KB
ICTCLAS_I3S_AC_ICTCLAS50.h 2KB
test.txt 615B
ICTCLAS50.lib 7KB
ICTCLAS
I3S
AC
ICTCLAS50.java 909B
Configure.xml 1KB
TestMain.class 2KB
Data
GranDict.pdat 1.89MB
CoreDict.pos 1.7MB
FieldDict.pdat 256KB
nr.fsa 3KB
ICTCLAS_First.map 192B
PKU.map 211B
CoreDict.pdat 1.62MB
ICTPOS.map 310B
character.idx 512KB
PKU_First.map 192B
BiWord.big 3.36MB
FieldDict.pos 72B
nr.role 1.68MB
ICTCLAS30.ctx 36KB
CoreDict.unig 467KB
GranDict.pos 1.7MB
character.type 64KB
nr.ctx 2KB
readme.txt 452B
.gitignore 574B
README.md 612B
共 43 条
- 1
资源评论
好家伙VCC
- 粉丝: 2107
- 资源: 9145
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功