# coding:utf-8
from pyhanlp.static import STATIC_ROOT
from pyhanlp.static import download, remove_file, HANLP_DATA_PATH
from pyhanlp import *
import numpy
import six
import jpype
sogou_corpus_path = "新闻文本分类算法样本集+人民网+网易+旅兴网+读书网+美食台+美食天下+新浪+中华网+铁血+军事前沿+西陆+搜狗新闻库+数码科技网+科技快报网"#"新闻库(过滤停用词)"
## ===============================================
## 以下开始 支持向量机SVM
def install_jar(name, url):
dst = os.path.join(STATIC_ROOT, name)
if os.path.isfile(dst):
return dst
download(url, dst)
return dst
install_jar('text-classification-svm-1.0.2.jar', 'http://file.hankcs.com/bin/text-classification-svm-1.0.2.jar')
install_jar('liblinear-1.95.jar', 'http://file.hankcs.com/bin/liblinear-1.95.jar')
LinearSVMClassifier = SafeJClass('com.hankcs.hanlp.classification.classifiers.LinearSVMClassifier')
IOUtil = SafeJClass('com.hankcs.hanlp.corpus.io.IOUtil')
FileDataSet = SafeJClass('com.hankcs.hanlp.classification.corpus.FileDataSet')
MemoryDataSet = SafeJClass('com.hankcs.hanlp.classification.corpus.MemoryDataSet')
Evaluator = SafeJClass('com.hankcs.hanlp.classification.statistics.evaluations.Evaluator')
# LinearSVMClassifier = JClass('com.hankcs.hanlp.classification.classifiers.LinearSVMClassifier')
BigramTokenizer = SafeJClass('com.hankcs.hanlp.classification.tokenizers.BigramTokenizer')
def train_or_load_classifier222():
model_path = sogou_corpus_path + '.svm.ser'
if os.path.isfile(model_path):
return LinearSVMClassifier(IOUtil.readObjectFrom(model_path))
classifier = LinearSVMClassifier()
classifier.train(sogou_corpus_path)
model = classifier.getModel()
IOUtil.saveObjectTo(model, model_path)
return LinearSVMClassifier(model)
def train_or_load_classifier():
model_path = sogou_corpus_path + '.2gram.ser'
if os.path.isfile(model_path):
return LinearSVMClassifier(IOUtil.readObjectFrom(model_path))
classifier = LinearSVMClassifier()
classifier.train(sogou_corpus_path)
model = classifier.getModel()
IOUtil.saveObjectTo(model, model_path)
return LinearSVMClassifier(model)
def evaluate(classifier, tokenizer):
training_corpus = FileDataSet().setTokenizer(tokenizer).load(sogou_corpus_path, "UTF-8", 0.9)
classifier.train(training_corpus)
testing_corpus = MemoryDataSet(classifier.getModel()).load(sogou_corpus_path, "UTF-8", -0.1)
result = Evaluator.evaluate(classifier, testing_corpus)
print(classifier.getClass().getSimpleName() + "+" + tokenizer.getClass().getSimpleName())
print(result)
print("F1_score为:", result.average_f1)
def predict(classifier, text):
res = "《%16s》\t属于分类\t【%s】" % (text, classifier.classify(text))
print(res)
print("各类别概率:")
predict_dict = classifier.classify(text)
for cat in predict_dict:
print(cat, round(predict_dict[cat]*100, 2))
return res
# 如需获取离散型随机变量的分布,请使用predict接口
# print("《%16s》\t属于分类\t【%s】" % (text, classifier.predict(text)))
if __name__ == '__main__':
print("读取或训练模型……")
classifier = train_or_load_classifier()
print("评价模型")
evaluate(classifier, BigramTokenizer())
print("开始预测")
# predict(classifier, "张文木做客观察者网:解决台湾问题,现在各种条件都越来越成熟了")
# predict(classifier, "小度推智能屏品牌“添添”,称要把用户在手机上的需求抢过来")
# predict(classifier, "牧原股份:生猪行业将在明后年触底,做好迎接行业冬天的准备")
# predict(classifier, "勇士无缘季后赛!但NBA应该感谢库里,他拯救了这个赛季")
# predict(classifier, "最高法力纠超标查封问题:诉讼保全应秉持善意文明执行理念")
predict(classifier, "中经联盟专家走进财富港活动圆满落幕来源:北京楼讯5月20日,以“汇智|谋进|共赢”为主题的“中经联盟专家走进财富港”活动圆满举行。当日中经联盟专家、以及国内房地产行业各专业领域的权威嘉宾坐镇活动现场。就北京城市副中心、京津冀发展趋势、商办市场趋势等话题进行了深入探讨,通过精深对话,聚焦行业痛点,共谋区域红利,赋能价值共生。此大会也见证了财富港与中经联盟战略合作正式启动,共同解锁绿色商务创新地产新模式。大会伊始,华北世茂京津片区总经理刘垚代表主办方致辞,向中经联盟及与会嘉宾表示热烈欢迎。他表示,目前商办市场行业整体开始逐步进入新一轮发展周期,市场活跃度也将稳步提升。财富港项目,赋予商务办公新的功能,在区域内商办市场高端占位,为新经济企业提供对标国际一流的商务平台。且以其稀缺的产品形态和广阔的发展前景,成为了国内外知名企业争相入驻的热土,开创新型生态办公商务新时代。")
predict(classifier, "俄媒:俄成功试射最新型洲际弹道导弹 没有细节公开。[环球网军事报道]塔斯社28日报道,据俄罗斯国防工业界的一名消息人士周一称,俄罗斯最新型洲际弹道导弹试射成功。报道称,该消息人士透露,在6月中旬,这种由莫斯科热工技术研究所开发,独特的最新型弹道导弹在普列谢茨克成功试射。不过对于这一消息,塔斯社尚未得到该研究所的官方评论。目前也没有关于这款最新型洲际导弹的进一步消息。")
predict(classifier, "外媒:苹果要求部分员工佩戴警用级随身摄像头,以防止产品泄密。据外媒 frontpagetech,苹果要求部分员工佩戴警用级别的随身摄像头,类似执法记录仪,以防止员工进行泄密。外媒表示,这一举措已在苹果内部实施了几个星期,目前仅限于部分涉密团队,并没有广泛采用。IT之家了解到,苹果近期向许多爆料者发送了律师函,警告他们不得泄露未发布的苹果项目的信息,因为这可能会给苹果的竞争对手提供有价值的信息,同时也会“误导客户,因为披露的内容可能不准确。”")
predict(classifier, "革命者》聚焦李大钊革命生平 22城开启主题观影。新浪娱乐讯 电影《革命者》于6月26日-27日,在全国22所城市开启限量超前党员主题观影。影片由知名导演管虎监制、青年导演徐展雄执导,梁静任总制片人,张颂文、李易峰、佟丽娅领衔主演,彭昱畅、韩庚、李九霄、白客、秦昊、于谦等特别出演(按照影片中出场顺序),孙浠伦、章若楠、辛云来、朱梓瑜、张承等主演(按照影片中出场顺序)。电影《革命者》在前期筹备、剧本创作、史料调研等各环节深耕细作,深入李大钊故乡河北省唐山市乐亭县采访采风。演员方面,电影经过层层反复筛选,综合李大钊的个人外在形象和内在精神品格,最终敲定了由演员张颂文出演“李大钊”一角。为了演好这个角色,张颂文仔细研读李大钊过往文章,钻研李大钊的神态举止,领悟李大钊的精神世界,力求在外部形象、动作神态、内在灵魂上还原一个鲜活立体的李大钊。")
predict(classifier, "北京初中学考6月24日开考 7月5日起可查成绩。新京报讯(记者 杨菲菲)2021年北京市初中学业水平考试将于6月24日至27日举行。6月22日,北京教育考试院发布提醒,备考期间,考生要劳逸结合,配合学校做好考前健康监测,以平常心态迎接考试;同时,考生和家长要提前关注交通信息,确保准时到达考点。8.5万初三学生参加考试,7月5日可查成绩6月24日至26日为初三年级学考�
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
大学生软件杯大赛参赛作品,供参赛人员参考,含设计文档,设计源码 大学生软件杯大赛参赛作品,供参赛人员参考,含设计文档,设计源码 大学生软件杯大赛参赛作品,供参赛人员参考,含设计文档,设计源码 大学生软件杯大赛参赛作品,供参赛人员参考,含设计文档,设计源码 大学生软件杯大赛参赛作品,供参赛人员参考,含设计文档,设计源码 大学生软件杯大赛参赛作品,供参赛人员参考,含设计文档,设计源码 大学生软件杯大赛参赛作品,供参赛人员参考,含设计文档,设计源码 大学生软件杯大赛参赛作品,供参赛人员参考,含设计文档,设计源码 大学生软件杯大赛参赛作品,供参赛人员参考,含设计文档,设计源码 大学生软件杯大赛参赛作品,供参赛人员参考,含设计文档,设计源码 大学生软件杯大赛参赛作品,供参赛人员参考,含设计文档,设计源码 大学生软件杯大赛参赛作品,供参赛人员参考,含设计文档,设计源码 大学生软件杯大赛参赛作品,供参赛人员参考,含设计文档,设计源码 大学生软件杯大赛参赛作品,供参赛人员参考,含设计文档,设计源码 大学生软件杯大赛参赛作品,供参赛人员参考,含设计文档,设计源码 大学生软件杯大赛参赛作品,供参赛人员参考,含设计文档,设计源码 大学生软件杯大赛参赛作品,供参赛人员参考,含设计文档,设计源码 大学生软件杯大赛参赛作品,供参赛人员参考,含设计文档,设计源码 大学生软件杯大赛参赛作品,供参赛人员参考,含设计文档,设计源码 大学生软件杯大赛参赛作品,供参赛人员参考,含设计文档,设计源码 大学生软件杯大赛参赛作品,供参赛人员参考,含设计文档,设计源码
资源推荐
资源详情
资源评论
收起资源包目录
第十届软件杯A7-新闻文本分类算法.zip (63个子文件)
news-classification-for-CSC-main
把搜狗新闻样本集导入到excel表
把搜狗新闻样本集导入到excel表2.py 2KB
把搜狗新闻样本集导入到excel表.py 2KB
main.py 4KB
早期杂乱无章数据
新闻库.svm.ser 0B
新闻库 新闻文本分类算法样本集+人民网+网易+旅兴网+读书网+美食台+美食天下.2gram.ser 0B
test1.py 1KB
兵王问题.py 945B
krkopt.data 519KB
SVMClassifier.py 3KB
test2.py 1KB
svm_2gram.ser 0B
text_classification_evaluation.py 3KB
新闻文本分类SVM.py 3KB
NaiveBayesClassifier.py 2KB
krkopt.info 7KB
从excel创建文本文件夹.py 3KB
新闻库(过滤停用词).svm.ser 0B
新闻文本分类.py 2KB
模型训练
新闻文本分类SVM 新样本集1 过滤标点、英语、数字.py 11KB
新闻文本分类SVM新样本集1.py 11KB
旧模型
071011
新闻文本分类算法样本集+人民网+网易+旅兴网+读书网+美食台+美食天下+新浪+中华网+铁血+军事前沿+西陆+搜狗新闻库+科技快报网.2gram.ser 0B
过滤标点、英语、数字 新闻文本分类算法样本集+人民网+网易+旅兴网+读书网+美食台+美食天下+新浪+中华网+铁血+军事前沿+西陆+搜狗新闻库+科技快报网.2gram.ser 0B
071110
过滤标点、英语、数字 新闻文本分类算法样本集+人民网+网易+旅兴网+读书网+美食台+美食天下+新浪+中华网+铁血+军事前沿+西陆+搜狗新闻库+数码科技网+科技快报网.2gram.ser 0B
新闻文本分类算法样本集+人民网+网易+旅兴网+读书网+美食台+美食天下+新浪+中华网+铁血+军事前沿+西陆+搜狗新闻库+数码科技网+科技快报网.2gram.ser 0B
071013
新闻文本分类算法样本集+人民网+网易+旅兴网+读书网+美食台+美食天下+新浪+中华网+铁血+军事前沿+西陆+搜狗新闻库+科技快报网.2gram.ser 0B
过滤标点、英语、数字 新闻文本分类算法样本集+人民网+网易+旅兴网+读书网+美食台+美食天下+新浪+中华网+铁血+军事前沿+西陆+搜狗新闻库+科技快报网.2gram.ser 0B
071017
新闻文本分类算法样本集+人民网+网易+旅兴网+读书网+美食台+美食天下+新浪+中华网+铁血+军事前沿+西陆+搜狗新闻库+数码科技网.2gram.ser 0B
过滤标点、英语、数字 新闻文本分类算法样本集+人民网+网易+旅兴网+读书网+美食台+美食天下+新浪+中华网+铁血+军事前沿+西陆+搜狗新闻库+数码科技网.2gram.ser 0B
mkl_intel_thread.1.dll 0B
新闻文本分类SVM新样本集1.exe 0B
新闻文本分类算法样本集+人民网+网易+旅兴网+读书网+美食台+美食天下+新浪+中华网+铁血+军事前沿+西陆+搜狗新闻库+数码科技网+科技快报网.2gram.ser 0B
从excel创建文本文件夹2.py 3KB
main5.exe 0B
main5.py 5KB
界面
main2.py 3KB
main3.py 3KB
main.py 1KB
main4.py 4KB
main5.py 4KB
Newspaper
人民网1.py 5KB
人民网3.py 5KB
网易
网易 财经.py 4KB
网易 其他 时尚.py 4KB
网易 娱乐.py 4KB
网易 其他 数读.py 4KB
网易1.py 10KB
网易 军事.py 4KB
网易 其他 人间.py 4KB
网易 汽车.py 4KB
网易 体育.py 10KB
网易 游戏.py 4KB
网易(除了房产).py 5KB
网易 教育.py 6KB
网易 科技.py 6KB
人民网4(单线程).py 5KB
旅兴网
读书网 其他 阅读.py 4KB
美食台 其他 美食.py 4KB
旅兴网 其他.py 4KB
美食天下 其他 美食.py 4KB
人民网2.py 5KB
样本集(合并)
每个分类下面的新闻数量.py 433B
.gitignore 2KB
text_classifier.py 2KB
共 63 条
- 1
资源评论
辣椒种子
- 粉丝: 4139
- 资源: 5745
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功