论文研究-基于新的关键词提取方法的快速文本分类系统.pdf

所需积分/C币:32 2019-07-22 19:04:57 251KB .PDF
20
收藏 收藏
举报

关键词的提取是进行计算机自动文本分类和其他文本数据挖掘应用的关键。系统从语言的词性角度考虑,对传统的最大匹配分词法进行了改进,提出一种基于动词、虚词和停用词三个较小词库的快速分词方法(FS),并利用TFIDF算法来筛选出关键词以完成将Web文档进行快速有效分类的目的。实验表明,该方法在不影响分类准确率的情况下,分类的速度明显提高。
4 计算机应用研究 2006年 炎没有影响的词条,如方法”。而计算机”由于存在于预先有中文的切分中都存在也无法避免) 建立的主题词表内,不会被排除,并且赋予它们一个新的权值 (2)分类结果。将切分和筛选后得到的关键词进行分炎 规则描述如下 (表1)。 IF TFIDF(X, P)>A, THEN add x, in keyword category X=ix1 2 1对关键门分类 Xar.X,,.X, ELSE IF X, belongs to the keyword lexicon, ThEn add 类别计算杋体育经济之八 x in keyword category X =iX1 x2, X3,,,xi, . ,Xn3, using its original eight in the keyword categary 样本数8080x08X 原始本数50050050050 3kNN( k-Nearest-Neighbor)分类算法 回绎过选后关键词 口其屮实际非关键词麦 试式验本数300300300300 口原文中未被提取出的关键词数 准确率%913938 现在,我们就要利用每篇网页中筛选出来的关键诃及其对 图比 扑父 应的权重来进行分类,这里介绍的是N分美算法8,。 (3)分析。对于系统的执行速度在实验巾可发现即使未 KN方法是一种基」文本特征向量空间模型表示的分类对程序进行优化的情况下也较普通的最人切分法有明显的提 方法,它在文本分类上有较好的应用结果。它的实质是以特征 高。FS方法虽然无法徹到高准确度的提取关键词,但是它在 属性权值作为特征空间的坐标系测度,先计算测试文本与训练 不影响分类准确度的情况下能够胜任到中文文档的快速分类。 文本之间的距离,然后依据测试文本与训练文本之间的远近来 实验中的kN分类算法在一定程度上较其他分类方法在 确定类别。结合2节的输出(网页的关键词炇权重),具体算 分芙过程中花费较多的吋间,如果予以一定改进采用快速的分 法步骤如下: 类算法将进一未有效地提高系统的执行速度。 (1)分类的文档(以计算机类为实验)为m个子类C为类 别集合:C={C1,C2…,Cm}。 5展望 (2)D为文档集合X={X…,X}将待分类的网页信 息转换成文档形式,用Ⅹ表示未分类的文档集合:Y={y1 我们的实验刚刚在起步阶段,系统设计还有许多不成熟, y灬…}文档d的M维特征向量为W={Wn,W…;Wn 在以后的研究工作巾我们将在词典中加入吏多的语法规灲,特 别是虛词的规则以及动词的特殊情况,并且扩大停用词库,采 小(少在训练文集巾选出K个与新文本最相似的文本,计进一步提高分词和美键词提取的准确率,系统在真止投入应用 为词x在d中的权重,若d不含河x则W为零 付应在准确率和速度上有所权衡 算公式为9md,)=—点,w 參考文献 [1 Turney. Learning to Extract Keyphrases from Text[ EB /OL]. Na- (4)若在(3)中Wx=4W,W…Wm}为G内某篇文档 tinalResearchCouncilofCanada(1999),http://axiv.org/fp/cs/ 的M维特征向量,则在新文本的k个近邻中,依次计算每类的 papes/02120212013. 权重,公式为p(yc)=9m(Mdm)y(dmc)。其中[2]沈小建许景红清华同方主题词分类号智能检索系统(医学专 业)[]OL].中国期刊网CNKI数字图书馆,2005 yanr)为类别属性函数,即如果dm属于c,则为1,不则为0 [3http://linux.tcpipcomcn/article/index.php?func=detail&par 5)若Pyc=mry,c),则未分类文本y∈c 14&parentid=159&start=16&s =0, 2005-03 EB/OL 最终完成对文本的分类工作 [ 4] Shiwen Yu, Xuefeng Zhu, Yunyun Zhang. The Specification of the 4系统实现与结果分析 Synthetic Knowledge-based of Contemporary Chinese[J]. Journal of Chinese infomation Processing, 1996, 10: 1-22 在本次实验中我们在中文常用词的基础上建立了拥有[5]张义忠,赵明生基于内容的中文网页自动分类研究[]信息与 5134个词条的动词词库,拥有1784个词条的虚词词库和小规 控制,2001,30(5) 模的停用词库和主题词表。实验中,我们应用由复旦大学提供 [6 G Sal ton. Developments in A utomatic Text Retrieval[ ]] Science 1991,253:974-979 的语料库(Wwnp.αrgcn/dos/ racist.pp?aat_id=168 [刁唐振民.一种用于自动标引系统的主题词自动切分方法[]].南 type=15),从中提取计算机、体育、经济、艺术四个子类的各 京理工大学学报,1995,19(5) 800篇文档训练和测试 (1)关键词提取效果测试。我们从计算机类中提取出208]庞剑锋,卜东波,白硕基于向量空间模型的文本自动分类系统的 研究与实现[J].计算机应用研究,2001,18(9):23-26. 篇文档实殓测试关键诃的提取结果,将通过TDF方法过滤[9]边肇祺,等,模式识别[M]北京:清华大学出版社,191316159 得到的关键词由人工筛选判断并与人工从义章中提取的关键[10] Giorgio Giacinto. Design of Effective Mul tiple Classifier Systems by 词进行比较(图2)。经比较后可知,在筛选出的关键词中对分 Clustering af Classifiers[ c]. Internati nal Conference on Pattern 类有用的关健词准确率为83.7%,关健词筛选的遗漏率为 Recognition(ICPR′00) 7.1%。 作者简介 其中造成关键词提取不够完全准确的原因主要有三点:①罗杰(1982-),男,福建福州人,本科生,研究方向为人工智能与数据挖 仅仅使用动词和虚词库对某些词语造成过度切分,如调杏报掘;陈力(1982-),男,湖北十堰人,本科生,研究方向为计算机网络与 告”会被拆分为调査”和报告”两词;②有一些闻无法拆分出数据挖掘;夏德麟(1940-),男,湖北武汉人,教授,研究方向为数据挖 来造成句子过程或者不是真正的词。③有歧异存在(这在所掘;王凯(1980-)男,湖北武汉人,硕士生,研究方向为计算机网络等。

...展开详情
试读 3P 论文研究-基于新的关键词提取方法的快速文本分类系统.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
关注 私信
上传资源赚钱or赚积分
最新推荐
论文研究-基于新的关键词提取方法的快速文本分类系统.pdf 32积分/C币 立即下载
1/3
论文研究-基于新的关键词提取方法的快速文本分类系统.pdf第1页

试读结束, 可继续阅读

32积分/C币 立即下载 >