论文研究-基于词频统计的wap分类器设计与实现 .pdf

所需积分/C币:9 2019-08-16 12:45:45 219KB .PDF
收藏 收藏
举报

基于词频统计的wap分类器设计与实现,靳相伟,戴志涛,移动互联网时代的到来给人们上网带来了方便,但同时由于互联网信息的多样性,人们搜索信息时往往会遇到返回的都是一些广告信息,
国武技论文在线 ()选取特祉 分析备选特征,比较好选定的信息有下载链接的错文 信息、后缀名 信息和信息。但是对错文信息的应用也一般是应用其错文信息的后缀名,所以 可以用后缀名 信息来代替。 个特征是元的:特征类别字符串,这样得到的备选特征会很多。在标注数据上对 备选特征进行统计,对每一个特征,得到它出现的总次数、在类中每类出现的次数。注意 类次数加起来小于等于总次数,因为一些网页是不属于类的。如果出现的总次数高于一 个值(比如次),并且都出现在同一个类中,则认为这是一个好的特征,予以保留 否则删掉此特征。 模型训练 模型训练的目的,是根据已选择好的特征,从标注数据中训练出个模型;用这个训练 好的模型,就能对一个未知的新页面,得出其分类 先从标注数据中,对所有备选特征中进行统计,根据统计结果,保留选择的大约 个特征。通过 模型对种分类采用二分类模型训练,得到六个二分类模型,供分类 稈序调用。 资源分类程序实现 资源分类程序设计 步骤一:将备选特征表读入内存,并组织成一定的数据结构(为了方便表述,以下称为 数据结构)。该数据结构的每个数据项必须至少包含如下凹项:特征类型( 四者之一),特征值(一个字符串),该数据项的分类(顶先定义的六类之一,不包 括分类),特征项出现的次数() 步骤二:取得待分类网页本身的,经过拆分处理,得到其所有由字母和数字组成的 字串。 步骤三:遍历树,得到该网页的及所有网页内的链接和倍息 步骤四:对步骤三得到的 和进行处理,具体处理方法为:获取和 字符串的所有非空字串,获取所有的后缀 步骤五:将步骤二和步骤四得到的所有特征存入一个数据结构(为了方便表述,以下称 为数据结构〕,该数据结构的每个数据项必须至少包含如下两项:特征类犁(、、 四者之一),特征值(一个字符串)。也可以在处理的同时存入。经过以上四 步之后,得到了待分类內贞的特征表。 步骤六:将所有同吋出现在数据结构和数据结构中特征项(特征类型特征值)的 行提取出来,形成一张新表。该新表的行结构与数据结构相同,并且是为真子集。 步骤七:第步骤六得到的新表,将表格转换成标准接凵形式 步骤八:将转换为标准接凵形式的表排队经过第一章中所训练好的六类模型进行 判断,最后输出判断结果。 步骤九:重复步骤二到步骤八,可以确定多个待分类网页的类别。具体流稈如图所示。 国武技论文在线 程序开始 提取K激据 遍历Q 通过算法实提取 通过算法提取 U的所有可能 title所有可能 通过算法提取neta 通过算法提 字符5 中有可能宇符串 sufi的后缀名 将l 读取特征间表 suffix、met取的数 据衣入同定格式的数据 结构中 将匹配的结果们储 匹配提取的数据与 为个数据结构 训练集中的交集 将数据转仁为SW 读I6个训冻集模 标准按口数据格式 分别通过个训练 集进行判断 最后通过算法标它 提取网页所属类别 图分类器程序流程图 数据结构 本模块最主要的涉及到三类数据结构:用于存储待分类网页特征的数据表;用于存储备 选特征的数据表;用于返回判定结果的结构。 /特征类型, 四者之 //特征值 //数据表 各选特征数据表: 国武技论文在线 特征类型, 四者之 //特征值 //网页类型 //备选特征出现次数 (标注备选特征表的一个,其实是 组合的冗 余) //备选特征数据表 结果分析 准确率和召回率 准确率和召回率是评定分类器重要的指标,本文的分类器的准确率和召回率如下图所 示(评测数据集为个人工标准的页面)。 分类器准确率和召回率 120% 80% 准确率 召回率 40% 20% 0% picture game theme video software musi 图 资源分类器的准确率和召回率 稳定性 本分类器代码在万级的测试数据上循环运行小时无:内存使用为 均每个贞面的识别效率为 本系统从分类角度将刚分为了图片、游戏、主题、视频、音乐和软件六大类。 从扩充性上来看,今后可增加特征值改进系统的准确率和召回率,还可以从增加內贞 分类来实现更多的网页分类,进步提高用户的搜索体验 结论 本文通过词频统计和支持向量机模型实现了一款网页分类器,从整体设计和代码 实现以及扩展性给岀了详细的描述。通过选取特征,训练模型,编写分类器代码,验证模 型的准确率和召回率,并对稳定性做了测试。实验表明,木文的资源分类器,具有较 高的稳定性和效率,整体上提高了用广搜索体验。 国武技论文在线 参考文献 李净,袁小华,沈晓晶网页信息文本分类的研究计算机工程与设计, 陈宜,唐乐理稈序优化的基本思路实验科学与技术 贾洞,梁久祯基于支持向量机的中文网页自动分类计算机程 蔚晓娟,冉静,今爱华基于的舵析与应用计算机技术与发展 宋胜利,鲍亮,陈平多层文本分类性能评价方法系统工程与电子技术 ): 陈光莫,张千里,李星特征选择和训练模型的联合优化清华大学学报, ():

...展开详情
试读 6P 论文研究-基于词频统计的wap分类器设计与实现 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    • 至尊王者

      成功上传501个资源即可获取
    关注 私信 TA的资源
    上传资源赚积分,得勋章
    最新推荐
    论文研究-基于词频统计的wap分类器设计与实现 .pdf 9积分/C币 立即下载
    1/6
    论文研究-基于词频统计的wap分类器设计与实现 .pdf第1页
    论文研究-基于词频统计的wap分类器设计与实现 .pdf第2页

    试读已结束,剩余4页未读...

    9积分/C币 立即下载 >