没有合适的资源?快使用搜索试试~ 我知道了~
网络原指用一个巨大的虚拟画面,把所有东西连接起来,也可以作为动词使用。在计算机领域中,网络就是用物理链路将各个孤立的工作站或主机相连在一起,组成数据链路,从而达到资源共享和通信的目的。凡将地理位置不同,并具有独立功能的多个计算机系统通过通信设备和线路而连接起来,且以功能完善的网络软件(网络协议、信息交换方式及网络操作系统等)实现网络资源共享的系统,可称为计算机网络。网络的迅速发展,使人们不仅面临信息爆炸,同时也面临着如何从浩如烟海的信息中获取自己所需信息的难题。如何有效地组织和处理海量的信息,并过滤和管理网络资源,已成为必须面对的问题。 为了网页信息的有效组织和检索,人们开发了各种网络信息
资源推荐
资源详情
资源评论
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![doc](https://img-home.csdnimg.cn/images/20210720083327.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![txt](https://img-home.csdnimg.cn/images/20210720083642.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![doc](https://img-home.csdnimg.cn/images/20210720083327.png)
![application/x-rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![thumb](https://img-home.csdnimg.cn/images/20210720083646.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/release/download_crawler_static/13003329/bg1.jpg)
通信与网络中的一种中文网页分类的方法通信与网络中的一种中文网页分类的方法
网络原指用一个巨大的虚拟画面,把所有东西连接起来,也可以作为动词使用。在计算机领域中,网络就是用
物理链路将各个孤立的工作站或主机相连在一起,组成数据链路,从而达到资源共享和通信的目的。凡将地理
位置不同,并具有独立功能的多个计算机系统通过通信设备和线路而连接起来,且以功能完善的网络软件(网
络协议、信息交换方式及网络操作系统等)实现网络资源共享的系统,可称为计算机网络。网络的迅速发展,
使人们不仅面临信息爆炸,同时也面临着如何从浩如烟海的信息中获取自己所需信息的难题。如何有效地组织
和处理海量的信息,并过滤和管理网络资源,已成为必须面对的问题。 为了网页信息的有效组织和检索,
人们开发了各种网络信息
网络原指用一个巨大的虚拟画面,把所有东西连接起来,也可以作为动词使用。在计算机领域中,网络就是用物理链路将
各个孤立的工作站或主机相连在一起,组成数据链路,从而达到资源共享和通信的目的。凡将地理位置不同,并具有独立功能
的多个计算机系统通过通信设备和线路而连接起来,且以功能完善的网络软件(网络协议、信息交换方式及网络操作系统等)
实现网络资源共享的系统,可称为计算机网络。网络的迅速发展,使人们不仅面临信息爆炸,同时也面临着如何从浩如烟海的
信息中获取自己所需信息的难题。如何有效地组织和处理海量的信息,并过滤和管理网络资源,已成为必须面对的问题。
为了网页信息的有效组织和检索,人们开发了各种网络信息搜索器,在一定程度上确实提高了网络信息的利用率。与文本
分类技术相比较,网页分类更加复杂,这是由网页的结构特征决定的,但是网页的信息主要是通过文本的方式向人们传递的,
所以在对网页分类之前,首先要对其中的文本进行提取,对所提取的文本分类,最终使网页分类问题转化为文本分类问题。
目前,文本分类技术的研究比较活跃,已经出现了多种文本分类算法,并且被广泛应用于多个领域:信息检索、搜索引
擎、文本数据库等。文本分类算法[1-3]基本是基于概率统计模型,本文就是基于互信息(MI)提出一种改进的特征提取方
法,并根据TFIDF提出一种新的特征权值计算方法构建中文网页分类器。
1 网页预处理网页预处理
网页分类之前首先要进行预处理,实际上就是HTML解析,把解析出来的内容用于文本分类,选取网页中的下面这些文本
用于分类:
(1)锚文本。锚文本是网页中用于指示所连接网页内容的提示,由于后面要对提取的文本进行分类,所以只提取文字形
式的锚文本。
(2)title文本。这样的文本可能是网页中最重要的标签,必须取得。
(3)meta标签。其重要的功能就是设置关键字,网页的制作者往往都设置了关键字,来提高网页的搜索点击率。可以利
用meta标签中的有关文本内容进行网页分类。
(4)主文本。上面这些信息获取之后,网页中剩余的文本信息还在各种HTML标签中,在HTML源文件中,主文本有可
能不是连续出现的。主文本一般是网页中文字最集中的较长的字符串,查看源文件,那些比较长的字符串是整个出现在1个标
签中的。
文本首先要确定的问题就是表示文本的基本单位,用于表示文本的基本单位通常称为文本的特征或特征项。中文文本不同
于英文文本,英文文本以空格为分隔符,非常明确。而中文文本需要对其进行分词处理才能得出每个特征。本文采用中科院计
算技术研究所汉语词法分析系统ICTCLAS3.0[4]进行分词。如果把这些对文本分类没有意义的虚词作为特征,将会带来很大噪
音,降低文本分类的效率和准确率。因此,在提取文本特征时,应首先考虑剔除这些对文本分类没有用处的虚词,而在实词
中,又以名词和动词对于文本的类别特性的表现力最强。
2 特征提取特征提取
特征提取就是提取出最能代表某篇文章或某类的特征项,以达到降维的效果从而减少文本分类的计算量。典型特征提取方
法:信息增益(Information Gain),互信息(MI)、文档频度(DF)。传统的MI特征提取方法:
资源评论
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/default.jpg!1)
weixin_38685600
- 粉丝: 5
- 资源: 906
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)