下载 >  行业 >  旅游 > 基于统计的网页正文信息抽取方法

基于统计的网页正文信息抽取方法

2009-06-12 上传大小:42KB
分享
为了把自然语言处理技术有效的运用到网页文档中,本文提出了一种依靠统计信息,从中文新闻类
网页中抽取正文内容的方法。该方法先根据网页中的HTML 标记把网页表示成一棵树,然后利用树中每个
结点包含的中文字符数从中选择包含正文信息的结点。该方法克服了传统的网页内容抽取方法需要针对不
同的数据源构造不同的包装器的缺点,具有简单、准确的特点,试验表明该方法的抽取准确率可以达到95 %以
上。采用该方法实现的网页文本抽取工具目前为一个面向旅游领域的问答系统提供语料支持,很好的满足了
问答系统的需求。
综合评分:4
开通VIP 立即下载

评论共有6条

gyc_ao 2014-03-19 13:23:15
很不错 ,毕业论文就用了一部分这个
huoshandong 2013-09-01 12:05:47
论文想法的通用性很差,这种文章也能上中文信息学报
jxyzmx 2013-03-23 09:06:02
希望能提供相关代码就好
 
基于机器学习的网页正文提取方法 立即下载
积分/C币:10
网络爬虫之新闻页面自动提取正文 立即下载
积分/C币:5
基于扩展标记树的网页正文抽取 立即下载
积分/C币:10
基于行块分布函数的通用网页正文抽取 立即下载
积分/C币:5
基于视觉特征的网页正文提取方法研究 立即下载
积分/C币:10
基于统计的网页正文信息抽取 立即下载
积分/C币:3
万金油正文抽取器体验版 立即下载
积分/C币:3
WebCollector爬虫、网页正文提取 立即下载
积分/C币:3
基于标记窗的网页正文信息提取方法 立即下载
积分/C币:10
Web新闻正文信息抽取技术研究 立即下载
积分/C币:10

热点文章

VIP会员动态

推荐下载

信息统计网页模板
3C币 4下载
网页爬取 识别正文
3C币 1下载
信息抽取技术
3C币 67下载
基于标记窗的正文提取
3C币 34下载
网页抽取源码
3C币 11下载
关闭
img

spring mvc+mybatis+mysql+maven+bootstrap 整合实现增删查改简单实例.zip

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
点击完成任务获取下载码
输入下载码
为了良好体验,不建议使用迅雷下载
img

基于统计的网页正文信息抽取方法

会员到期时间: 剩余下载个数: 剩余C币: 剩余积分:0
为了良好体验,不建议使用迅雷下载
VIP下载
您今日下载次数已达上限(为了良好下载体验及使用,每位用户24小时之内最多可下载20个资源)

积分不足!

资源所需积分/C币 当前拥有积分
您可以选择
开通VIP
4000万
程序员的必选
600万
绿色安全资源
现在开通
立省522元
或者
购买C币兑换积分 C币抽奖
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
为了良好体验,不建议使用迅雷下载
确认下载
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
为了良好体验,不建议使用迅雷下载
开通VIP
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
您的积分不足,将扣除 10 C币
为了良好体验,不建议使用迅雷下载
确认下载
下载
无法举报自己的资源

兑换成功

你当前的下载分为234开始下载资源
你还不是VIP会员
开通VIP会员权限,免积分下载
立即开通

你下载资源过于频繁,请输入验证码

您因违反CSDN下载频道规则而被锁定帐户,如有疑问,请联络:webmaster@csdn.net!

举报

若举报审核通过,可返还被扣除的积分

  • 举报人:
  • 被举报人:
  • *类型:
    • *投诉人姓名:
    • *投诉人联系方式:
    • *版权证明:
  • *详细原因: