基于行块分布函数的通用网页正文抽取算法优化，Python实现+源代码+文档说明

共4个文件

py：1个

pdf：1个

md：1个

版权申诉

102 浏览量 2023-12-01 22:11:46 上传评论收藏 941KB ZIP 举报

# html-extractor #### 《基于行块分布函数的通用网页正文抽取算法》-稍许改进，Python实现在第六届中国软件杯大赛分布式爬虫赛题中，实现了该算法，意图实现新闻、博客类网站正文的自动结构化。比赛提供的测试要求提取的正文一字不差，不能包含多余的不属于正文的内容，也不能少了正文内容。《基于行块分布函数的通用网页正文抽取算法》提取的正文基本正确，但要做到一字不差，却有点困难，于是提出了以下改进。该正文抽取算法在基于行块分布函数的网页正文抽取方法上做了稍许改进，提高了准确率，使提取的正文更加“一字不差”。在比赛给出的测试包下进行测试，准确率达到90以上。 ## 算法实现描述对于新闻博客类网站，一般文字内容最集中的区域就是正文。但是也不尽然，有些新闻正文很短，而导航栏内容信息很多。首先，过滤噪声标签等的影响。采用正则过滤掉ul、script、style、注释等内容，标记该内容为A，然后过滤所有标签，再标记该内容为B。然后定义k行为一个行块，去掉空格的长度为行块长度。将过滤掉标签的内容B进行行块长度统计，根据行块分布找出最密集的区域则为初步得到的正文内容Text。该正文内容已经基本正确，但是如果该正文区域后方或前方不远处出现小部分无关内容，也会计入正文内容，导致有稍许误差。为了提高准确率，在去掉噪声的网页A中全文搜索初步正文Text中的块信息，一般为“p“标签，再计算得到该标签的父节点。将所有获得的父节点存储下来，出现次数最多的父节点标签记为包含整个正文区域的标签。直接从该标签提取文字即为正文。该过程失败则使用之前提取的内容Text作为正文，成功则使用该过程提取的文字作为正文。 --- -------- 该资源内项目源码是个人的毕设，代码都测试ok，都是运行成功后才上传资源，答辩评审平均分达到96分，放心下载使用！ <项目介绍> 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.md文件（如有），仅供学习参考, 切勿用于商业用途。 --------

资源推荐

资源详情

资源评论

收起资源包目录

基于行块分布函数的通用网页正文抽取算法优化，Python实现.zip （4个子文件）

code

基于行块分布函数的通用网页正文抽取算法.pdf 1.15MB

html-extractor.py 4KB

.gitignore 12B

README.md 2KB

# html-extractor #### 《基于行块分布函数的通用网页正文抽取算法》-稍许改进，Python实现在第六届中国软件杯大赛分布式爬虫赛题中，实现了该算法，意图实现新闻、博客类网站正文的自动结构化。比赛提供的测试要求提取的正文一字不差，不能包含多余的不属于正文的内容，也不能少了正文内容。《基于行块分布函数的通用网页正文抽取算法》提取的正文基本正确，但要做到一字不差，却有点困难，于是提出了以下改进。该正文抽取算法在基于行块分布函数的网页正文抽取方法上做了稍许改进，提高了准确率，使提取的正文更加“一字不差”。在比赛给出的测试包下进行测试，准确率达到90以上。 ## 算法实现描述对于新闻博客类网站，一般文字内容最集中的区域就是正文。但是也不尽然，有些新闻正文很短，而导航栏内容信息很多。首先，过滤噪声标签等的影响。采用正则过滤掉ul、script、style、注释等内容，标记该内容为A，然后过滤所有标签，再标记该内容为B。然后定义k行为一个行块，去掉空格的长度为行块长度。将过滤掉标签的内容B进行行块长度统计，根据行块分布找出最密集的区域则为初步得到的正文内容Text。该正文内容已经基本正确，但是如果该正文区域后方或前方不远处出现小部分无关内容，也会计入正文内容，导致有稍许误差。为了提高准确率，在去掉噪声的网页A中全文搜索初步正文Text中的块信息，一般为“p“标签，再计算得到该标签的父节点。将所有获得的父节点存储下来，出现次数最多的父节点标签记为包含整个正文区域的标签。直接从该标签提取文字即为正文。该过程失败则使用之前提取的内容Text作为正文，成功则使用该过程提取的文字作为正文。 --- 附：《基于行块分布函数的通用网页正文抽取》是哈尔滨工业大学信息检索研究中心陈鑫 (Xin Chen) 的研究成果，详情在这：[https://code.google.com/archive/p/cx-extractor/](https://code.google.com/archive/p/cx-extractor/)

评论收藏

内容反馈

版权申诉