没有合适的资源?快使用搜索试试~ 我知道了~
web-page-parser:用于解析网页内容的 Ruby 库,例如 BBC 新闻页面。 由新闻嗅探器项目使用
需积分: 9 0 下载量 87 浏览量
2021-05-31
10:32:38
上传
评论
收藏 1.98MB ZIP 举报
温馨提示
网页分析器 网页解析器是一个Ruby库,用于解析某些网页(例如BBC新闻页面)中的内容。 它去除了所有非文本内容,留下了标题、出版日期和一系列段落。 网页解析器过去常常大量使用正则表达式,而不是实际解析 HTML。 这听起来可能有点古怪,但特别是 BBC 新闻 HTML 具有语义标记*在评论内*,标准 HTML 解析无法轻易引用这些标记。 但是早期使用网页解析器的狂野西部时代(早在 2009 年!)已经结束,新闻网页格式已经有了很大改进,大多数解析器现在使用标准的 HTML 解析。 网页解析器目前支持 BBC 新闻、独立报、纽约时报、华盛顿邮报和卫报新闻文章,但新的解析器正在计划中并且可以轻松添加。 新闻嗅探器 Web Page Parser 主要由项目使用,该项目解析和归档新闻文章以跟踪它们的变化方式。 这极大地影响了网页解析器的设计。 News Sniffer 要求解析器的更
资源推荐
资源评论
资源评论
不就是输
- 粉丝: 21
- 资源: 4612
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功