锅炉管Py
从 HTML 页面中删除样板和全文提取
概括
样板库提供了算法来检测和删除网页主要文本内容周围多余的“混乱”(样板、模板)。
该项目是 Christian Kohlschütter 的 Java 库的原生 python 端口
算法
该库使用的算法基于(并扩展)了 Christian Kohlschütter 等人的论文“ ”的一些概念。
组件
一种 HTML 解析器,可将 HTML 转换为支持文本“块”的内部纯文本文档模型。 Python 版本使用快速解析器
几个过滤器组件分析并标记这些文本块
由一个或多个过滤器组成的提取器。 这种“管道”获取解析的文档对象并从中提取主要文本内容python版本atm中的一个提取器
一个 HTML 荧光笔,用于在输入页面的副本中直观地检查提取的主要内容。 不支持自动取款机
如何使用
以 url 作为参数简单运行 ./url2article.
评论0
最新资源