天鹅
Golang中Goose HTML Content / Article Extractor算法的实现。
通过Swan,您可以删除当今许多页面中所有多余的垃圾,从而从任何网页中提取清理后的文本和HTML内容。
请查看以获取完整用法和示例。
特征
几乎所有来源的主要内容提取
提取图像中HTML内容
获取文章元数据,发布日期等
识别不同的内容类型并应用特殊提取(当前仅识别漫画网站和普通网站)
计划
当在文章中找到视频时,将视频插入HTML内容
识别新闻来源并提取相应的视频/音频内容
识别并提取更多类型的内容
一个有趣的想法: :