ContentExtractor
================
##简介
ContentExtractor是一个开源的网页正文抽取工具,用JAVA实现,具有非常高的抽取精度。
##算法
ContentExtractor的网页正文抽取算法使用的是CEPR,适用于几乎所有的包含正文的网页。
算法简介:[http://dl.acm.org/citation.cfm?id=2505558](http://dl.acm.org/citation.cfm?id=2505558)
#项目地址转移
项目已和[WebCollector](https://github.com/CrawlScript/WebCollector)合并,当前项目为老版本ContentExtractor,请前往[WebCollector](https://github.com/CrawlScript/WebCollector)项目查看ContentExtractor的最新版本源码和API。
##教程(只适用于老版本,新版本请前往[WebCollector](https://github.com/CrawlScript/WebCollector))
ContentExtractor的接口非常简单,用户可以根据网页的url,或者网页的html,来进行网页正文抽取:
根据url,抽取网页的正文:
public static void main(String[] args) throws Exception {
String content=ContentExtractor.getContentByURL("http://news.
xinhuanet.com/world/2014-11/02/c_127166728.htm");
System.out.println(content);
}
根据html,抽取网页的正文:
public static void main(String[] args) throws Exception {
String html="获取到的html源码";
String content=ContentExtractor.getContentByHtml(html);
System.out.println(content);
}
##导入项目(只适用于老版本,新版本请前往[WebCollector](https://github.com/CrawlScript/WebCollector))
从ContentExtractor的github主页[https://github.com/hfut-dmic/ContentExtractor](https://github.com/hfut-dmic/ContentExtractor)上下载ContentExtractor-{版本号}-bin.zip,将解压后得到的jar包全部放到工程的build path即可。
##联系我们
欢迎加入讨论群:385105758
邮箱:__wugq@hfut.edu.cn__
##开发者
ContentExtractor由合肥工业大学dmic团队开发
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
Java是一种高性能、跨平台的面向对象编程语言。它由Sun Microsystems(现在是Oracle Corporation)的James Gosling等人在1995年推出,被设计为一种简单、健壮、可移植、多线程、动态的语言。Java的主要特点和优势包括以下几个方面: 跨平台性(Write Once, Run Anywhere): Java的代码可以在不同的平台上运行,只需编写一次代码,就可以在任何支持Java的设备上执行。这得益于Java虚拟机(JVM),它充当了代码和底层硬件之间的中介。 面向对象: Java是一种纯粹的面向对象编程语言,支持封装、继承和多态等面向对象的概念。这使得Java编写的代码更加模块化、可维护和可扩展。 多线程支持: Java内置了对多线程的支持,允许程序同时执行多个任务。这对于开发需要高并发性能的应用程序(如服务器端应用、网络应用等)非常重要。 自动内存管理(垃圾回收): Java具有自动内存管理机制,通过垃圾回收器自动回收不再使用的对象,使得开发者不需要手动管理内存,减轻了程序员的负担,同时也减少了内存泄漏的风险。
资源推荐
资源详情
资源评论
收起资源包目录
自动抽取网页正文的算法,用JAVA实现.zip (12个子文件)
TSP-code
ContentExtractor-1.0-bin.zip 276KB
LICENSE 18KB
ContentExtractor
nb-configuration.xml 1012B
pom.xml 4KB
src
main
java
cn
edu
hfut
dmic
htmlbot
DomPage.java 1KB
contentextractor
ContentExtractor.java 7KB
HtmlBot.java 1KB
util
GaussSmooth.java 2KB
JsoupHelper.java 4KB
TextUtils.java 2KB
.gitignore 26B
README.md 2KB
共 12 条
- 1
资源评论
JJJ69
- 粉丝: 6235
- 资源: 5778
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功