没有合适的资源?快使用搜索试试~ 我知道了~
使用httpClient组件解析html并解决字符编码
5星 · 超过95%的资源 需积分: 10 54 下载量 90 浏览量
2011-03-09
10:09:30
上传
评论 1
收藏 25KB DOC 举报
温馨提示
试读
2页
使用httpclient 3.0解析html,实际使用当中遇到的字符集编码乱码问题,主要用于网页的信息采集,此外还列出一部分截取字符串的方法,带源码 httpclient3.0 自己下载jar包
资源推荐
资源详情
资源评论
public class HttpClientReduce {
/**
* 获得html内容
*/
public String getHtml(String url,String charset) {
//charset 是自己要访问的页面的字符集格式
HttpClient client = new HttpClient();
String returnContext = null;
try {
//此行代码是设置以utf-8的字符集格式来请求页面
client.getParams().setParameter(HttpMethodParams.HTTP_CONTENT_CHARSET,"u
tf-8");
HttpMethod method = new GetMethod(url);
method.getParams().setCookiePolicy(CookiePolicy.RFC_2109);
client.executeMethod(method);
InputStream resStream =method.getResponseBodyAsStream();
//以charset的字符集来获取字节流
BufferedReader br = new BufferedReader(new
InputStreamReader(resStream,charset));
StringBuffer resBuffer = new StringBuffer();
String resTemp = "";
while((resTemp = br.readLine()) != null){
resBuffer.append(resTemp);
}
returnContext= resBuffer.toString();
method.releaseConnection();
} catch (IOException e) {
logger.error("collect getHtml fail");
e.printStackTrace();
}
return returnContext;
}
/**
* 截取字符串
*/
public String getContent(String htmlString ,String
startString,String endString){
//htmlString是获取的html的内容
int start = htmlString.indexOf(startString);
if (start != -1) {
资源评论
- manyan19852013-11-07东西蛮好的。。。。
- happylifex2014-04-13还行,看看也不错
小帆船
- 粉丝: 0
- 资源: 7
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功