phP的抓取网站类库.zip

共4个文件

php：2个

txt：1个

url：1个

类库下载-phP的抓取网站类库

需积分: 17 1 下载量 73 浏览量 2019-07-11 10:32:53 上传评论收藏 47KB ZIP 举报

温馨提示

<?php header("Content-Type: text/html; charset=UTF-8"); require("phpQuery.php"); $hj = QueryList::Query('http://mobile.csdn.net/',array("title"=>array('.unit h1','text'))); //dump($hj->data); $data = QueryList::Query('http://cms.querylist.cc/bizhi/453.html',array( 'image' => array('img','src') ))->data; // $data = QueryList::Query('http://cms.querylist.cc/google/list_1.html',array( 'link' => array('a','href') ))->data; $page = 'http://cms.querylist.cc/news/566.html'; $reg = array( 'title' => array('h1','text'), 'date' => array('.pt_info','text','-span -a',function($content){ $arr = explode(' ',$content); return $arr[0]; }), 'content' => array('.post_content','html','a -.content_copyright -script',function($content){ $doc = phpQuery::newDocumentHTML($content); $imgs = pq($doc)->find('img'); foreach ($imgs as $img) { $src = 'http://cms.querylist.cc'.pq($img)->attr('src'); $localSrc = 'w/'.md5($src).'.jpg'; $stream = file_get_contents($src); file_put_contents($localSrc,$stream); pq($img)->attr('src',$localSrc); } return $doc->htmlOuter(); }) ); $rang = '.content'; $ql = QueryList::Query($page,$reg,$rang); $data = $ql->getData(); dump($data);支持抓取网站,进行爬虫,非常强大,是一个基于PHP的服务端开源项目，它可以让PHP开发人员轻松处理DOM文档内容，比如获取某新闻网站的头条信息。更有意思的是，它采用了jQuery的思想，你可以像使用jQuery一样处理页面内容，获取你想要的页面信息。

资源推荐

资源详情

资源评论