《我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言》所使用的程序.zip资源-CSDN文库

共38个文件

php：30个

sql：2个

txt：1个

版权申诉

数据收集

爬虫

毕业设计

90 浏览量 2024-03-23 22:01:00 上传评论收藏 152KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

《我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言》所使用的程序.zip （38个子文件）

WGT-code

test.go 72B

hacked-emails

hacked_emails.php 2KB

banners.txt 5KB

library

cls_redis_client.php 3KB

rolling_curl.php 13KB

cls_redis_server.php 5KB

cls_query.php 8KB

cls_curl.php 12KB

phpquery.php 164KB

cls_redis.php 36KB

composer.json 977B

demo

qiushibaike_css_selector.php 4KB

qiushibaike.php 4KB

test_requests.php 2KB

qiushibaike.sql 2KB

52mnw.php 3KB

mafengwo.php 5KB

mafengwo.sql 2KB

13384.php 6KB

qiushibaike_task.php 5KB

gitadd.sh 363B

core

constants.php 2KB

queue.php 39KB

cache.php 2KB

log.php 3KB

worker.php 13KB

init.php 3KB

phpspider.php 116KB

db.php 17KB

requests.php 31KB

util.php 27KB

selector.php 17KB

phpspider.bak20170807.php 87KB

worker.php 500B

test.php 651B

.gitignore 69B

autoloader.php 2KB

README.md 2KB

# phpspider -- PHP蜘蛛爬虫框架《我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言》所使用的程序 phpspider是一个爬虫开发框架。使用本框架，你不用了解爬虫的底层技术实现，爬虫被网站屏蔽、有些网站需要登录或验证码识别才能爬取等问题。简单几行PHP代码，就可以创建自己的爬虫，利用框架封装的多进程Worker类库，代码更简洁，执行效率更高速度更快。 demo目录下有一些特定网站的爬取规则，只要你安装了PHP环境，代码就可以在命令行下直接跑。对爬虫感兴趣的开发者可以加QQ群一起讨论：147824717。下面以糗事百科为例, 来看一下我们的爬虫长什么样子: ``` $configs = array( 'name' => '糗事百科', 'domains' => array( 'qiushibaike.com', 'www.qiushibaike.com' ), 'scan_urls' => array( 'http://www.qiushibaike.com/' ), 'content_url_regexes' => array( "http://www.qiushibaike.com/article/\d+" ), 'list_url_regexes' => array( "http://www.qiushibaike.com/8hr/page/\d+\?s=\d+" ), 'fields' => array( array( // 抽取内容页的文章内容 'name' => "article_content", 'selector' => "//*[@id='single-next-link']", 'required' => true ), array( // 抽取内容页的文章作者 'name' => "article_author", 'selector' => "//div[contains(@class,'author')]//h2", 'required' => true ), ), ); $spider = new phpspider($configs); $spider->start(); ``` 爬虫的整体框架就是这样, 首先定义了一个$configs数组, 里面设置了待爬网站的一些信息, 然后通过调用```$spider = new phpspider($configs);```和```$spider->start();```来配置并启动爬虫. #### 运行界面如下: ![](http://www.epooll.com/zhihu/pachong.gif) 更多详细内容，移步到： [开发文档](http://doc.phpspider.org)

评论收藏

内容反馈

版权申诉