[![GitHub issues](https://img.shields.io/github/issues/ssstk/findcl.svg)](https://github.com/ssstk/findcl/issues)
[![GitHub forks](https://img.shields.io/github/forks/ssstk/findcl.svg?style=social&label=Fork)](https://github.com/ssstk/findcl/network)
[![GitHub stars](https://img.shields.io/github/stars/ssstk/findcl.svg?style=social&label=Stars)](https://github.com/ssstk/findcl/stargazers)
[![dependency status](https://img.shields.io/david/ssstk/findcl.svg?maxAge=3600&style=flat)](https://david-dm.org/ssstk/findcl/)
### 项目简介
* 此项目仅用学习交流技术使用 不做商业用途。
* 使用 nodejs 实现磁力链接爬虫 磁力链接解析成 torrent种子信息,保存到数据库,利用 Elasticsearch 实现中文检索。koa2 搭建磁力链接搜索引擎
* 后端脚本 磁力链接获取 磁力链接解析 入库 Mongodb 定时同步 Elasticsearch
* 源码地址 https://github.com/ssstk/findcl
* 后端脚本 磁力链接获取 磁力链接解析 入库Mongodb 定时同步 Elasticsearch
* 源码地址 https://github.com/ssstk/manget2torrent
* @keenwon的node磁力搜索引擎的文章,感觉非常有意思,同时也谢谢能把项目分享出来 @keenwon的项目地址antcolony 实现方式 还是有很大的不同 从获取磁力 到解析磁力
### 项目依赖
* Mongodb
* mongoose
* Elasticsearch
* nginx
* koa2
* vue
* DHT BT 资源爬虫 磁力链接解析 manget2torrent
* crontab 定时执行 Mongodb 与 Elasticsearch 的数据同步
* ...
### 其他
* 有其他问题请新建[issue](https://github.com/ssstk/findcl/issues)交流。
### 更新日志
* 2018-06-21 搜索列表 按照资源收录时间排序
* 2018-07-04 搜索列表 支持多关键字搜索
* 2018-07-05 支持ssl 证书
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
Nodejs 实现磁力链接获取 DHT BT爬虫 磁力链接解析 种子解析 资源搜索 .zip (58个子文件)
WGT-code
.editorconfig 147B
yarn.lock 253KB
src
pages
help.vue 5KB
list
detail.vue 5KB
index.vue 7KB
declare.vue 3KB
index.vue 1KB
App.vue 548B
assets
logo.png 7KB
css
style.css 12KB
favicon.ico 4KB
images
logo.png 14KB
top.gif 2KB
bg.jpg 535KB
main.js 751B
api
api.js 1KB
components
footer.vue 320B
common
dom.js 1KB
common.js 4KB
router
index.js 796B
.babelrc 402B
dist
index.html 2KB
static
js
manifest.2ae2e69a05c33dfc65f8.js.map 5KB
vendor.57a4757ad1a58ee54547.js 419KB
app.de58eac1cd979b593123.js 29KB
app.de58eac1cd979b593123.js.map 93KB
manifest.2ae2e69a05c33dfc65f8.js 857B
vendor.57a4757ad1a58ee54547.js.map 1.54MB
img
bg.c6c0413.jpg 535KB
logo.c0b5966.png 14KB
css
app.6bf4d58fa1893b407eb639587aff186b.css 12KB
app.6bf4d58fa1893b407eb639587aff186b.css.map 25KB
package.json 2KB
build
check-versions.js 1KB
logo.png 7KB
utils.js 3KB
vue-loader.conf.js 553B
webpack.prod.conf.js 5KB
build.js 1KB
webpack.base.conf.js 2KB
webpack.dev.conf.js 3KB
.postcssrc.js 246B
index.html 2KB
test
e2e
specs
test.js 561B
nightwatch.conf.js 1KB
runner.js 2KB
custom-assertions
elementCount.js 765B
unit
.eslintrc 58B
setup.js 56B
specs
HelloWorld.spec.js 354B
jest.conf.js 725B
.gitignore 226B
static
.gitkeep 0B
README.md 2KB
config
test.env.js 149B
prod.env.js 61B
index.js 2KB
dev.env.js 156B
共 58 条
- 1
资源评论
JJJ69
- 粉丝: 6210
- 资源: 5783
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功