# 妹图狩猎者
#### 项目介绍
{**以下是码云平台说明,您可以替换为您的项目简介**
码云是开源中国推出的基于 Git 的代码托管平台(同时支持 SVN)。专为开发者提供稳定、高效、安全的云端软件开发协作平台
无论是个人、团队、或是企业,都能够用码云实现代码托管、项目管理、协作开发。企业项目请看 [https://gitee.com/enterprises](https://gitee.com/enterprises)}
#### 软件架构
软件架构说明
#### 安装教程
1. xxxx
2. xxxx
3. xxxx
#### 使用说明
1. xxxx
2. xxxx
3. xxxx
#### 参与贡献
1. Fork 本项目
2. 新建 Feat_xxx 分支
3. 提交代码
4. 新建 Pull Request
#### 码云特技
1. 使用 Readme\_XXX.md 来支持不同的语言,例如 Readme\_en.md, Readme\_zh.md
2. 码云官方博客 [blog.gitee.com](https://blog.gitee.com)
3. 你可以 [https://gitee.com/explore](https://gitee.com/explore) 这个地址来了解码云上的优秀开源项目
4. [GVP](https://gitee.com/gvp) 全称是码云最有价值开源项目,是码云综合评定出的优秀开源项目
5. 码云官方提供的使用手册 [https://gitee.com/help](https://gitee.com/help)
6. 码云封面人物是一档用来展示码云会员风采的栏目 [https://gitee.com/gitee-stars/](https://gitee.com/gitee-stars/)
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫 Deep Web爬虫爬行过程中最重要部分就是表单填写,包含两种类型: (1)基于领域知识的表单填写:此方法一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单。Yiyao Lu等人提出一种获取Form表单信息的多注解方法,将数据表单按语义分配到各个组中,对每组从多方面注解,结合各种注解结果来预测一个最终的注解标签;郑冬冬等人利用一个预定义的领域本体知识库来识别Deep Web页面内容,同时利用一些来自Web站点导航模式来识别自动填写表单时所需进行的路径导航。 (2)基于网页结构分析的表单填写:此方法一般无领域知识或仅有有限的领域知识,将网页表单表示成DOM树,从中提取表单各字段值。Desouky等人提出一种LEHW方法,该方法将HTML网页表示为DOM树形式,将表单区分为单属性表单和多属性表单,分别进行处理;孙彬等人提出一种基于XQuery的搜索系统,它能够模拟表单和特殊页面标记切换,把网页关键字切换信息描述为三元组单元,按照一定规则排除无效表单,将Web文档构造成DOM树,利用XQuery将文字属性映射到表单字段。
资源推荐
资源详情
资源评论
收起资源包目录
一款基于Golang开发的命令行爬虫工具.zip (24个子文件)
新建文本文档.txt 2KB
sister_hunter-master
single_task.go 3KB
task_test.go 727B
save
README.md 1KB
three_task.go 13B
core
utils_test.go 344B
utils.go 911B
analysis.go 4KB
README.md 1KB
analysis_test.go 948B
logs
README.md 1KB
.gitignore 40B
double_task.go 4KB
example
美绪.json 1KB
双层多任务.json 4KB
单层多任务.json 2KB
双层单任务.json 2KB
三层单任务.json 0B
单层单任务.json 1KB
三层多任务.json 0B
蜜桃社.json 2KB
README.md 1KB
README.md 851B
main.go 1KB
共 24 条
- 1
资源评论
野生的狒狒
- 粉丝: 2723
- 资源: 2219
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功