后裔采集器学习笔记1
需积分: 0 60 浏览量
更新于2022-08-08
收藏 199KB DOCX 举报
"后裔采集器学习笔记1"
本资源主要讲解了网络基础知识、Cookie、HTML、正则表达式等相关概念,并且介绍了后裔采集器的采集模式分类、账号注册和采集结果导出等内容。
一、网络基础知识
Uniform Resource Locator(URL)是统一资源定位系统,是因特网的万维网服务程序上用于指定信息位置的表示方法。URL ประกอบด้วย协议、域名或 IP 地址、端口和路径。IP 地址是用来唯一标识互联网上计算机的逻辑地址,让电脑之间可以相互通信。域名是符号化的地址方案,代替数字型的 IP 地址,方便人们记忆和书写。DNS(Domain Name System)是进行域名解析的服务器,将域名转换为 IP 地址。
二、Cookie
Cookie 是保存在客户端的纯文本文件,记录用户的访问行为和设置。Cookie 不能被视作代码执行,也不能成为病毒,对用户基本无害。Cookie 的作用主要是跟踪和记录用户的访问行为,当用户下一次访问同一网站时,网站会分析用户的 Cookie,进而采取措施返回个性化的网页。
三、HTML
HTML(Hyper Text Markup Language)是超文本标记语言,用于描述网络上的文档格式。HTML 文本是由 HTML 命令组成的描述性文本,用于说明文字、图形、动画、声音、表格、链接等。
四、正则表达式
正则表达式是一种过滤数据的规则,用来在采集时进行数据的提取和替换等操作。正则表达式可以将人脑理解的一些命名规则转换给电脑脑来使用,或者用来翻译电脑之间的语言,实现沟通。
五、后裔采集器
后裔采集器有两种采集模式:智能采集模式和流程图采集模式。智能采集模式适合列表类型网页、单页类型网页和列表+详情页类型网页,而流程图采集模式可以适用大多数网页的要求。账号注册可以使用户以前的工作可以在登陆其他电脑的后裔采集器的时候依然可以得到使用。
六、采集结果导出
在采集过程中,如果遇到采集结果数量和在浏览器中看到的数量不一致的问题,有两种可能性:一是采集速度过快而网页加载时间过慢,二是网页内容加载不完全。
本资源对网络基础知识、Cookie、HTML、正则表达式等进行了详细的讲解,并且介绍了后裔采集器的采集模式分类、账号注册和采集结果导出等内容,对学习网络爬虫和数据采集有重要的参考价值。