【免费】后裔采集器学习笔记1_后裔采集器可以采集美团在线评论的数据吗资源-CSDN文库

需积分: 0 60 浏览量更新于2022-08-08 收藏 199KB DOCX 举报

"后裔采集器学习笔记1" 本资源主要讲解了网络基础知识、Cookie、HTML、正则表达式等相关概念，并且介绍了后裔采集器的采集模式分类、账号注册和采集结果导出等内容。一、网络基础知识 Uniform Resource Locator（URL）是统一资源定位系统，是因特网的万维网服务程序上用于指定信息位置的表示方法。URL ประกอบด้วย协议、域名或 IP 地址、端口和路径。IP 地址是用来唯一标识互联网上计算机的逻辑地址，让电脑之间可以相互通信。域名是符号化的地址方案，代替数字型的 IP 地址，方便人们记忆和书写。DNS（Domain Name System）是进行域名解析的服务器，将域名转换为 IP 地址。二、Cookie Cookie 是保存在客户端的纯文本文件，记录用户的访问行为和设置。Cookie 不能被视作代码执行，也不能成为病毒，对用户基本无害。Cookie 的作用主要是跟踪和记录用户的访问行为，当用户下一次访问同一网站时，网站会分析用户的 Cookie，进而采取措施返回个性化的网页。三、HTML HTML（Hyper Text Markup Language）是超文本标记语言，用于描述网络上的文档格式。HTML 文本是由 HTML 命令组成的描述性文本，用于说明文字、图形、动画、声音、表格、链接等。四、正则表达式正则表达式是一种过滤数据的规则，用来在采集时进行数据的提取和替换等操作。正则表达式可以将人脑理解的一些命名规则转换给电脑脑来使用，或者用来翻译电脑之间的语言，实现沟通。五、后裔采集器后裔采集器有两种采集模式：智能采集模式和流程图采集模式。智能采集模式适合列表类型网页、单页类型网页和列表+详情页类型网页，而流程图采集模式可以适用大多数网页的要求。账号注册可以使用户以前的工作可以在登陆其他电脑的后裔采集器的时候依然可以得到使用。六、采集结果导出在采集过程中，如果遇到采集结果数量和在浏览器中看到的数量不一致的问题，有两种可能性：一是采集速度过快而网页加载时间过慢，二是网页内容加载不完全。本资源对网络基础知识、Cookie、HTML、正则表达式等进行了详细的讲解，并且介绍了后裔采集器的采集模式分类、账号注册和采集结果导出等内容，对学习网络爬虫和数据采集有重要的参考价值。

1. 基本名称解释：

url：URL 就是网站的网址，是这个网站的简单门牌号。用非人话来说，统一资源定位系统（uniform resource

locator;URL）是因特网的万维网服务程序上用于指定信息位置的表示方法。其实是通过网站的 ip 地址在 dns

解析之后得到的结果

小拓展：

1.IP 地址:IP 地址是用来唯一标识互联网上计算机的逻辑地址，让电脑之间可以相互通信. 每台连网计

算机都依靠 IP 地址来互相区分、相互联系

2.域名:由于 IP 地址是数字标识，使用时难以记忆和书写，因此在 IP 地址的基础上又发展出一种符号

化的地址方案，来代替数字型的 IP 地址。每一个符号化的地址都与特定的 IP 地址对应，这样网络上的资源

访问起来就容易得多了。这个与网络上的数字型 IP 地址相对应的字符型地址，就被称为域名。

3.DNS:在 Internet 上域名与 IP 地址之间是一对一（或者多对一）的，域名虽然便于人们记忆，但机器

之间只能互相认识 IP 地址，它们之间的转换工作称为域名解析，域名解析需要由专门的域名解析服务器来

完成，DNS 就是进行域名解析的服务器。域名的最终指向是 IP

4.网址:统一资源定位符（URL，英语 UniformResourceLocator 的缩写）也被称为网址，网址格式为：<

协议>://<域名或 IP>:<端口>/<路径>

cookie：

Cookie 是保存在客户端的纯文本文件，比如 txt 文件，所谓的客户端就是我们自己的本地电脑，当我

们使用自己的电脑通过浏览器进行访问网页的时候，服务器就会生成一个证书并返回给我的浏览器并写入

我们的本地电脑，这个证书就是 cookie。一般来说 cookie 都是服务器端写入客户端的纯文本文件。cookies

就好像你的一张身份证，你电脑上的 cookies 和其他电脑上的 cookies 是不一样的;cookies 不能被视作代码

执行，也不能成为病毒，所以它对你基本无害。

cookies 的作用主要是，当你访问了某些网页，并且对网页的一些设置进行修改，cookies 就能跟踪并

记录到这些修改，当你下一次访问这个网页的时候，这个网页会分析你电脑上的 cookies，进而采取措施像

你返回更符合你个性化的网页;当然，目前大部分广告的定位基础也是基于 cookies 的，比如你此前访问了

大量的健身类网站，cookies 记录了你的访问行为，广告主就能够根据你的访问行为，向你推送健身类的广

告。

当你浏览某网站时，由 Web 服务器置于你硬盘上的一个非常小的文本文件，它可以记录你的用户 ID、

密码、浏览过的网页、停留的时间等信息。当你再次来到该网站时，网站通过读取 Cookie，得知你的相关

信息，就可以做出相应的动作，如在页面显示欢迎你的标语，或者让你不用输入 ID、密码就直接登录等等。

下载后可阅读完整内容，剩余3页未读，立即下载

资源推荐

资源评论

三山卡夫卡

粉丝: 26
资源: 323

后裔采集器学习笔记1

houyicaiji-setup-3.5.4.exe_后裔采集-3.5.4(测试).exe

后羿采集器 3.1.4

后羿采集器循环输入采集规则

谷歌后羿采集器.exe

八爪鱼采集器8.1.16.zip

20190328-方便面-商品搜索-网易考拉-采集的数据-后羿采集器-数据集

后裔网络版服务端点数生产专用工具

中国远祖如何教导后裔

后羿爬虫软件

如何用GPT开发插件脚本，批量爬取小红书笔记，提升内容创作效率.pdf

KTV软件--后裔108+免注册.

XML数据流中祖先_后裔关系匹配算法.pdf 论文

虚拟机笔记1.pdf

建立规范的全国公牛后裔测定系统.pdf

houyicaiji-setup-3.5.4.exe

高中地理图说天下广西诸葛亮后裔村房屋按北斗七星分布素材

D1D5 CFT的非极端超后裔

江苏省南通市唐闸中学七年级历史下册《第9课 民族政权并立的时代-女真族后裔探访》材料阅读 新人教版.doc

现代化规模猪场数据智能采集系统的设计与实施.pdf

EverythingApacheFlink:大大后裔

第1讲 “六招”读懂古诗词笔记2021最新.pdf

houyicaiji_v3.5.0.0.zip

descendant:知道你的后裔

广工数据结构 网络作业 代码

斯坦福目标检测深度学习指南.pdf

人工智能期末考试题及答案

关于Virasoro块的注释，其顺序为1 / c

人工智能考试题借鉴.pdf

数据库多粒度封锁学习攻略

最新资源

江苏省南通市唐闸中学七年级历史下册《第9课民族政权并立的时代-女真族后裔探访》材料阅读新人教版.doc

广工数据结构网络作业代码