没有合适的资源?快使用搜索试试~ 我知道了~
VBA处理网页基础二.doc
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 131 浏览量
2021-10-07
20:02:09
上传
评论
收藏 999KB DOC 举报
温馨提示
试读
30页
VBA处理网页基础二.doc
资源推荐
资源详情
资源评论
- -
VBA 的 WEB 应用系列教程——HTML 文档篇
上节课,我们说了 通讯, 通讯一般情况返回的是啥呢?是页面的源代
码。例如,我们访问百度,返回了,“<!doctype html><html>…〞一大堆
东西。就是,我们在页面点击右键,“查看页面源文件〞,如图:
我们的浏览器,正是把这堆源代码,翻译成我们可视的生动地页面的。就
像 VBA 一样,这堆代码是什么语言呢,就是通常所说的,超文本标记语言。
为啥叫标记语言,因为它只能用于展示,展示我们所看到的网页页面。不
是编程语言哦。
为啥叫超文本呢,大家仔细看,这堆源代码有什么特征呢,就是有很多<…
>这样的文本,一般而言,我们把<…>叫做标签,细心的同学可以发现,标签
都是成对出现的,例如“<title>百度一下,你就知道 </title>〞。第一个
叫做开场标签,第二个多带了个/叫完毕标签。标签之间就是网页的文本,例如
这个例子,就是我们网页标题的文本“百度一下,你就知道〞。所以,标签的作
用就是,给文本打上标记,告诉浏览器,怎么显示这个文本。例如本例,要求
浏览器把“百度一下,你就知道〞显示成网页的标题。HTML 文档=文本+标签,
所以就超文本啦。
- . word.zl-
- -
总之,HTML 就是用来描述网页的语言,像上面所说的<title>这样的标签,
是有一整套的,呵呵。
我们的教程,并不是为了教大家,怎么去做网页,设计网页,因此,大家
仅仅需要,大致的了解一些 HTML 系列的文本标记语言的根底即可,知道常用
的几个标签,有什么用即可。
一、网页数据提取常见的 HTML 标签/元素
上面说了,标签是用来描述网页的。浏览器读取 HTML 文档,识别标签,
并按标签要求以网页进展显示文本。大局部标签都是成队出现的。
起始标签和完毕标签之间的所有文本,都叫做元素。也就是这个格式就是:
<起始标签:也叫元素名>元素的容<完毕标签:/+元素名>
标签是可以拥有属性的,因此起始标签,有时候格式如下:
<元素名 属性名称=〞属性值〞>
属性提供了元素的一些附加信息啦,后面我们讲具体标签,大家就会见到
属性怎么用。
另外,注意,元素是可以拥有元素的,即某个元素的容有时候是一个子元
素。
元素这东西,比拟抽象,我们可以把它且当作一个对象来理解,例如工作
簿对象,每个工作簿的名称都不一样〔属性〕,每个工作簿里面都有工作表
〔子元素〕,每个表都有名称〔属性〕,里面填写的容也不一样〔元素的容〕。
下面讲讲常见的和我们网页数据提取要常见的元素/标签。
(一) 整体框架构造:
每个网页文档,都是有个大致的框架,框架如下:
<html>
<head> <!--注释:文档头部,文档相关消息,并不提供文档容-->
<title>
网页标题
</title>
- . word.zl-
- -
</head>
<body> <!--注释:文档主体-->
网页文档主体
</body>
</html>
把上面这段文本保存在 TXT 文件里面,然后另存.html 格式,就可以得到
最根底的页面。
从上面的框架代码,我们可以看出,一般的页面,都有 html 元素,其一
般含两个元素,一个是 head 元素,一个是 body 元素。Head 元素仅仅说明
- . word.zl-
- -
文档的相关消息,并不展示文档实体,body 元素才是真正展示文档主体的,
所有要在页面展示的元素,都要在 body 內进展书写。
后面的元素的测试,都是以替换掉 body 元素的文本“网页文档主体〞进展
书写,后续不再复述这个框架。
〔二〕段落<p>
特别是提取小说,新闻等页面的消息,文本都是一段一段的,这样的页面,
一般是通过<p>标签实现的。这个没啥好说的,自己动手试看看就知道。
所以,当运用 ie/webbrowser 方式提取这类网页的时候,历遍段落 p 元素即
可。
〔三〕超<a>
超是我们最常见的页面元素,根本的门户都有他,点了以后,可以跳转到
另一个页面。一般语法格式:
<a href=〞跳转的 URL〞 target=〞 _blank/_self〞>显示的超文本
</a>
Target 属性,表示的是,当我们点击超,是在原页面进展跳转〔_self〕还
是新建页面进展跳转〔_blank〕。
测试做个 ET 的超吧。
- . word.zl-
- -
〔四〕图像<img>
图像标签用法和超类似,语法:
<img src=〞url〞 alt=〞文本〞>
alt 属性代表的是,当图片无法加载的时候,替换显示的文本。
我 们 做 个 加 载 ET 的 LOGO 的 页 面 玩 玩 。 〔 .exceltip.net/static/
image/mon/logo.jpg〕。
〔五〕表格<table>
表格是我们网页最常见的,也是我们网页数据提取,最需要打交道的,其
实它非常简单,框架如下,每行用<tr>,每个单元格用<td>:
<tableborder="1"> <!--注释:border 设置表格边框样式-->
<tr>
<td>第一行第一个单元格</td>
<td>第一行第二个单元格</td>
- . word.zl-
剩余29页未读,继续阅读
资源评论
pyhm63
- 粉丝: 6
- 资源: 20万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功