没有合适的资源?快使用搜索试试~ 我知道了~
RSS 是一个可用多种扩展来表示的缩写:“RDF 站点摘要(RDF Site Summary)”、“真正简单的辛迪加(Really Simple Syndication)”、“丰富站点摘要(Rich Site Summary)”,也许还能用其他扩展来表示。在如此混乱的名称背后,您会发现和这样一个平凡的技术领域相关的故事多得令人吃惊。RSS 是用于分发 Web 站点上的内容的摘要的一种简单的 XML 格式。它能够用于共享各种各样的信息,包括(但不是 仅限于)简讯、Web 站点更新、事件日历、软件更新、特色内容集合和基于 Web 进行拍卖的商品。 RSS 是 Netscape 在 1999 年创建
资源详情
资源评论
资源推荐
简单介绍简单介绍Python中的中的RSS处理处理
RSS 是一个可用多种扩展来表示的缩写:“RDF 站点摘要(RDF Site Summary)”、“真正简单的辛迪加(Really Simple
Syndication)”、“丰富站点摘要(Rich Site Summary)”,也许还能用其他扩展来表示。在如此混乱的名称背后,您会发现和
这样一个平凡的技术领域相关的故事多得令人吃惊。RSS 是用于分发 Web 站点上的内容的摘要的一种简单的 XML 格式。它
能够用于共享各种各样的信息,包括(但不是 仅限于)简讯、Web 站点更新、事件日历、软件更新、特色内容集合和基于
Web 进行拍卖的商品。
RSS 是 Netscape 在 1999 年创建的,它允许将许多信息源中的内容聚集到 Netcenter 门户网站中(这个门户网站现在已经不
存在了)。UserLand 社区中的 Web 狂热爱好者们成为了 RSS 早期的支持者,RSS 很快就成为了一种非常流行的格式。这种
流行使得人们很难对 RSS 进行改进从而使它能用于更多的地方。这种限制导致了 RSS 的发展出现了分歧。其中一个组选择
了一种基于 RDF 的方式,目的在于利用大量的 RDF 工具和模块,而另一个组则选择了一种更加紧缩的方式。前者被称之为
RSS 1.0,而后者则被称之为 RSS 0.91。就在上个月由于 RSS 非 RDF 变体的一个新版本的出现使得两者之间的竞争进一步
加剧,这一新版本被它的创造者称之为“RSS 2.0”。
RSS 0.91 和 1.0 非常流行,并且许许多多的门户网站和 Web 日志都使用它们。事实上,blogging 社区是 RSS 的主要用户,
而 RSS 就是某些现有的用于 XML 交换的网络令人印象深刻的理由。这些网络已在有机地增长,并且真正地成为现有的最成
功的 XML 服务的网络。RSS 成为一种 XML 服务是因为它被通过网际协议交换 XML 信息(绝大多数的 RSS 交换是 RSS 文
档的简单 HTTP GET)。在本文中,我们介绍的不过是许多可以与 RSS 一起工作的 Python 工具中的少数几个。我们不提供
针对 RSS 的技术上的介绍,因为您可以在其他许多的文章中获得这些内容。(请参阅 参考资料)。我们推荐您首先简单地熟
悉一下 RSS 知识,并且能了解 XML。您不需要去了解 RDF。
[ 由于 RSS 使用了 XML 描述而没有使用 WSDL,所以我们将 RSS 作为一个“XML 服务”而不是一个“Web 服务”对待。- 编者
按 ]
RSS.py
Mark Nottingham 编写的 RSS.py 是用于 RSS 处理的一个 Python 库。它非常完善并且编写的很好。它需要 Python 2.2 和
PyXML 0.7.1。它的安装是非常简单;您只需从 Mark 的主页中下载 Python 文件并将它复制到您的 PYTHONPATH 中的某
处。
大多数 RSS.py 的用户本身只需要关心它所提供的两个类: CollectionChannel 和 TrackingChannel 。后者似乎是这两个类中
更有用的一个。 TrackingChannel 是一个包含以每一项的关键字为索引的所有的 RSS 数据的数据结构。 CollectionChannel
是一个类似的数据结构,但它的结构更像 RSS 文档本身,它的顶层通道信息使用 URL 表示的散列值指向项细节。您很可能
会使用 RSS.ns 结构中的实用程序名称空间声明。 清单 1是一个简单的脚本,它将下载并解析用于 Python 新闻的 RSS 供
给,并以一个简单的清单形式打印来自各项的所有信息。
清单 1:使用 RSS.py 的一个简单练习
from RSS import ns, CollectionChannel, TrackingChannel
#Create a tracking channel, which is a data structure that
#Indexes RSS data by item URL
tc = TrackingChannel()
#Returns the RSSParser instance used, which can usually be ignored
tc.parse("http://www.python.org/channews.rdf")
RSS10_TITLE = (ns.rss10, 'title')
RSS10_DESC = (ns.rss10, 'description')
#You can also use tc.keys()
items = tc.listItems()
for item in items:
#Each item is a (url, order_index) tuple
url = item[0] print "RSS Item:", url
#Get all the data for the item as a Python dictionary
item_data = tc.getItem(item)
print "Title:", item_data.get(RSS10_TITLE, "(none)")
print "Description:", item_data.get(RSS10_DESC, "(none)")
我们从创建一个 TrackingChannel 实例开始,并且将从 http://www.python.org/channews.rdf 上的 RSS 供给解析得到的数据
填入其中。RSS.py 使用元组作为 RSS 数据的属性名称。对于那些不习惯 XML 处理技术的人来说,这种方式看上去也许不太
寻常,但它对于精确了解原始的 RSS 文件中的内容的确是一种很有效的方式。因此,一个 RSS 0.91 title 元素被认为不同于
一个 RSS 1.0 中的同名元素。应用程序有足够的数据来忽略这个差异,如果您愿意,可以通过忽略每个元组的名称空间的部
分来忽略这个差异;但基本的 API 是与初始 RSS 文件的语法相结合的,所以这个信息没有丢失。在代码中,我们使用这个属
性数据来聚集用于显示的新闻供给中的所有项。请注意,我们很仔细地不去假定任何特殊的项可能会有什么属性。我们使用如
下代码所示的安全的形式来检索属性。
print "Title:", item_data.get(RSS10_TITLE, "(none)")
如果没有找到该属性则它会提供一个缺省值,而不是这个示例。
weixin_38580759
- 粉丝: 4
- 资源: 971
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- human-pose-estimation-3d.pth
- Python测试Python测试Python测试
- 文档包含python读取csv的四种方法
- 导航菜单横向左右滑动并和下方的控件实现联动 2.zip
- Cube-World-Proto-Series v4.1.unitypackage
- ISAM操作说明,基于segment anything的自动化图片标注工具
- 30-sn22FNOKSNDKFONASKLDFNLNSADN那附近撒旦反抗精神的发
- 中文3DMAX测量标注插件DIMaster v2.0下载
- 第三方接口访问(需要在SpringBoot环境下使用)
- java图书管理系统毕业设计(源代码+论文).rar
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0