ROST DetailMinner 初级使用手册
概述
ROST DETAILMINNER 是武汉大学 ROST 虚拟学习团队开发的一款用于采集网页信息的情
报分析软件,ROST DETAILMINNER 是一个细粒度的网页采集工具,可以根据用户的需要
进行个性化的采集。
一、 主要用于对大量信息的分类整理。目前仍在试验测试阶段。
更新内容:
1、增加了集成网站登录采集功能,一些需要登录后记录 COOKIE 才能采集到内容的
网站,比如新浪微博,校内网,当当书评……
2、修改了目前发现的 BUG,有些网站采集出现服务器提交了协议冲
突.SECTION=RESPONSEHEADER DETAIL=CR 后面必须是 LF
3、修改了自动翻页采集的一点逻辑错误。
使用方法:
1、找到要采集的网页
2、确定要采集的页面元素
3、查看网页的源文件
4、确定要采集的页面元素在源文件中的起始终止位置
5、配置标签
6、测试,修改标签
7、简单任务设置,OK!
二:实例
例 1:采集当前页面
博客园首页信息的采集
网址:HTTP://WWW.CNBLOGS.COM/
例 2:采集子页面
腾讯新闻 > 国内新闻> 时政新闻
网址:HTTP://NEWS.QQ.COM/NEWSGN/ZHXW/SHIZHENGXINWEN.HTM
例 3:需登录网站的采集
新浪微博客
网址:HTTP://T.SINA.COM.CN/FOREVER1NGU
三:数据