# 已弃坑
本项目是一个抓取微博数据的爬虫程序,抓取用户的个人信息以及用户的关注列表,程序会对用户的关注列表的关注列表进行再次抓取,数据库中已抓取的不再抓取
程序效果图
![image](http://a3.qpic.cn/psb?/9f72dd68-4a03-4651-9f2d-60315a7e474a/k7JI94LbutdjTLmD6h2Qiqc.8H.cpvupIC6n53CDi6s!/b/dA0BAAAAAAAA&bo=xAMvAgAAAAAFB84!&rf=viewer_4)
![image](http://a1.qpic.cn/psb?/9f72dd68-4a03-4651-9f2d-60315a7e474a/5tcygnDCgMfv*lxgsB1oRLrb8.81I.SL4XnjgAhZMog!/b/dHEBAAAAAAAA&bo=PQTrAQAAAAAFAPA!&rf=viewer_4)
![image](http://a1.qpic.cn/psb?/9f72dd68-4a03-4651-9f2d-60315a7e474a/xzdfZd8r6I5dzMCSrKLUQaVSMsaqE38ziw1jvu4rPxE!/b/dHEBAAAAAAAA&bo=vgKpAQAAAAAFADc!&rf=viewer_4)
用到的第三方库:Okhttp,okio,Jsoup [运行项目前请下载并添加构建这些库]
main包中就是两个程序的执行类 一个执行时抓用户的关注列表 另一个用来抓用户个人数据
当然你可以写在一个类中 利用线程并发执行 我只是为了测试方便
同时你也可以利用IDE 看程序的执行和方法的调用过程 方便理解 这里我就不再一一解释说明了 程序员都会
Spider包中是抓取信息并解析的类
datacollect包的类是将Spider下的类返回的相关list数据插入到数据库
[我用的是mysql, DBUtil中改为你自己的数据库名]
首先在数据库 t_userlist 表中添加一条你自己的微博账号信息或者其他作为初始数据 程序会从该账号开始抓取数据
如http://weibo.com/u/3190836xxx/home 登录微博时 网址中u后面的数字就是该微博账号的ID 数据库中添加它作为初始的数据
注意:spider包下的spider类中的cookies的值需要修改为你自己的微博测试账号模拟登陆时返回的cookie值
若不清楚如何抓包获取cookies 请自行Google
最好注册微博小号进行模拟登陆抓数据
否则在你真正登陆微博时你的账号会提示异常 而且查看自己粉丝一类信息时会无限的跳到自己主页
在执行程序时 如果返回不到数据 有可能是微博网页的标签值有改变[出现机率不大]
你需要打开微博网页查看其源代码 修改源码中利用jsoup解析html的标签名
PS:由于微博反爬虫做的比较好 登陆时进行了三重加密.
我还不太清楚其加密机制 同时为了省去麻烦 本项目没有加密操作 下次打开电脑运行项目前先抓包再重新修改下cookie值就可以了
=============================
数据库表:用户表和用户信息表
用户表:
-- ----------------------------
-- Table structure for t_userlist
-- ----------------------------
DROP TABLE IF EXISTS `t_userlist`;
CREATE TABLE `t_userlist` (
`id` int(11) NOT NULL auto_increment,
`userid` varchar(255) default NULL,
`username` varchar(255) default NULL,
`rootuserid` varchar(255) default NULL,
`rootusername` varchar(255) default NULL,
`mutualfollow` varchar(255) default '已关注',
`visited` tinyint(4) default '0',
`infostored` tinyint(4) default '0',
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=52476 DEFAULT CHARSET=utf8;
=========================================
用户信息表:
-- ----------------------------
-- Table structure for t_userinfo
-- ----------------------------
DROP TABLE IF EXISTS `t_userinfo`;
CREATE TABLE `t_userinfo` (
`id` int(11) NOT NULL auto_increment,
`userid` varchar(255) default NULL,
`username` varchar(255) default NULL,
`address` varchar(255) default '无' COMMENT '所在地',
`gender` varchar(255) default '保密' COMMENT '性别',
`sexual` varchar(255) default '保密' COMMENT '性取向',
`Relationship` varchar(255) default '保密' COMMENT '感情状况',
`birthday` varchar(255) default '保密',
`college` varchar(255) default '保密',
`middlesch` varchar(255) default '保密',
`blog` varchar(255) default '保密',
`blood` varchar(255) default '保密',
`profile` varchar(255) default '人懒什么都没写',
`personaldomain` varchar(255) default '无' COMMENT '个性域名',
`registertime` varchar(255) default '保密',
`email` varchar(255) default '保密',
`qq` varchar(255) default '保密',
`tag` varchar(255) default '闲人一个' COMMENT '标签',
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=76 DEFAULT CHARSET=utf8;
========================================================================================
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
软件开发设计:应用软件开发、系统软件开发、移动应用开发、网站开发C++、Java、python、web、C#等语言的项目开发与学习资料 硬件与设备:单片机、EDA、proteus、RTOS、包括计算机硬件、服务器、网络设备、存储设备、移动设备等 操作系统:LInux、树莓派、安卓开发、微机操作系统、网络操作系统、分布式操作系统等。此外,还有嵌入式操作系统、智能操作系统等。 网络与通信:数据传输、信号处理、网络协议、网络与通信硬件、网络安全网络与通信是一个非常广泛的领域,它涉及到计算机科学、电子工程、数学等多个学科的知识。 云计算与大数据:包括云计算平台、大数据分析、人工智能、机器学习等,云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。
资源推荐
资源详情
资源评论
收起资源包目录
一个基于微博用户数据的Java爬虫项目.zip (26个子文件)
cm
WbSpider
.classpath 622B
.settings
org.eclipse.jdt.core.prefs 587B
src
com
jp
sipder
Spider.java 2KB
GetUserInfo.java 3KB
GetUserlist.java 2KB
datacollect
UserInfoDataGather.java 3KB
UserDataGather.java 3KB
htmlParser.java 1KB
model
UserInfo.java 3KB
User.java 837B
main
ExecuteUserInfoSpider.java 522B
ExecuteUserSpider.java 603B
DbUtil
DbUtil.java 874B
bin
com
jp
sipder
GetUserInfo.class 4KB
GetUserlist.class 2KB
Spider.class 5KB
datacollect
UserInfoDataGather.class 5KB
UserDataGather.class 5KB
htmlParser.class 2KB
model
User.class 1KB
UserInfo.class 4KB
main
ExecuteUserInfoSpider.class 1KB
ExecuteUserSpider.class 1KB
DbUtil
DbUtil.class 2KB
.project 367B
README.md 4KB
共 26 条
- 1
资源评论
妄北y
- 粉丝: 9691
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- XILINXFPGA源码Xilinxspratan3xcs100E(VGAPS2)
- XILINXFPGA源码XilinxSPARTAN-3E入门开发板实例
- XILINXFPGA源码XilinxSdramVerilog和VHDL版本文档
- 物联网智能家居方案-基于Nucleo-STM32L073&机智云(大赛作品,文档齐全,可直接运行)(文档加Matlab源码)
- XILINXFPGA源码XilinxISE9.xFPGACPLD设计源码
- 成都市地图含高新区(高新南区,高新西区),天府新区,东部新区虚拟行政区划
- XILINXFPGA源码XilinxEDK设计试验
- XILINXFPGA源码XilinxEDKMicroBlaze内置USB固件程序
- 基于 django 的视频点播后台管理系统源代码+数据库
- 基于Java的网上医院预约挂号系统的设计与实现(部署视频)-kaic.mp4
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功