基于webmagic框架的轻量级爬虫爬取豆瓣电影数据.zip

共6个文件

java：3个

png：1个

md：1个

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉

0 下载量 178 浏览量 2024-03-08 11:44:30 上传评论收藏 78KB ZIP 举报

温馨提示

基于webmagic框架的轻量级爬虫爬取豆瓣电影数据.zip

资源推荐

资源详情

资源评论

收起资源包目录

基于webmagic框架的轻量级爬虫爬取豆瓣电影数据.zip （6个子文件）

SJT-code

.gitattributes 66B

src

MovieModel.java 3KB

DoubanModelPipeline.java 4KB

CrawlerDoubanMovieNew.java 9KB

images

数据库存储数据.png 74KB

README.md 1KB

共 6 条

# DoubanMovieCrawler 基于webmagic框架的轻量级爬虫。因为没有找到合适的代理地址,为了防止被豆瓣屏蔽未使用多线程。框架部分的代码并未上传，上传类的说明如下： 1.CrawlerDoubanMovieNew.java：爬虫类，以豆瓣电影分类的地址作为入口进行广度优先的爬虫，从每一部电影的相关推荐中获取新的需要爬取的地址，设置布隆过滤器来对地址进行去重（guava类库中的BloomFilter实现）；页面解析的process()方法只适用于绝大多数电影详情页，有部分冷门的、过于古老的电影豆瓣电影还是使用了以前的元素（原因未知）导致无法正确的爬取； 2.DoubanModelPipeline.java：数据管道类，此类自定义爬取到的数据的存储方式，本项目将所有爬取的电影数据存储到数据库中，采用mysql数据库，数据库版本为5.7； 3.MovieModel.java：数据model类。共计爬取了豆瓣电影网影视剧相关数据总计约8万多条，数据截图如下： ![image](https://github.com/masterwugui/DoubanMovieCrawler/blob/master/images/%E6%95%B0%E6%8D%AE%E5%BA%93%E5%AD%98%E5%82%A8%E6%95%B0%E6%8D%AE.png)

评论收藏

内容反馈

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉

资源评论