python抓取360百科词条

3星(超过75%的资源)
所需积分/C币:50 2016-04-07 23:56:02 9KB ZIP
84
收藏 收藏
举报

学习python一周,学着写了一个爬虫,用来抓取360百科的词条,在这个过程中,由于一个小小的改动,程序出现一些问题,又花了几天时间研究,问了各路高手,都没解决,最终还是自己解决了,其实就是对list列表理解不够深入导致的。这个bug很有借鉴意义。 有5个模块: spider_main.py是入口函数 url_manager.py是管理器,管理需要抓取的url和已经抓取的url html_downloader.py是下载器,下载对应url的网页 html_parser.py是解析器,解析出新的url列表和当前的词条信息 html_outputer.py是输出器,将抓取的词条title和解释summary输出成一个html表格 本程序使用的是最新的python3.4.4,使用的类库有: 官方的urllib 第三方的BeautifulSoup(自行下载安装)

...展开详情
立即下载 身份认证后 购VIP低至7折
一个资源只可评论一次,评论内容不能少于5个字
zhang0b 然而我运行你的代码不好使啊···
2018-06-07
回复
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
关注 私信
上传资源赚钱or赚积分
最新推荐
python抓取360百科词条 50积分/C币 立即下载
1/0