从 11 月 17 号开始学爬虫,到现在将近 1 个月
期间完成了
1. 基于 Python 语言的爬虫开发环境搭建(windows10/64bit 和 ubuntu17.10/64bit)
2. 完 成 了 菜 鸟 官 网 (HTTP/HTML/AJAX/JSON/CSS/XPATH) 以 及 简 单 的
MySQL/Redis/MongoDB 的学习
3. 阅读
requests/re/selenium/lxml/beautifulSoup/pyquery/pyspider/scrapy/pymql/pymongo
的官方文档和通过例子的编写实现了一些基本功能的理解
4. 通过崔庆才的视频教程完成了基本的一些简单爬虫的编写和理解
遇到的问题和实现的项目都已经归档到博客:
http://www.cnblogs.com/copywang/
回头看看这些天的劳动,反思以下:
1. 环境问题导致的重复安装劳动(以后直接切换到 Ubuntu 环境),特别是框架安装时候的
问题比较多(pyspider/scrapy),重复安装至少耗费了 2 天时间
2. 基础知识不牢固,在实现 scrapy 的时候,Pycharm 中的 external_lib 每次创建新项目和
在原有项目中再打开是不一样的,出来了 import 错误,折腾了 1 天
3. 数据类型辨识错误,没有理解好各个不同的解析库解析出来的是 class 还是 str,在调试
过程每次都要打印 type,浪费了比较多的编程时间
4. 不能迷信框架,在调试 pyspider/scrapy 的过程中,出现了比较多的调用错误,虽然框架
在一定程度上减少了调用者的编程难度,在没有阅读和理解源码的情况下,没有理解到
各个部件之间的联系,并不会在多大程度上给新手带来好处,如果是工作条件下的追求
效率实现,倒是没什么问题,但是对于新手一上来就使用框架,并没有想象中那么好
5. 多使用基本的 request 和 lxml
6. 动态语言写起来爽,但是在 debug 的时候真的要命
7. 增量爬取还没有学到任何资料
以上就是学习的内容,本吊智商捉急,无法达到大神那种一点即通的境界,只能来面向工作
编程,快到年底,看看爬虫工程师的需求和岗位要求,有句话说得好,一个人的成功,纪要
讲究个人努力,也要配合历史进程
1. 拉勾网的爬虫工程师需求
广州地区(本吊不能出去其他城市找工作)
评论0
最新资源