
Xxx
电话: 邮箱:
住址:北京市海淀区
教育背景
2013.09–2017.06 毕业院校:南开大学滨海学院 学历:本科 专业:信息管理与信息系统
个人能力
有充足的编程能力,了解计算机网络、数据结构,Http/Https;
熟练使用 MySQL 数据库,熟悉 Redis,MongoDB 等 NoSQL 数据库;
熟练使用 XPath、re、json 模块进行数据提取;
熟练使用 Selenium+PhantomJS 实现动态 HTML 抓取;
熟练掌握 Scrapy 框架、了解 scrapy-redis 分布式组件;
掌握常见的爬虫、反爬虫知识及应对措施;熟悉 Django 框架、熟悉 Linux 系统;
熟悉 JavaScript、Ajax、JQuery、CSS、HTML 等 WEB 前端技术;
工作经历
2016.06-2017.07 天津坤禾生物
分析网站、网页、链接的特征,对指定的多个网站的网页进行网页抓取、数据提取, 负责特殊网
页采集任务的分析及采集方案设计。负责特殊网页采集任务的分析及采集方案设计。搭建分布式爬虫
环境。
项目经验
2015.09-2016.04 在学校跟着老师做项目
项目名称:抓取新浪微博数据(利用移动端抓取数据)
过程:
1. 分析 url,找到正确的首页 start_url,
2. 引擎从调度器中抽取 start_url 用于抓取数据;
3. 引擎把 url 封装成 request 传给下载器;
4. 下载器把资源下载下来并封装成应答包 Response;
5. 解析 Response,把 item 交给实体管道 Pipeline 进行下一步处理;
6. 若解析了 url 则交给调度器等待抓取。
项目名称:爬去斗鱼全部房间内容
过程:
1. 找到 start_url;导入 selenium 的 webdriver 包;
2. 发送 get 请求,获得响应;