# Data collection and text mining with Python
<br>
**Python网络爬虫与文本分析**
含Python语法入门、网络爬虫、文本分析、机器学习等,全部课程均含有代码课件,欢迎前来学习
<br>
## 课程纲要
- **课程目标:** 掌握Python语法、网络爬虫、文本分析、机器学习的核心知识点和分析思路
- **核心知识点:** 爬虫原理及应用、 非结构化文本数据挖掘的思路及方法、机器学习应用等
- **环境配置:** Python3.8及3.9仍处于Bug迭代开发阶段, 建议安装3.7.5; 如果电脑已经安装过Python和Anaconda等软件,建议全部卸载按照B站链接重新安装;
- **课件资料:** 本课程全部使用jupyter notebook文件作为课程课件,开课前3天会将**代码数据等相关资料**发给各位
<br>
## 课程试听
课程python语法入门和网络爬虫部分可免费试听,对python感兴趣的童鞋可以收藏观看~
课程试听,请点击下方
[![](img/课程.png)](https://ke.qq.com/course/482241?tuin=163164df)
<br>
## 课程特色
- **接地气:** 以经管学术需求为导向, 将Python分为语法篇、采集数据篇、文本分析篇、机器学习篇四大部分
- **好理解:** 知识点力求通俗易懂,少了晦涩的计算机术语,多了通俗易懂的使用场景和实战讲解
- **上手快:** 所有知识点均有可重复使用的代码块,犹如一块块的积木,课后您可以根据分析需要,快速搭建出自己的Python代码
<br>
## 课程目录
在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!
在**前大数据时代**,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但**大数据时代**,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:
1. **网络爬虫技术** 解决 如何从网络世界中高效地 **采集数据**?
2. **文本分析技术** 解决 如何从杂乱的文本数据中**抽取文本信息(变量)**?
<br>
## 一、课件下载
- 课程介绍
- Win中的Python配置
- Mac中的Python配置
- 课件获取
## 二、Python语法入门
- Python跟英语一样是一门语言
- 数据类型之字符串
- 数据类型之列表元组集合
- 数据类型之字典
- 数据类型之布尔值、None
- 逻辑语句(if&for&tryexcept)
- 列表推导式
- 理解函数
- 常用的内置函数
- 内置库文件路径pathlib库
- 内置库csv文件库
- 内置库正则表达式re库
- 初学python常出错误汇总
## 三、数据采集
- 网络爬虫原理
- 网络访问requests库
- 网页解析pyquery库
- **案例 1**:大众点评
- **案例 2**:豆瓣读书
- **案例 3**: Boss直聘
- 如何解析json数据
- **案例 4**: 豆瓣电影
- **案例 5**: 京东商城
- **案例 6**如何用爬虫下载文档及多媒体文件
- **案例 7**:上市公司定期报告pdf批量下载
- **案例 8**:用pandas采集表格数据
- 爬虫知识点总结
## 四、数据分析
- Pandas基础知识
- 数据去重与缺失值处理
- 合并数据
- 重塑数据
- 选取表中指定记录(行)
- 选取表中指定字段(列)
- 描述性统计
- 在表中创建新字段(列)
- 批操作apply与agg
- 透视表pivot_table
- 数据分组groupby
- 时间序列时间点创建
- 日期数据的dt属性
- 日期行索引操作(选取指定日期的数据)
- 时间序列date_range
- 时间序列重采样resample
- 时间序列时间窗口rolling
- **案例 9**:Kaggle titanic数据集探索性分析
- **案例 10**:Boss直聘Python岗位分析
## 五、初识文本分析
- 文本分析在经管领域中的应用概述
- 读取不同格式文件中的数据
- **案例 11**:如何将多个整理到一个excel中
- **案例 12**:中文分词及数据清洗
- **案例 13**:词频统计
- **案例 14**:中文情感分析(词典法)
- **案例 15**:对excel中的文本进行情感分析
- **案例 16**:共现法扩展情感词典(领域词典)
## 六、机器学习与文本分析
- 了解机器学习
- 使用机器学习做文本分析的流程
- scikit-learn机器学习库简介
- 文本特征抽取(特征工程)
- **案例 17**:在线评论文本分类
- 文本相似性计算
- **案例 18**:使用文本相似性识别变化(政策连续性)
- **案例 19**:Kmeans聚类算法
- **案例 20**:LDA话题模型
- 文本分析在经管领域中的应用概述
<br>
## 课程购买
购买链接 https://ke.qq.com/course/482241
[![](img/课程.png)](https://ke.qq.com/course/482241?tuin=163164df)
支付成功后,可下载腾讯课堂app或网页端打开腾讯课堂官网,使用微信扫码登录后即可学习
<br>
## 文本分析相关论文
参照两篇论文的摘要,可以通过场景化等的方式帮助我们迅速理解上面两个问题。摘要部分的加粗内容是论文用到的分析技术,在我们的课程中均有与之对应的知识点和代码。
**王伟,陈伟,祝效国,王洪伟.众筹融资成功率与语言风格的说服性——基于Kickstarter的实证研究[J].管理世界,2016(05):81-98.**
> **摘要**:众筹融资效果决定着众筹平台的兴衰。 众筹行为很大程度上是由投资者的主观因素决定的,而影响主观判断的一个重要因素就是语言的说服性。 而这又是一种典型的用 户产生内容(UGC),项目发起者可以采用任意类型的语言风格对项目进行描述。 不同的语 言风格会改变投资者对项目前景的感知,进而影响他们的投资意愿。
> 首先,依据 Aristotle 修 辞三元组以及 Hovland 说服模型,采用扎根理论,将众筹项目的语言说服风格分为 5 类:诉诸可信、诉诸情感、诉诸逻辑、诉诸回报和诉诸夸张。
>
> 然后,**借助文本挖掘方法,构建说服风格语料库,并对项目摘要进行分类。**
>
> 最后,建立语言说服风格对项目筹资影响的计量模型,并 对 **Kickstarter 平台上的 128345 个项目进行实证分析**。 总体来说,由于项目性质的差异,不同 的项目类别对应于不同的最佳说服风格。
<br>
**Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. original mobile apps: A machine learning copycat-detection method and empirical analysis." *Information Systems Research* 29, no. 2 (2018): 273-291.**
> **摘要:** 尽管移动应用程序市场的增长为移动应用程序开发人员创新提供了巨大的市场机会和经济诱因,但它也不可避免地刺激了模仿者开发盗版软件。原始应用的从业人员和开发人员声称,模仿者窃取了原始应用的想法和潜在需求,并呼吁应用平台对此类模仿者采取行动。令人惊讶的是,很少有严格的研究来分析模仿者是否以及如何影响原始应用的需求。
>
> **进行此类研究的主要威慑因素是缺乏一种客观的方法来识别应用程序是模仿者还是原创者。通过结合自然语言处理,潜在语义分析,基于网络的聚类和图像分析等机器学习技术,我们提出了一种将应用识别为原始或模仿者并检测两种模仿者的方法:欺骗性和非欺骗性。**
>
> 根据检测结果,我们进行了经济计量分析,以确定五年间在iOS App Store中发布的**5,141个开发人员的10,100个动作游戏应用程序**样本中,模仿应用程序对原始应用程序需求的影响。我们的结果表明,特定模仿者对原始应用需求的影响取决于模仿者的质量和欺骗程度。高质量�