# 数据科学导论
数据科学那么火,资源那么多,但找遍中文互联网都找不到系统、稍微过得去的笔记,于是就想着自己做一份。我认知中的优秀笔记是 [CS231n 中文笔记](https://zhuanlan.zhihu.com/p/21930884?refer=intelligentunit),希望这系列笔记能达到它的质量。欢迎加星、合作、提问题、增改内容。
关于数据科学学科介绍的文章、鸡血颇多,因此不再赘述,简而言之,数据科学是计算机科学、统计学、相关领域的结合,以数据、统计思维和计算思维解决问题。而我相信体验数据科学的最佳方式,就是亲手实践。
笔记基于两门数据科学导论课,分别是加州大学伯克利校区 [DS100](http://www.ds100.org/sp17/syllabus) 与哈佛大学 [CS109](http://cs109.github.io/2015/pages/videos.html),质量颇高。特别感谢制作这两门课程的 Joe Blitzstein、Hanspeter Pfister、Verena Kaynig-Fittkau、Joseph E. Gonzalez、Joseph Hellerstein、Deborah Nolan 和 Bin Yu。
笔记使用 Python3 和 Jupyter Notebook,于[知乎专栏](https://zhuanlan.zhihu.com/introdatascience)亦有更新。
笔记假定读者是以中文为母语、对数据科学感兴趣的入门者,故以中文为主、英语为注释进行创作,原课件为英文而作者亦无中文相关背景,故必然存在翻译纰漏,还请海涵并指出。
Given the assumption that readers are Chinese speakers and interested in Data Science, this note will be written primarily in Chinese and using English as captions.
## 知识储备
默认读者具有以下知识:
* 概率统计基础:理解方差、期望值(均值)、联合概率、条件概率等基本概念
* Python 基础:理解函数、循环、变量、列表生成式、类等基本概念,知道 pip、Jupyter Notebook、NumPy、Pandas 等工具
* 英语技能: 四级或 IELTS 6 分以上水平,能浏览英语文档及文献
* 知识技能:科学上网并使用 Google 查找解决方案
若不具备以上知识,推荐以下资源:
* [data8](http://data8.org)(Python 与统计入门)
* [Learn Python The Hard Way](https://learnpythonthehardway.org/book/)(Python 入门)
* [CS61A](http://cs61a.org)(Python 进阶)
* [Introduction to Computer Science and Programming Using Python](https://courses.edx.org/courses/course-v1:MITx+6.00.1x+2T2017/course/)(Python 进阶)
## 哲学
使用工具,并明了背后的思想;
内容自洽(self-contained),并提供深入途径;
能可视化的就不要用文字;
开源,协作。
## 笔记目录
- [x] [数据收集与整理 Data Collecting, Unboxing and Wrangling](https://nbviewer.jupyter.org/github/iewaij/introDataScience/blob/master/01.%20Data%20Collecting%2C%20Unboxing%20and%20Wrangling.ipynb)
- [x] [探索性数据分析 Exploratory Data Analysis](https://github.com/iewaij/introDataScience/blob/master/02.%20Exploratory%20Data%20Analysis.md)
- [x] [统计模型 Statistical Models](https://github.com/iewaij/introDataScience/blob/master/04.%20Statistical%20Models.md)
- [ ] 贝叶斯理论和贝叶斯方法 Bayes Theorem and Bayesian Methods
- [x] [偏差与方差 Bias and Variance](https://github.com/iewaij/introDataScience/blob/master/05.%20Bias%20and%20Variance.md)
- [ ] 线性回归 Linear Regression
- [ ] 逻辑回归 Logistic Regression
- [ ] k 最近邻 k-Nearest Neighbor
- [ ] 支持向量机 SVM
- [ ] 决策树 Decision Trees
- [ ] 随机森林 Random Forests
- [ ] 集成方法 Ensemble Methods
- [ ] 聚类 Clustering
- [ ] 深度神经网络 Deep Networks
- [ ] 最佳实践 Best Practices
- [ ] 推荐系统和并行计算 Recommendations and MapReduce
- [ ] 大数据处理 Spark
- [ ] 实验设计 Experimental Design
- [x] [用数据讲故事 Story Telling](https://github.com/iewaij/introDataScience/blob/master/03.%20Story%20Telling.md)
- [ ] 高效演讲 Effective Presentations
## 作业目录
### DS100
- [x] [总统候选人推特分析:助手还是本人? Language in the 2016 Presidential Election](https://github.com/iewaij/introDataScience/blob/master/material/homework/DS%20100/hw2/hw2.ipynb)
- [ ] [数据清洗与探索性数据分析 Data Wrangling and Exploratory Data Analysis](https://github.com/iewaij/introDataScience/blob/master/material/homework/DS%20100/hw3/hw3.ipynb)
- [ ] [爬虫 Crawling the Web](https://github.com/iewaij/introDataScience/blob/master/material/homework/DS%20100/hw5/hw5.ipynb)
- [ ] [预测房价 Prediction on Housing Prices](https://github.com/iewaij/introDataScience/blob/master/material/homework/DS%20100/hw6/hw6.ipynb)
### CS100
- [ ] [探索性数据分析 Exploratory Data Analysis](https://github.com/iewaij/introDataScience/blob/master/material/homework/CS%20109/HW1.ipynb)
- [ ] [进一步探索性数据分析 More Exploratory Data Analysis](https://github.com/iewaij/introDataScience/blob/master/material/homework/CS%20109/HW2.ipynb)
- [ ] [预测与分类 Prediction and Classification](https://github.com/iewaij/introDataScience/blob/master/material/homework/CS%20109/HW3.ipynb)
## 实验目录
- [ ] [概率、分布与频率统计 Probability, Distributions, and Frequentist Statistics](https://github.com/iewaij/introDataScience/tree/master/material/lab/Probability%2C%20Distributions%2C%20and%20Frequentist%20Statistics)
- [ ] [用 sklearn 和 statsmodels 实现回归与逻辑回归 Regression and Logistic Regression in sklearn and statsmodels](https://github.com/iewaij/introDataScience/tree/master/material/lab/Regression%20and%20Logistic%20Regression%20in%20sklearn%20and%20statsmodels)
## Change Log
2017-09-01 完成推特分析作业
2017-09-01 完成统计模型
2017-08-17 完成用数据讲故事
2017-08-11 完成探索性数据分析
2017-08-10 完成数据收集与整理
2017-08-09 初始化
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
数理统计、机器学习和数据编程的学习笔记.zip 数理统计、机器学习和数据编程的学习笔记.zip 数理统计、机器学习和数据编程的学习笔记.zip 这个专栏是涉及数理统计、机器学习和数据编程三个方面的学习笔记,主要关注数理统计和机器学习。为什么要有笔记?笔记通常比教科书更简洁,比视频和课件更方便阅读,适合读者按图索骥、复习和总结。很多人讲数据科学这么多东西要学怎么学得完,我的看法是,做不到样样精通,因此更需要有一个地图,这样遇到问题了能知道是哪里出了问题、要去哪里找答案。
资源推荐
资源详情
资源评论
收起资源包目录
数理统计、机器学习和数据编程的学习笔记.zip (333个子文件)
violations.csv 65.06MB
inspections.csv 5.96MB
violations.csv 5.77MB
violations.csv 3.71MB
violations.csv 3.25MB
businesses.csv 3.19MB
inspections.csv 2.94MB
ratings.csv 2.33MB
businesses.csv 1.44MB
businesses.csv 1.29MB
inspections.csv 1.12MB
ames_train.csv 665KB
businesses.csv 645KB
inspections.csv 493KB
movies.csv 448KB
ames_test.csv 293KB
links.csv 179KB
tags.csv 41KB
kaggle_example.csv 28KB
g12.csv 2KB
predictwise.csv 1KB
feed_info.csv 230B
feed_info.csv 228B
legend.csv 120B
legend.csv 67B
legend.csv 64B
hw7.dbc 25KB
.gitignore 1KB
.gitignore 1KB
D01.gz 3.02MB
D11.gz 3.01MB
D02.gz 2.73MB
D12.gz 2.48MB
GaussMarkov.html 269KB
GaussMarkov-checkpoint.html 269KB
OLS.html 269KB
SF_Food_Safety-checkpoint.ipynb 1.47MB
SF_Food_Safety.ipynb 1.47MB
SF_Food_Safety-checkpoint.ipynb 1.47MB
lec7.ipynb 1004KB
Lab3-Freq.ipynb 526KB
Lab3-Stats.ipynb 386KB
PandasAndSQL.ipynb 378KB
Lab3-probability.ipynb 267KB
hw2-checkpoint.ipynb 176KB
hw2.ipynb 176KB
hw2_solution.ipynb 103KB
02-DataScraping-checkpoint.ipynb 86KB
02-DataScraping.ipynb 85KB
hw2_solution-checkpoint.ipynb 75KB
hw5_solution.ipynb 74KB
hw5.ipynb 70KB
01. Data Collecting, Unboxing and Wrangling-checkpoint.ipynb 60KB
01. Data Collecting, Unboxing and Wrangling-checkpoint.ipynb 60KB
01. Data Collecting, Unboxing and Wrangling.ipynb 59KB
15b-Spark.ipynb 59KB
Data Collecting, Unboxing and Wrangling-checkpoint.ipynb 57KB
02-DataScraping-checkpoint.ipynb 55KB
hw2-checkpoint.ipynb 54KB
02-DataScrapingQuizzes.ipynb 53KB
Lab4-stats_original.ipynb 51KB
Lab4-stats.ipynb 51KB
hw4_solution.ipynb 48KB
hw1_solution.ipynb 48KB
hw4.ipynb 45KB
hw1.ipynb 44KB
hw1-checkpoint.ipynb 43KB
hw3_solution.ipynb 32KB
hw6_solution.ipynb 31KB
hw6.ipynb 29KB
hw3-iewaij-checkpoint.ipynb 29KB
hw3-iewaij.ipynb 29KB
hw3.ipynb 28KB
GaussMarkov.ipynb 25KB
GaussMarkov-checkpoint.ipynb 25KB
OLS.ipynb 22KB
OLS-checkpoint.ipynb 22KB
数据收集与整理-checkpoint.ipynb 18KB
preface.ipynb 7KB
preface-checkpoint.ipynb 7KB
EDA.ipynb 6KB
EDA-checkpoint.ipynb 6KB
hw7.ipynb 5KB
foodSafetyLA.ipynb 2KB
foodSafetyLA-checkpoint.ipynb 2KB
EDA.ipynb 2KB
EDA-checkpoint.ipynb 2KB
notesOnStatistics.ipynb 1KB
notesOnStatistics-checkpoint.ipynb 1KB
RelationalData.ipynb 1KB
WhyOLS.ipynb 1KB
WhyOLS-checkpoint.ipynb 1KB
MatrixNotation.ipynb 1KB
MatrixNotation-checkpoint.ipynb 1KB
StatisticsNotation-checkpoint.ipynb 658B
StatisticsNotation.ipynb 658B
notesOnMachineLearning.ipynb 616B
notesOnDataMan.ipynb 616B
notesOnMachineLearning-checkpoint.ipynb 616B
notesOnDataMan-checkpoint.ipynb 616B
共 333 条
- 1
- 2
- 3
- 4
资源评论
武昌库里写JAVA
- 粉丝: 6682
- 资源: 3166
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- YOLO-yolo资源
- 适用于 Java 项目的 Squash 客户端库 .zip
- 适用于 Java 的 Chef 食谱.zip
- Simulink仿真快速入门与实践基础教程
- js-leetcode题解之179-largest-number.js
- js-leetcode题解之174-dungeon-game.js
- Matlab工具箱使用与实践基础教程
- js-leetcode题解之173-binary-search-tree-iterator.js
- js-leetcode题解之172-factorial-trailing-zeroes.js
- js-leetcode题解之171-excel-sheet-column-number.js
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功