# AliPythonDataAnalysis
这个项目为2020年3月初-5月初在阿里远程实习的实习内容总结
## 课题涉及的实验任务梳理总结
### 数据获取方面:
- 网站爬虫(爬取json格式的数据):
* 静态网站的爬虫:Week1/spider_chenglong_poster/spider_douban_posters.py
* 动态网站的爬虫(主要是时间戳的处理与设置): Week6_7/attempt2/spider_tencent1.py
- selenium,web自动化:
* selenium,web自动化、使用 xpath或者 css selector 获取数据: Week2/weibo_auto.py
### 数据挖掘算法原理:
- 数据处理:matplotlib, numpy, pandas,
- 机器学习算法:
* 分类问题:KNN, 朴素贝叶斯,支持向量机,决策树,k-means聚类算法,逻辑斯谛回归, 集成学习算法(随机森林、xgboost)
* 回归问题:线性回归,岭回归,逻辑斯谛回归
- 深度学习算法
### 数据处理、分析(调参)、预测与可视化实战:
- KNN: Week2/KNN_classifier2.py
- 朴素贝叶斯、决策树、SVM支持向量机:Week3/MultipleAlgorithms_WNR.py
- SVM支持向量机、Logistic回归、随机森林、Gradient Boosting、AdaBoost:Week4/huabei_weiyue.py
- 随机森林、AdaBoost、XGBoost:Week5/huabei_fs1.py
### 面试准备:
- 常见PYTHON问题:机器学习算法基础/Python_常见问题集锦、 Week1/add_three_nums_sum_to_0.py
- SVM参数更新的数学推导:Week3/svm参数推导.pdf
- 数据挖掘面经:机器学习算法基础/数据挖掘面经.md
### 系统学习掌握人工智能机器学习算法基础
https://www.bilibili.com/video/BV1a7411d7fk
# 网络下载源的问题
这个正常步骤,在很多时候并不能安装成功,多数是因为网络被限制的原因,在这里提供一种方法,可以解决大部分情况下的安装问题,那就是修改下载来源。
方法是在“Manage Repositories”中,修改数据来源,默认的是“https://pypi.python.org/simple”,我们可将其替换为如下的几个数据来源,这些都是国内的pip镜像:
清华:https://pypi.tuna.tsinghua.edu.cn/simple
阿里:http://mirrors.aliyun.com/pypi/simple/
豆瓣:http://pypi.douban.com/simple/
华中理工大学:http://pypi.hustunique.com/
山东理工大学:http://pypi.sdutlinux.org/
中国科学技术大学:http://pypi.mirrors.ustc.edu.cn/
Homebrew 使用国内镜像 https://blog.csdn.net/iroguel/article/details/93481795
Mac HomeBrew国内镜像安装方法 https://blog.csdn.net/weixin_34067980/article/details/88008241
cd "$(brew --repo)"
git remote set-url origin https://mirrors.aliyun.com/homebrew/brew.git
cd "$(brew --repo)/Library/Taps/homebrew/homebrew-cask"
echo 'export HOMEBREW_BOTTLE_DOMAIN=https://mirrors.aliyun.com/homebrew/homebrew-bottles' >> ~/.bash_profile
大数据人才推荐系统 Talent RADAR http://tech.it168.com/a2013/0805/1517/000001517009.shtml
# 数据挖掘学习
- BeautifulSoup的用法 https://blog.csdn.net/u013719780/article/details/49302111
没有合适的资源?快使用搜索试试~ 我知道了~
网络爬虫、selenium自动化、数据处理、数据分析、机器学习算法.zip
共107个文件
py:29个
csv:27个
png:18个
需积分: 5 0 下载量 160 浏览量
2024-04-28
22:36:34
上传
评论
收藏 8.59MB ZIP 举报
温馨提示
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径。 机器学习的发展历程可以追溯到20世纪50年代,当时Arthur Samuel在IBM开发了第一个自我学习程序,一个西洋棋程序,这标志着机器学习的起步。随后,Frank Rosenblatt发明了第一个人工神经网络模型——感知机。在接下来的几十年里,机器学习领域取得了许多重要的进展,包括最近邻算法、决策树、随机森林、深度学习等算法和技术的发展。 机器学习有着广泛的应用场景,如自然语言处理、物体识别和智能驾驶、市场营销和个性化推荐等。通过分析大量的数据,机器学习可以帮助我们更好地理解和解决各种复杂的问题。例如,在自然语言处理领域,机器学习技术可以实现机器翻译、语音识别、文本分类和情感分析等功能;在物体识别和智能驾驶领域,机器学习可以通过训练模型来识别图像和视频中的物体,并实现智能驾驶等功能;在市场营销领域,机器学习可以帮助企业分析用户的购买行为和偏好,提供个性化的产品推荐和定制化的营销策略。 总的来说,机器学习是一个快速发展且充满潜力的领域,它正在不断地改变我们的生活和工作方式。随着技术的不断进步和应用场景的不断扩展,相信机器学习将会在未来发挥更加重要的作用。
资源推荐
资源详情
资源评论
收起资源包目录
网络爬虫、selenium自动化、数据处理、数据分析、机器学习算法.zip (107个子文件)
jobs_data.csv 2.29MB
courses_data.csv 1.1MB
人力资源.csv 31KB
商业分析.csv 30KB
法律.csv 29KB
用户研究.csv 29KB
公关.csv 29KB
游戏运营.csv 29KB
产品经理.csv 28KB
营销.csv 28KB
商务拓展.csv 28KB
数据分析.csv 27KB
行政.csv 27KB
内容运营.csv 24KB
游戏策划.csv 23KB
交互设计.csv 23KB
多媒体.csv 23KB
视觉设计.csv 22KB
测试开发.csv 20KB
计算机视觉.csv 20KB
机器学习.csv 20KB
自然语言处理.csv 18KB
游戏美术.csv 18KB
web前端开发.csv 16KB
运营开发.csv 16KB
客户端开发.csv 15KB
后台开发.csv 14KB
dictionaries 167B
支付宝花呗违约率分析.docx 12.53MB
KNN_WRN_Report.docx 9.53MB
蚂蚁金服—借呗额度欺诈问题分析.docx 1.15MB
.gitignore 38B
AliPythonDataAnalysis.iml 4KB
初步模型的输出结果.jpeg 290KB
数据特征的说明.jpeg 63KB
Read_Week5.md 19KB
ReadMe_Week4.md 17KB
week6.md 10KB
ReadMe_SVM.md 6KB
README_KNN_WRN.md 6KB
README_selenium.md 6KB
Readme_think.md 5KB
README_weibo_auto.md 5KB
ReadMe_NaiveBayes.md 3KB
README_week1.md 3KB
Read_推荐系统.md 3KB
README.md 3KB
wee7.md 3KB
read_NLP_推荐系统.md 590B
ReadMe_统计学习方法总结.md 297B
ReadMe_DecesionTree.md 0B
svm参数推导.pdf 1.57MB
支付宝花呗违约率分析.pdf 1.02MB
KNN_WRN_Report.pdf 1MB
蚂蚁金服—借呗额度欺诈问题分析.pdf 831KB
sample_output.png 335KB
t6.png 211KB
t1.png 206KB
t3.png 203KB
t2.png 201KB
xgboost_out.png 160KB
randomforest_out.png 150KB
adaboost_out.png 148KB
KNN_output.png 143KB
svm和随机森林模型算法结果对比.png 140KB
SVM_WNRpng.png 125KB
randomFroest1.png 124KB
SVM1.png 119KB
NaiveBayes_WNRpng.png 79KB
out1.png 70KB
out_table.png 52KB
Figure_1.png 16KB
Figure_2.png 16KB
huabei_weiyue.py 11KB
MultipleAlgorithms_WNR.py 10KB
try1try.py 8KB
cosine_similarity.py 8KB
huabei_v2.py 6KB
huabei_fs1.py 5KB
try_more.py 5KB
weibo_auto.py 5KB
jobs_courses_preprocessing.py 5KB
huabei_GS1_sample.py 4KB
KNN_classifier2.py 4KB
spider_tencent1.py 4KB
KNN_writen_number.py 3KB
spider_jobhunting.py 3KB
spider_courses.py 2KB
spider_xuetangcourses.py 2KB
spider_douban_posters.py 2KB
web_auto.py 1KB
test_KNN_iris_.py 1KB
demo1.py 1KB
demo.py 1KB
add_three_nums_sum_to_0.py 1KB
web_auto2.py 934B
web_auto3.py 912B
web_auto4.py 819B
d1.py 647B
d2.py 477B
共 107 条
- 1
- 2
资源评论
生瓜蛋子
- 粉丝: 3794
- 资源: 4173
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功