没有合适的资源?快使用搜索试试~ 我知道了~
手把手教你用机器学习进行数据分析.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 135 浏览量
2023-12-02
23:57:20
上传
评论
收藏 3.99MB DOCX 举报
温馨提示
试读
23页
手把手教你用机器学习进行数据分析.docx
资源推荐
资源详情
资源评论
手把手教你用机器学习进行数据分析-聚类分析
本文适合有一定 Python Pandas 基础,但又对机器学习/数据分析感兴趣又不熟悉
的朋友们。如果你对 Pandas 还不熟悉,戳这里查看之前写的有关用 pandas 进行
数据清理的文章。希望通过本文的内容,你也可以独立做一个通过机器学习进行
数据分析的项目。如果本文反响比较好,可能会考虑出个系列~
这个项目的数据是美国各个社区的犯罪数据(community crime data),里面有
美国各个 community (城市或者城镇或者县)的人口特征的数据(包括种族、
年龄、家里几口人、有几个孩子等等)、经济情况(有多少人贫困、有多少人需
要公共福利、平均收入、投资收入等等)、执法相关的数据(有多少巡警、有多
少人报案、有多少警车) 和犯罪率(分为暴力犯罪率和非暴力犯罪率),一共 2215
行,每行代表一个 community 的情况。
分析的目标是对这些 community 进行分类,看什么类别的 community 犯罪率高。
进一步如果你想选择居住地或者警察需要分配警力都可以根据你分类的结果来
做决策。
解决方案:
�
这需要我们用机器学习里的聚类算法(clustering algorithm)来解决这个问题,
我选择的是聚类算法里最常用的 K-means clustering。
�
�
编程语言: Python。
�
数据分析难点:
1.列非常多,有 147 列,这非常不利于我们应用一些机器学习模型,因为
a.
维度的诅咒(Curse of Dimensionality):
b.
随着特征数量的增加,数据空间的维度增加,这可能导致样本数据在这个高维空
间内稀疏分布。
c.
这意味着为了可靠地学习数据模式,需要大量的数据点。
d.
而且,在高维空间中,很多机器学习算法的性能会下降,因为距离(如欧几里得
距离)在高维度中的计算变得不那么有效。
e.
f.
过拟合(Overfitting):
g.
当模型拥有大量特征时,它可能会学习到数据中的噪音而非真正的模式。
h.
这意味着模型可能在训练数据上表现得非常好,但是在未见过的新数据上表现不
佳。
i.
j.
计算复杂度增加:
k.
更多的特征意味着更高的计算复杂度。
l.
这不仅增加了训练模型所需的时间和计算资源,也可能增加模型推理时的延迟。
m.
n.
可解释性降低:
o.
具有大量特征的模型往往难以解释和理解。
p.
这在需要模型透明度和可解释性的应用中是一个重要问题,比如在金融服务或医
疗保健行业。
q.
所以我会采用特征选择(feature selection)和特征降维(feature extraction)技
术,以减少特征数量,同时保留最重要的信息。这有助于提高模型的性能和泛化
能力,同时降低计算成本。
2.很多缺失值,这可能导致模型无法完全学习数据中的关系和模式,从而影响模
型的准确性和可靠性。需要我们用合理的方法处理。
作者注:
1.
这个项目中数据不是重点,你可以替换成任何你想分析的数据,但是分析思路和
建模方法都是类似的,完全可以套用。
2.
聚类分析其实在市场营销中的个性化定向广告的应用上尤其广泛,相信大家也一
定 对 消 费 者 行 为 分 类 不 陌 生 , 聚 类 分 析 就 是 消 费 者 分 类 ( customer
segmentation)的典型应用。
3.
读数据是再简单不过的事,在这里不做赘述。数据大概长下图的样子
1
数据清理
1.1 首先就是处理缺失值,从上图也可以看出很多缺失值用的问号,所以我们需
要先做一步替换。这里有一列很多 0 也是应该换成 NULL,现实中很多时候数据
表中的 0 也不是代表数字 0,而是不知道是什么而自动填充的数字,这时候也需
要先把 0 替换成 NULL,再查缺失值,要具体情况具体分析。
计算每列缺失值的百分比
我们会发现很多与执法相关的数据缺失。我选择处理缺失值的方法是:
1. 删除超过 50% 缺失值的列,因为插值(impute) 可能不可靠;
2. 对缺失值较少的列使用中位数进行插值,因为中位数比平均值对异常值更稳
健。
这步骤之后我们还有 123 列。
1.2 移除与研究问题无关的列
我们想研究社区人口统计学(demographics)和社会经济学(socioeconomics)与犯罪
率之间的关系,所以和这些指标没关系的列就被删除了。代码如下
剩余22页未读,继续阅读
资源评论
产品经理自我修养
- 粉丝: 231
- 资源: 7678
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功