飞象工场—7 日数据刷题营参考答案
[版权归飞象工场所有—不得外传使用]
1. 请列出三种处理缺失值的方式
(1)进行填补,平均值、中位数可以用来填补 numerical value(数字型变量); 众数可以
用来填补 categorical value(定性变量);
(2)根据和缺失值相关的其他列,填补对应的值,例如地址和邮编,可以根据同一个区的地址
推断出邮编;
(3)当缺失值过大并且变量不那么关键时,可以直接删除那一列;当缺失值所占比例不足 5%
左右,去除所在行,但是需要注意其他列的信息
2. 估算北京市一日卖出的油条数量
首先,这类估算问题会经常出现在数据分析、产品、咨询类岗位,统称为费米问题。分析这
类问题可以分别从两个角度展开。根据情况,可以采用 Top-down,bottom-up 法则,即 先从
宏观层面,自上而下推,再 由某个点横向切入,反推上去。或者也可以从需求层面和供给层
面来说。然后可以对比两次推测得到的结果,如果相差不悬殊,那基本就没差啦。
然后在陈述的时候也可以需要说几句可能会出现误差的影响因素以及对结果的影响,会显得
思考更加全面。具体的答案不是要求必须正确,重要的的是分析思路
这类练习题不要方,多练练思路,多看看平时的新闻报道,掌握一些基本数据 sense 就行。
油条这道题适合从供给需求两个层面上来思考问题:
角度一(需求层面):北京市一天卖出的油条=早饭吃油条的人数*每人吃的油条的数量
北京市约有人口 2000 万人,假设 20 人中有 1 人选择早饭吃油条,则有 2000÷20=100 万人。
每人每次吃 1 根油条。
因此,北京市一天卖出约 100*1=100 万根油条
角度二(供给层面)北京市一天卖出的油条=北京油条店的数目*每家店卖出的油条数目
北京市面积约 16410 平方千米,五环内面积约 735 万平方千米,若每 1 平方千米有 2 家油条
店,则有 735*2=1470 家;五环外有约 15700 平方千米,若每两平方千米有 1 家油条店,则
有 15700÷2=7850 家。由此,北京共有油条店约 9320 家。假设每家油条店每天卖出 100 根
油条。那么,北京市一天卖出 9320*100=93.2 万根油条
结果分析:根据两个角度的估算,北京市一天可以卖出的油条数量约在 100 万左右。仍有一
些因素可能导致误差,如五环内外油条店的分布密度尚待考证,可通过抽样调查使其更为精
准。
3. 以下不属于无监督学习的算法为
A. 线性回归
B. PCA
C. Kmeans、
D. Word2vec
解析:当然是选 A 啦。
简单理解,监督学习就是用已知变量推导输出变量的过程,已知变量和输出变量之间有关系,
比如典型监督模型线性回归,我们拿最简单的 Y=kx+b 来说,我们是知道很多自变量 X 的值来推
Y 值,这就是已知变量推导输出变量的意思,典型的监督学习模型还有回归、决策树、KNN、朴
素贝叶斯(分类属于有监督学习)。而无监督学习则是数据之间需要通过计算机“学习”来探
寻关系,聚类算法一般算是无监督学习,典型无监督学习有 k-means,PCA 等。
评论0