【知识点详解】
1. **抽样调查**:在抽样调查中,样本是指从总体中抽取的一部分个体。在这个例子中,如果要了解上海市小学生的身高,样本是指从中抽取的500名小学生的身高(选项A),而不是他们的身高总和(选项B),也不是这些学生本身(选项C)或所有小学生(选项D)。
2. **K-means聚类算法**:K-means是一种常见的无监督学习算法,用于将数据集划分为k个聚类。它需要预先设定聚类的个数k,然后随机选择k个点作为初始中心点,通过迭代过程不断调整数据点的归属和中心点的位置,直到满足停止条件(如中心点不再变化)。因此,K-means不能自动识别类的个数(选项C)。
3. **时间序列算法模型**:在给出的选项中,ARIMA(自回归积分滑动平均模型)是常用的时间序列预测模型(选项C)。RSI(相对强弱指数)是技术分析中的一个指标,MACD(移动平均收敛/发散)也是股票交易中的技术指标,KDJ则是一种随机指标,它们不属于时间序列建模。
4. **概率计算**:对于这个问题,可以通过组合计算得出答案。每次抽取后不放回,第一次取到某种颜色的概率是1/5,第二次取到相同颜色的概率取决于第一次的结果。若第一次取到红色,第二次仍然是红色的概率为1/4;若第一次取到蓝色,第二次仍然是蓝色的概率为1/4;若第一次取到黄色,第二次仍然是黄色的概率为0,因为只有一颗黄球。所以,两次取到相同颜色的概率是(2/5)*(1/4) + (2/5)*(1/4) = 2/20 = 0.1,即选项D。
5. **数列推理**:这是一个等差数列的问题,寻找下一个数字。观察给出的数列65, 8, 50, 15, 37, 24,可以发现每个数减去前一个数形成新的数列-57, 42, -35, -12, -13。这是一个等差数列的递减序列,差值为-15。继续减去15,得到-28,因此下一个数字应该是24 - 28 = -4,选项C。
6. **数据分布**:如果一组数据的均值>中位数>众数,这通常表明数据呈现右偏(正偏态),因为均值位于中位数右侧,同时中位数又位于众数右侧。
7. **SQL通配符**:在SQL中,通配符'%'代表零个、一个或多个字符,所以选项D是正确的。
8. **正态分布**:正态分布的均值决定了分布的中心位置,方差决定了分布的扩散程度。其偏度为0,表示对称;标准正态分布的均值为0,方差为1。选项C的峰度为1是错误的,正态分布的峰度是0,表示其峰值与理想正态分布相同。
9. **数据分析方法应用**:聚类算法用于将数据分组,不适用于拟合具体数值(如B选项),而更适合于分类问题(如A选项)。关联规则分析用于找出项目间的频繁模式,如C选项。决策树用于分类和回归,适合D选项。所以B选项不正确。
10. **时间序列模型**:GARCH(广义自回归条件异方差模型)特别适合处理波动性,因此选项D是正确的。
11. **Excel函数**:在Excel中,查找匹配的功能可以使用Index+Match,Vlookup或Hlookup函数,但Find、If和Like函数不适用此情境,所以答案是AB。
12. **颜色纯度计算**:颜色纯度可以通过不同颜色比例的倒数之和来衡量,越小表示纯度越高。选项B、C、D和F都是基于这个原理的不同形式,而A和E是错误的。
13. **相关系数**:相关系数为正值表示正相关,相关系数为负值表示负相关,绝对值越大相关性越强。Pearson相关系数适用于连续变量,Spearman相关系数适用于有序变量。所以,正确的描述是ABCE。
14. **线性回归**:线性回归的基本假设包括零均值、同方差性和正态性。违背这些假设可能导致参数估计不理想,但模型依然可以估计。DW检验用于检测序列相关性,多重共线性会导致参数估计值方差增大。正确答案是ABCDEF。
15. **数据降维方法**:LASSO(套索回归)不是降维方法,主成分分析(PCA)、聚类分析、小波分析法、拉普拉斯特征映射可用于降维。线性判别法(LDA)虽然可以用于分类,但不是降维方法。所以,正确答案是BDF。
16. **编程技巧**:程序员A可以通过rand9函数多次调用来生成1-10的随机数。例如,可以先生成一个0-9的随机数,如果结果是9,则加1,否则就是结果。
17. **SQL查询**:可以使用SQL的WHERE子句筛选出city成交额大于0的记录,然后GROUP BY buyer_id和amt,得到每个城市的购买人数和成交金额。具体的SQL语句可能如下:
```sql
SELECT city, COUNT(DISTINCT buyer_id) AS buyer_count, SUM(amt) AS total_amt
FROM a
WHERE city != '' AND amt > 0
GROUP BY city;
```
以上是对阿里巴巴校园招聘2017数据分析笔试题中涉及的知识点的详细解析。