这篇资料涉及的是招商银行信用卡中心2019年秋季招聘IT笔试中的人工智能(AI)方向的试题。其中包含了多个计算机科学和技术领域的知识点,主要包括排序算法、过拟合处理、优化方法、数据收集、概率统计、机器学习、决策树、随机森林、非监督学习、生成模型以及梯度下降等。
1. 排序算法的空间复杂度:
- 冒泡排序的空间复杂度为O(1),因为它只需要常数级别的额外空间。
- 归并排序的空间复杂度为O(n),因为它需要额外的空间来合并两个子数组。
- 插入排序的空间复杂度为O(1),因为它主要操作原数组,不需要额外空间。
- 快速排序的空间复杂度一般为O(logn),但题目可能考虑的是最坏情况下的辅助空间需求,因此给出O(1)可能是错误的。
2. 过拟合的解决方式:
- bagging/boosting是集成学习方法,可以减少过拟合。
- batch normalization通过规范化层内的数值来稳定网络训练,减少过拟合。
- L2范式是正则化的一种形式,防止权重过大,降低过拟合风险。
- cross validation通过多次划分训练集和验证集来评估模型,有助于避免过拟合。
3. 优化方法:
- GBD (Gradient Boosting Decision Tree) 是一种迭代的决策树算法,用于优化。
- 遗传算法是一种全局优化方法,适用于复杂的优化问题。
- 模拟退火是一种全局优化算法,受物理退火过程启发。
- ReLu (Rectified Linear Unit) 是神经网络中常用的激活函数,不是优化方法。
4. 数据收集:
- 在面临不确定数据时,需要确保数据的质量和完整性,注意异常值和缺失值的处理。
- 收集伪造信息检测的数据,可能需要从多个来源获取,包括用户行为、交易记录、IP地址等,同时要注意保护用户隐私。
5. 泊松分布与指数回归:
- 在指数回归中,根据最大似然估计准则,可以构建损失函数并使用梯度下降进行优化。
- 损失函数通常是负对数似然函数,通过梯度下降迭代更新参数,以最小化损失。
6. 机器学习理论:
- 逻辑斯提回归的损失函数通常采用对数似然损失,与Kullback-Leibler散度(相对熵)有关。
- 核方法如SVM中的核函数,可以处理高维数据,简化计算。
- 随机梯度下降是优化算法,但可能无法保证找到全局最优解。
- 决策树的剪枝是防止过拟合的一种策略。
7. 其他概念:
- 三叉树的深度计算:88个节点的三叉树,深度至少为5。
- 随机森林能降低预测方差,减少过拟合。
- 非监督学习包括关联规则、K-means和Word2Vec,而KNN是监督学习方法。
- 生成模型包括朴素贝叶斯,而感知器、逻辑回归和SVM是判别模型。
8. 统计与概率:
- 对于正态分布,P(X<=-10)等于P(X<=30)减去P(10<X<=30),即0.7-0.6,结果是0.1,所以是c/10。
9. 机器学习算法与评估:
- 查准率是真正例占预测正例的比例,查全率是真正例占实际正例的比例。
- Bagging中各个弱分类器并行训练,Boosting中弱分类器依次训练,且样本权重会变化。
10. 特征选择:
- 卡方、信息增益、交叉熵和互信息都是特征选择的常用指标。
11. 其他算法与数据结构:
- 堆栈的出栈顺序,不能违反先进后出的原则,所以b选项是错误的。
12. 集成学习与优化方法:
- BGD可能会陷入局部最优,而SGD容易震荡,MBGD试图平衡这两者。
- 并发最易实现的是BGD,因为它每次迭代需要整个数据集。
这些知识点涵盖了广泛的计算机科学领域,对于应聘者来说,理解和掌握这些内容是进入AI领域工作的重要基础。