没有合适的资源?快使用搜索试试~ 我知道了~
ML算法工程师面试经验
需积分: 20 12 下载量 154 浏览量
2018-09-29
15:24:21
上传
评论
收藏 162KB DOC 举报
温馨提示
试读
17页
这里是本人和身边的同学面试过的多家互联网公司的经验,希望大家下载之后控制一下传播范围。
资源推荐
资源详情
资源评论
(1) 常见面试题:
!"#$"%&'(
)(((*(+,- (
(2) 数据增强的常用方式:
.(*/0*:对颜色的数据增强:图像亮度、饱和度、对比度变
化(此处对色彩抖动的理解不知是否得当);
1.!220*:首先按照 345 三个颜色通道计算均值和标准差,再
在整个训练集上计算协方差矩阵,进行特征分解,得到特征向量和
特征值,用来做 1.!20*;
36+/6(:尺度变换;
36+/.*:采用随机图像差值方式,对图像进行裁剪、缩放;
*76(*6(/(:水平垂直翻转;
8:平移变换;
3638(:旋转仿射变换;
":高斯噪声、模糊处理;
96)(/88(:类别不平衡数据的增广。
(3) 线性函数的值越接近正无穷,概率值就越接近 ;线性值越接近
负无穷,概率值越接近 ,这样的模型是逻辑斯蒂回归模型。在深
度学习中用到的非线性变换 + 函数是逻辑斯蒂分布的的特殊形
式。
(4) K-means:
K-6/方法的时间复杂度为 :;"<=>," 代表总元素个数,< 代表
簇中心个数,= 代表迭代次数。<6 算法是一种硬性划分的聚类,
即每个数据点唯一地分配给一个聚类,由于事先不知道实际的聚类
情况,因此可能是一种严重的局限。该算法对初始中心的选取非常
敏感,初始中心随机选取,导致结果波动较大,稳定性较差。同时
该算法对噪声数据和孤立点数据较为敏感。该算法通常采用欧式距
离作为数据样本之间的度量方式,导致该算法对球状的簇有比较好
的聚类效果,但是很难发现其他形状的簇。
(5) 在进行 K-means 聚类时,选择距离函数:
邻近度函数:曼哈顿距离。质心:中位数。目标函数:最小化对象
到其簇质心的距离和/
邻近度函数:平方欧几里德距离。质心:均值。目标函数:最小化
对象到其簇质心的距离的平方/和/
邻近度函数:余弦。质心:均值。最大化对象与其质心的余弦相似
度和/
邻近度函数:5*6/散度。质心:均值。目标函数:最/小化对象
到其簇质心的 5*6/ 散度和
(6) 误差与偏差:
误差(对象是单个模型)是指结果与真实值之间的差值,而偏差则
是指结果与平均值之间的差值,都是对单个样本而言,只不过误差
的参照物只有一个,而偏差的参照物是群体的平均值。
(7) Logistics 回归的详细介绍:
)(+(66*(+6(',&
)(+911?@196*(+6(&A&'-&
>/假设有如下线性拟合方法; 为样本的向量化表示>:
A>/二项逻辑回归模型是如下条件概率:
>/设一个事件的几率 :++,指的是该事件发生的概率与不发生概率
的比值。则这里事件的对数几率为
我们可以看到,在逻辑斯蒂回归中,输出 BC 的对数几率是输入
的线性函数。
,>/通过对训练样本的交叉熵损失进行误差最小化;详见统计学习
1->。
h
w
(x)表示对 1C;BCD>的预测函数,y
i
是样本标签。
'>/学习到回归参数后,比较样本实例在两个条件概率的大小。将实
例 分到概率较大的那一类。
>/对于多项;≥3>的逻辑回归:
假设离散性随机变量 B;类别>的取值范围为;EAE EE<>,那么多项逻
辑回归模型为:
这里, 是针对第 # 类样本的分类学出的参数。
(8) 优化逻辑回归的方法:
梯度下降法;
牛顿法;
54 方法;
(9) Logistic 回归(起到预测作用)有自身的优缺点:
优点:计算代价不高,易于理解和实现
缺点:容易欠拟合,分类精度可能不高
//////适用数据类型:数值型和标称型
(10) 线性回归:
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量
间相互依赖的定量关系的一种统计分析方法,运用十分广泛。回归
分析中,只包括一个自变量和一个因变量,且二者的关系可用一条
直线近似表示,这种回归分析称为一元线性回归分析。如果回归分
析中包括两个或两个以上的自变量,且因变量和自变量之间是线性
关系,则称为多元线性回归分析。
(11) 线性回归与逻辑回归的区别:
剩余16页未读,继续阅读
资源评论
沙漠之狐MSFollower
- 粉丝: 86
- 资源: 9
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功