机器学习中常见的距离度量方法有欧式距离、余弦距离、曼哈顿距离和切比雪夫距离,它们各有特点。
针对样本不平衡的问题,可以通过下采样、上采样或调整样本权重等方法来平衡正负样本比例。
高斯混合模型中的隐变量表示数据是从哪个高斯分布中产生的。
当训练样本数量趋向无穷大时,模型偏差不会变化。
决策树模型通常被认为比SVM、Logistic Regression等更易解释。
要修改EM算法以求得最大后验概率估计,需要修改E步骤。
K-means聚类算法受初始类中心选取、样本输入顺序和相似性度量等因素影响。
凸函数的二阶导数非负,如x和x^4是凸函数,而x^3不是。
像线性回归、K-means等算法可以使用Map-Reduce框架进行并行训练。
适合大规模数据训练的优化算法有mini-batch SGD、Adam和FTRL等。
如果两个随机变量X和Y相互独立且服从正态分布,那么X+Y的分布也是正态的。
朴素贝叶斯、HMM、MRF和DBN都属于生成式模型。
线性回归的R^2值会随着加入新变量而增大,但自变量和残差不一定相互独立。
Bagging、Stacking、Blendi