机器学习小测及答案.pdf
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
1. 监督学习与无监督学习的主要区别在于学习方式和目标。监督学习是通过已有的带标签数据来训练模型,使模型能够预测未知数据的标签。例如,经典的监督学习算法有逻辑回归、决策树、支持向量机等,常用于分类和回归问题,如垃圾邮件过滤和房价预测。而无监督学习则是没有标签的数据集,模型试图找出数据内部的结构或模式。例如,聚类算法如K-means和DBSCAN,以及关联规则学习如Apriori,它们常用于市场细分和异常检测。 2. 在梯度下降中,为了加速收敛,可以采取以下策略: - 学习率调整:初始设置一个较大的学习率,随着迭代次数增加逐渐减小,以避免震荡和早熟收敛。 - 动量法:引入动量项,使得更新方向更具惯性,减少局部最优的振荡。 - 梯度裁剪:限制梯度的范数,防止过大更新导致震荡。 - 批量梯度下降(BGD):每次更新基于整个数据集的平均梯度,相比于随机梯度下降(SGD)更稳定,但计算成本高。 - 随机平均梯度下降(SGD+momentum):结合SGD的快速收敛和BGD的稳定性。 3. 对于房价预测模型 h(x) = θ0 + θ1X1 + θ2X2,新增特征房间面积X后,可以考虑使用二次多项式特征组合,如 h(x) = θ0 + θ1X1 + θ2X2 + θ3X1² + θ4X2² + θ5X1X2,以捕捉面积与房价的非线性关系。具体多项式的选取应根据训练数据的分布情况和实际问题的需求来确定。 4. 欠拟合是指模型过于简单,无法捕捉数据中的复杂模式,通常表现为模型在训练和测试数据上的误差都较高。过拟合则是因为模型过于复杂,过度适应了训练数据中的噪声,导致在未见过的数据上表现不佳。可以使用学习曲线辅助理解,欠拟合时学习曲线的训练误差和验证误差都高,而过拟合时训练误差低,验证误差高。 5. 牛顿迭代法用于求解方程f(θ)=0,其迭代公式为θ_{n+1}=θ_n-f(θ_n)/f'(θ_n),初始值取4.5。两次迭代后,新值θ将接近于函数零点,但具体过程需要图形辅助以显示迭代路径。 6. 指数分布族的一般表达形式为P(X|θ)=exp{θTt(X)-A(θ)},其中X是随机变量,θ是参数,t(X)是X的充分统计量,A(θ)是正规化常数,确保概率密度函数的归一化。 7. 极大似然估计是找到使样本数据出现概率最大的参数值。推导步骤包括:写出联合概率密度函数,取对数,整理成似然函数,然后对似然函数求导,令导数等于0,解出θ的最大值。 8. Laplace平滑是在概率估计中处理“零频率”问题的方法。例如,在计算词频时,如果某个词在文档中从未出现,直接计数会导致概率为0,Laplace平滑会加上一个小的常数1,如P(w_i|D) = (count(w_i,D)+1)/(total_words(D)+V),这样可以避免概率为0,提高模型的稳定性。 9. 参数学习算法(如逻辑回归、神经网络)假设模型参数有限,学习过程中确定这些参数的值。而非参数学习算法(如K近邻、决策树)不预先设定参数数量,而是从数据中直接学习决策规则。 10. 判别学习算法(如SVM、决策树)直接学习决策边界,旨在最大化类别之间的间隔或最小化错误率。生成算法(如朴素贝叶斯、隐马尔科夫模型)则学习数据的概率分布,以生成新的实例。判别学习通常更快,但可能忽视数据的生成过程;生成学习更灵活,但计算复杂度高。
- 粉丝: 62
- 资源: 7万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助