Coursera机器学习笔记
### 监督学习与无监督学习 #### 一、监督学习 **定义**: 监督学习是一种机器学习方法,能够从带有标记的训练数据中学习并建立一个模型,该模型可以用于对未来未知数据进行预测。 - **训练数据**: 由输入特征(通常是向量形式)和对应的期望输出组成。输出可以是连续的数值(如房价),也可以是分类标签(如良性/恶性)。 - **应用**: 监督学习广泛应用于各种场景,包括但不限于房价预测、邮件分类、疾病诊断等。 #### 1.1 监督学习的分类 - **回归问题** (Regression): 输出为连续值,例如预测房价、股票价格等。 - **分类问题** (Classification): 输出为离散值,例如识别图像中的对象类别、判断电子邮件是否为垃圾邮件等。 #### 1.2 监督学习举例 ##### 1.2.1 回归问题 **例子**: 预测房价 - **特征**: 房屋面积 - **输出**: 价格(连续值) - **任务**: 基于房屋面积预测其市场价值。 **思考**: 如果目标是预测房屋价格是否高于100万,则属于**分类问题**,因为输出变成了一个二元离散值(大于100万或小于等于100万)。 ##### 1.2.2 分类问题 **例子**: 肿瘤良恶性预测 - **特征**: 肿瘤大小 - **输出**: 良性(0)/恶性(1) - **任务**: 给定肿瘤大小,预测其是否为恶性。 **扩展**: 在其他分类问题中,输出可以是多分类的情况,例如肿瘤的类型可以分为{良性, 第一类肿瘤, 第二类肿瘤, 第三类肿瘤},对应输出为{0, 1, 2, 3}。 ### 二、无监督学习 **定义**: 无监督学习是指机器学习算法从没有标记的训练数据中学习结构的过程。这种学习方式通常用于探索数据的内在结构和分布,而不依赖于明确的目标输出。 - **应用场景**: 数据聚类、异常检测、关联规则学习等。 - **特点**: 输入数据只有特征,没有对应的输出或标签。 - **目的**: 发现数据之间的相似性和差异性,帮助理解和组织数据。 ### 其他章节概述 #### 2. 多变量线性回归 - **定义**: 在监督学习框架下,使用多个特征进行预测的方法。 - **应用场景**: 更复杂的数据集分析,例如房地产市场分析时考虑多个因素(如面积、位置、建筑年代等)。 - **技术要点**: 特征选择、正则化、梯度下降等。 #### 3. Logistic Regression - **定义**: 一种用于分类问题的监督学习方法,特别适用于二元分类。 - **应用场景**: 医疗诊断、信用评估等。 - **技术要点**: Sigmoid函数、损失函数、梯度下降优化等。 #### 4. 正则化 - **定义**: 为了防止过拟合而采取的技术手段。 - **应用场景**: 提高模型泛化能力,避免模型过于复杂导致对训练数据过度拟合。 - **技术要点**: L1正则化、L2正则化、交叉验证等。 #### 5. 神经网络 - **定义**: 模仿人脑神经元连接方式的计算模型,广泛应用于复杂模式识别和分类任务。 - **应用场景**: 图像识别、自然语言处理等。 - **技术要点**: 前馈神经网络、反向传播算法、卷积神经网络、循环神经网络等。 #### 6. 支持向量机 (SVM) - **定义**: 一种二元分类模型,寻找最优超平面以最大化不同类别之间的间隔。 - **应用场景**: 文本分类、手写数字识别等。 - **技术要点**: 决策边界、核技巧、软边界等。 #### 7. 非监督学习 - **定义**: 无标记数据的学习方法,主要用于发现数据的内在结构。 - **应用场景**: 客户细分、文档聚类等。 - **技术要点**: K均值聚类、层次聚类、DBSCAN等。 #### 8. 数据降维 - **定义**: 降低数据维度以简化分析过程同时保留关键信息。 - **应用场景**: 可视化、特征提取等。 - **技术要点**: 主成分分析 (PCA)、独立成分分析 (ICA) 等。 #### 9. 异常检测 - **定义**: 发现不符合正常行为模式的数据点。 - **应用场景**: 信用卡欺诈检测、网络安全监控等。 - **技术要点**: 基于密度的方法、基于距离的方法等。 #### 10. 推荐系统 - **定义**: 根据用户偏好为用户提供个性化推荐的服务。 - **应用场景**: 电商网站、音乐流媒体服务等。 - **技术要点**: 协同过滤、矩阵分解等。 #### 11. 大规模机器学习 - **定义**: 在大数据集上高效地训练和部署机器学习模型。 - **应用场景**: 社交媒体分析、搜索引擎优化等。 - **技术要点**: 并行计算、分布式存储、在线学习等。 #### 12. 应用案例:照片 OCR - **定义**: 对照片中的文本进行自动识别和提取的技术。 - **应用场景**: 手写体识别、身份证件扫描等。 - **技术要点**: 特征提取、模板匹配、深度学习等。 以上是对吴恩达教授的Coursera机器学习课程笔记的主要知识点概览,这些内容涵盖了从基础概念到高级技术的广泛领域,为初学者提供了全面的学习路径。
剩余107页未读,继续阅读
- 粉丝: 1925
- 资源: 8
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助