Python 机器学习工具包 SKlearn 的安装与使用 Python 机器学习工具包 SKlearn 是基于 Python 语言的机器学习工具包,主要用 Python 编写,建立在 Numpy、Scipy、Pandas 和 Matplotlib 的基础上,也用 Cython 编写了一些核心算法来提高性能。Sklearn 包括六大功能模块:分类、回归、聚类、数据降维、模型选择和数据处理。 1. 分类(Classification): Sklearn 中的分类模块可以识别样本属于哪个类别,常用算法有 SVM(支持向量机)、nearest neighbors(最近邻)、random forest(随机森林)等。 2. 回归(Regression):Sklearn 中的回归模块可以预测与对象相关联的连续值属性,常用算法有 SVR(支持向量机)、ridge regression(岭回归)、Lasso 等。 3. 聚类(Clustering):Sklearn 中的聚类模块可以对样本进行无监督的自动分类,常用算法有 k-Means(k 均值)、spectral clustering(特征聚类)、mean-shift(均值漂移)等。 4. 数据降维(Dimensionality reduction):Sklearn 中的数据降维模块可以减少相关变量维数,常用算法有 PCA(主成分分析)、feature selection(特征选择)、non-negative matrix factorization(非负矩阵分解)等。 5. 模型选择(Model Selection):Sklearn 中的模型选择模块可以比较、验证、选择参数和模型,常用模块有 grid search(网格搜索)、cross validation(交叉验证)、metrics(度量)等。 6. 数据处理(Preprocessing):Sklearn 中的数据处理模块可以对数据进行特征提取和归一化,常用模块有 preprocessing(预处理)、feature extraction(特征提取)等。 Sklearn 的安装需要 Python 3.5 以上版本,需要安装 NumPy、SciPy、Pandas 工具包的支持,部分内容需要使用 Matplotlib、joblib 工具包。可以使用 pip 安装 Sklearn,命令如下:pip3 install -U scikit-learn。 Sklearn 内置了一些标准数据集可以用于练习和测试,都是经常被引用的经典问题,数据网址:https://scikit-learn.org/stable/datasets.html。Sklearn 标准数据集主要包括测试问题数据集和实际问题数据集,测试问题数据集包括波士顿房价、鸢尾花问题、糖尿病数据、手写数字的识别、体能训练、葡萄酒鉴别、威斯康星州癌症诊断等,而实际问题数据集包括人脸数据、20 个新闻文本数据、标记的人脸数据、森林覆盖类型、路透社新闻数据、网络入侵检测数据、加州住房数据等。
- 粉丝: 1
- 资源: 121
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
- 1
- 2
前往页