class DecisionTreeClassifier(
criterion="gini",
splitter="best",
max_depth=None,
min_samples_split=2,
min_samples_leaf=1,
min_weight_fraction_leaf=0.,
max_features=None,
random_state=None,
max_leaf_nodes=None,
min_impurity_decrease=0.,
min_impurity_split=None,
class_weight=None,
presort=False)
参数:
1 criterion:一个字符串,指定切分质量的评价准则。默认为‘mse’,且只支持该字符串,表示均方误差
1-1 'gini':表示切分时评价准则是Gini系数。
1-2 'entropy':表示切分时评价准则是熵。
2 splitter:一个字符串,指定切分原则,可以分为如下。
2-1‘best’:表示选择最优的切分。
2-2 ‘random’:表示随机切分。
3 max_features:可以为整数、浮点、字符串或者None,指定寻找best split时考虑的特征数量
3-1 如果是整数,则每次切分只考虑max_features个特征
3-2 如果是浮点数,则每次切分只考虑max_features * n_features个特征(max_features指定了百分比)。
3-3 如果是字符串‘auto’或者‘sqrt’,则max_features等于n_features。
3-4 如果是字符串‘log2’,则max_features等于log2(n_features).
3-5 如果是None,则max_feature等于n_features。
注:如果已经考虑了max_feature个特征,但是还没有找到一个有效的切分,那么还会继续寻找下一个特征,直到找到一个有效的切分为止。
4 max_depth:可以为整数或者None,指定树的最大深度
4-1 如果为None,则表示树的深度不限(直到每个叶子都是纯的,即叶节点中所有样本点都属于一个类,或者叶子中包含小于min_sampes_split个样本点)
4-2 如果max_leaf_nodes参数非None,则忽略此选项。
5 min_samples_split:为整数,指定每个内部节点(非叶节点)包含的最少的样本数
6 min_sample_leaf: 为整数,指定每个叶节点包含的最少的样本数
7 min_weight_fraction_leaf:为浮点数,叶节点中样本的最小权重系数。
8 random_state:一个整数或者一个RandomState实例,或者None。
8-1 如果为整数,则它指定了随机数生成器的种子
8-2 如果为RandomState实例,则指定了随机数生成器
8-3 如果为None,则使用默认的随机数生成器
9 presort:一个布尔值,指定是否要提前排序数据从而加速寻找最优切分的过程。设为True时,对于大数据集会减慢总体的训练过程;但是对于一个小数据集
或者设定了最大深度的情况下,则会加速训练过程。
======================================================
属性有如下7个:
1 feature_importances_:给出了特征的重要程度。该值越高,则该特征越重要(也称为Gini importance)
2 max_features_:max_features的推断值。
3 n_features_:当执行fit之后,特征的数量
4 n_outputs:当执行fit之后,输出的数量。
5 tree_:一个Tree对象,即底层的决策树。
6 classes_:分类的标签值
7 n_classes_:给出了分类的数量
======================================================
方法有以下5种:
1 fit(X, Y[, sample_weight, check_input, ...]):训练模型。
2 predict(X[, check_input]):用模型进行预测,返回模型预测值。
3 score(X, y[, sample_weight]):返回预测性能得分。
3-1 score不超过1,但是可能为负值(预测效果太差)。
3-2 score越大,预测性能越好。
4 predict_log_proba(X): 返回一个数组,数组的元素依次是X预测为各个类别的概率的对数值
5 predict_proba(X):返回一个数组,数组的元素依次是X预测为各个类别的概率值。
没有合适的资源?快使用搜索试试~ 我知道了~
邹博机器学习课程.zip
共61个文件
py:27个
xml:11个
csv:5个
需积分: 5 0 下载量 174 浏览量
2024-04-23
16:32:48
上传
评论
收藏 16.32MB ZIP 举报
温馨提示
邹博机器学习课程
资源推荐
资源详情
资源评论
收起资源包目录
邹博机器学习课程.zip (61个子文件)
content
ML_project
dataout
sales_result.xls 10KB
iris.dot 5KB
RandomForest
11.5.Iris_RandomForest_Enum.py 3KB
11.1.Iris_DecisionTree.py 5KB
11.4.MultiOutput_DTR.py 2KB
iris.dot 5KB
python
DecisionTreeClassifier.py 2KB
DecisionTreeClassifier方法解析.txt 4KB
DecisionTreeRegressor方法解析.txt 3KB
DecisionTreeRegressor.py 3KB
11.3.DecisionTreeRegressor.py 2KB
11.2.Iris_DecisionTree_Enum.py 3KB
pandas_tool.py 406B
pandas_tool.pyc 694B
dataset
sales_result.xls 10KB
Advertising.csv 4KB
C0904.csv 51.92MB
housing.data 48KB
sales.xlsx 11KB
AirPassengers.csv 2KB
iris.data 4KB
housing.names 2KB
C0911.csv 49.97MB
car.data 51KB
iris.names 3KB
tel.csv 163KB
.idea
other.xml 186B
vcs.xml 183B
workspace.xml 24KB
misc.xml 288B
inspectionProfiles
Project_Default.xml 797B
modules.xml 272B
ML_project.iml 453B
Regression
__init__.py 220B
9.0GDA.py 403B
9.7.roc_auc_intro.py 6KB
9.6.ARIMA.py 3KB
9.3.ElasticNet.py 4KB
9.9.roc_auc_iris.py 3KB
9.4.Iris_LR.py 5KB
9.1Advertising.py 4KB
9.2.LinearRegression_CV.py 2KB
9.1.1Advertising.py 2KB
iris.model 2KB
9.5.Boston.py 3KB
9.8.roc_auc.py 3KB
9.10.save.py 1KB
ch_6
__init__.py 76B
6.3.pandas.py 5KB
6.2.NagelSchreckenberg.py 2KB
6.5.Features_Pca.py 5KB
6.4.tel.py 5KB
prime.py 2KB
.gitattributes 378B
.idea
other.xml 186B
vcs.xml 180B
workspace.xml 23KB
misc.xml 303B
modules.xml 282B
PycharmProjects.iml 453B
.gitignore 574B
共 61 条
- 1
资源评论
生瓜蛋子
- 粉丝: 3798
- 资源: 4401
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功