## 目录
- [1. 特征工程有哪些?](#1-特征工程有哪些)
- [1.1 特征归一化](#11-特征归一化)
- [1.2 类别型特征](#12-类别型特征)
- [1.3 高维组合特征的处理](#13-高维组合特征的处理)
- [1.4 文本表示模型](#14-文本表示模型)
- [1.5 其它特征工程](#15-其它特征工程)
- [1.6 特征工程脑图](#16-特征工程脑图)
- [2. 机器学习优化方法](#2-机器学习优化方法)
- [2.1 机器学习常用损失函数](#21-机器学习常用损失函数)
- [2.2 什么是凸优化](#22-什么是凸优化)
- [2.3 正则化项](#23-正则化项)
- [2.4 常见的几种最优化方法](#24-常见的几种最优化方法)
- [2.5 降维方法](#25-降维方法)
- [3. 机器学习评估方法](#3-机器学习评估方法)
- [3.1 准确率(Accuracy)](#31-准确率accuracy)
- [3.2 精确率(Precision)](#32-精确率precision)
- [3.3 召回率(Recall)](#33-召回率recall)
- [3.4 F1值(H-mean值)](#34-f1值h-mean值)
- [3.4 ROC曲线](#34-roc曲线)
- [3.5 余弦距离和欧式距离](#35-余弦距离和欧式距离)
- [3.6 A/B测试](#36-ab测试)
- [3.7 模型评估方法](#37-模型评估方法)
- [3.8 超参数调优](#38-超参数调优)
- [3.9 过拟合和欠拟合](#39-过拟合和欠拟合)
- [4. 检验方法](#4-检验方法)
- [4.1 KS检验](#41-ks检验)
- [4.2 T检验](#42-t检验)
- [4.3 F检验](#43-f检验)
- [4.4 Grubbs检验](#44-grubbs检验)
- [4.5 卡方检验](#45-卡方检验)
- [5. 参考文献](#4-参考文献)
## 1. 特征工程有哪些?
特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数 据的过程。在实际工作中,**特征工程旨在去除原始数据中的杂质和冗余**,设计更高效的特征以刻画求解的问题与预测模型之间的关系。
主要讨论以下两种常用的数据类型。
1. 结构化数据。结构化数据类型可以看作关系型数据库的一张表,每列都 有清晰的定义,包含了数值型、类别型两种基本类型;每一行数据表示一个样本 的信息。
2. 非结构化数据。非结构化数据主要包括文本、图像、音频、视频数据, 其包含的信息无法用一个简单的数值表示,也没有清晰的类别定义,并且每条数 据的大小各不相同。
### 1.1 特征归一化
为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得 不同指标之间具有可比性。例如,分析一个人的身高和体重对健康的影响,如果 使用米(m)和千克(kg)作为单位,那么身高特征会在1.6~1.8m的数值范围 内,体重特征会在50~100kg的范围内,分析出来的结果显然会倾向于数值差别比 较大的体重特征。想要得到更为准确的结果,就需要进行特征归一化 (Normalization)处理,使各指标处于同一数值量级,以便进行分析。
对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值 区间内。最常用的方法主要有以下两种。
1. **线性函数归一化**(Min-Max Scaling)。它对原始数据进行线性变换,使 结果映射到[0, 1]的范围,实现对原始数据的等比缩放。归一化公式如下,其中*X*为原始数据, ![](https://latex.codecogs.com/gif.latex?X_{max}、X_{min})分别为数据最大值和最小值。
![](https://latex.codecogs.com/gif.latex?X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}})
2. **零均值归一化**(Z-Score Normalization)。它会将原始数据映射到均值为 0、标准差为1的分布上。具体来说,假设原始特征的均值为μ、标准差为σ,那么 归一化公式定义为
![](https://latex.codecogs.com/gif.latex?z=\frac{x-u}{\sigma})
优点:**训练数据归一化后,容易更快地通过梯度下降找 到最优解。**
![](http://wx4.sinaimg.cn/mw690/00630Defly1g5cdl44ubjj30gz08i40j.jpg)
当然,数据归一化并不是万能的。在实际应用中,通过梯度下降法求解的模 型通常是需要归一化的,包括线性回归、逻辑回归、支持向量机、神经网络等模 型。但对于决策树模型则并不适用。
### 1.2 类别型特征
类别型特征(Categorical Feature)主要是指性别(男、女)、血型(A、B、 AB、O)等只在有限选项内取值的特征。类别型特征原始输入通常是字符串形 式,除了决策树等少数模型能直接处理字符串形式的输入,对于逻辑回归、支持 向量机等模型来说,类别型特征必须经过处理转换成数值型特征才能正确工作。
1. **序号编码**
序号编码通常用于处理类别间具有大小关系的数据。例如成绩,可以分为 低、中、高三档,并且存在“高>中>低”的排序关系。序号编码会按照大小关系对 类别型特征赋予一个数值ID,例如高表示为3、中表示为2、低表示为1,转换后依 然保留了大小关系。
2. **独热编码(one-hot)**
独热编码通常用于处理类别间不具有大小关系的特征。例如血型,一共有4个 取值(A型血、B型血、AB型血、O型血),独热编码会把血型变成一个4维稀疏 向量,A型血表示为(1, 0, 0, 0),B型血表示为(0, 1, 0, 0),AB型表示为(0, 0, 1, 0),O型血表示为(0, 0, 0, 1)。对于类别取值较多的情况下使用独热编码。
3. **二进制编码 **
二进制编码主要分为两步,先用序号编码给每个类别赋予一个类别ID,然后 将类别ID对应的二进制编码作为结果。以A、B、AB、O血型为例,下图是二进制编码的过程。A型血的ID为1,二进制表示为001;B型血的ID为2,二进制表示为 010;以此类推可以得到AB型血和O型血的二进制表示。
![](http://wx1.sinaimg.cn/mw690/00630Defly1g5cdqz4zruj30lf07d74g.jpg)
### 1.3 高维组合特征的处理
为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组 合,构成高阶组合特征。以广告点击预估问题为例,原始数据有语言和类型两种 离散特征,第一张图是语言和类型对点击的影响。为了提高拟合能力,语言和类型可 以组成二阶特征,第二张图是语言和类型的组合特征对点击的影响。
![](http://wx3.sinaimg.cn/mw690/00630Defly1g5cdvbua1aj30n30kf752.jpg)
### 1.4 文本表示模型
文本是一类非常重要的非结构化数据,如何表示文本数据一直是机器学习领 域的一个重要研究方向。
1. **词袋模型和N-gram模型**
最基础的文本表示模型是词袋模型。顾名思义,就是将每篇文章看成一袋子 词,并忽略每个词出现的顺序。具体地说,就是将整段文本以词为单位切分开, 然后每篇文章可以表示成一个长向量,向量中的每一维代表一个单词,而该维对 应的权重则反映了这个词在原文章中的重要程度。常用TF-IDF来计算权重。
2. **主题模型**
主题模型用于从文本库中发现有代表性的主题(得到每个主题上面词的分布 特性),并且能够计算出每篇文章的主题分布。
3. **词嵌入与深度学习模型**
词嵌入是一类将词向量化的模型的统称,核心思想是将每个词都映射成低维 空间(通常K=50~300维)上的一个稠密向量(Dense Vector)。K维空间的每一 维也可以看作一个隐含的主题,只不过不像主题模型中的主题那样直观。
### 1.5 其它特征工程
1. 如果某个特征当中有**缺失值**,缺失比较少的话,可以使用该特征的平均值或者其它比较靠谱的数据进行填充;缺失比较多的话可以考虑删除该特征。
2. 可以分析特征与结果的相
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
机器学习、深度学习、NLP面试常考点及代码实现 ----- 毕业设计,课程设计,项目源码均经过助教老师测试,运行无误,欢迎下载交流 ----- 下载后请首先打开README.md文件(如有),某些链接可能需要魔法打开。 ----- 毕业设计,课程设计,项目源码均经过助教老师测试,运行无误,欢迎下载交流 ----- 下载后请首先打开README.md文件(如有),某些链接可能需要魔法打开。
资源推荐
资源详情
资源评论
收起资源包目录
机器学习、深度学习、NLP面试常考点及代码实现.zip (123个子文件)
HillaryEmails.csv 24.43MB
DecisionTree.csv 3.02MB
pima-indians-diabetes.csv 23KB
gmm.data 5KB
sample.data 5KB
DecisionTree.ipynb 736KB
seq2seq.ipynb 243KB
RandomForestRegression.ipynb 49KB
TensorFlow_LR.ipynb 42KB
K-Means.ipynb 28KB
CNN.ipynb 27KB
Transfer Learning.ipynb 23KB
RNN.ipynb 22KB
textCNN.ipynb 21KB
textRNN.ipynb 21KB
train.ipynb 19KB
svm_classification.ipynb 17KB
HillaryEmail.ipynb 17KB
5.2 HMM.ipynb 16KB
CreditScoring.ipynb 15KB
LSTM.ipynb 15KB
word2vec.ipynb 14KB
GMM.ipynb 12KB
GBDT_demo.ipynb 11KB
GRU.ipynb 10KB
fastText.ipynb 9KB
GloVe.ipynb 5KB
Naive Bayes Classifier.ipynb 5KB
3.4 LightGBM.ipynb 4KB
3.3 XGBoost.ipynb 2KB
README.md 38KB
README.md 31KB
README.md 27KB
README.md 26KB
README.md 25KB
README.md 22KB
README.md 22KB
5.2 Markov.md 22KB
README.md 20KB
README.md 20KB
README.md 20KB
5.1 Bayes Network.md 19KB
README.md 19KB
4. SVM.md 18KB
README.md 18KB
README.md 18KB
README.md 16KB
README.md 16KB
README.md 15KB
README.md 14KB
README.md 13KB
README.md 13KB
Desition Tree.md 12KB
README.md 12KB
README.md 12KB
README.md 11KB
3.3 XGBoost.md 11KB
README.md 11KB
README.md 9KB
2.Logistics Regression.md 9KB
README.md 9KB
README.md 9KB
3.1 Random Forest.md 9KB
README.md 9KB
README.md 9KB
3.2 GBDT.md 9KB
README.md 9KB
README.md 8KB
README.md 8KB
README.md 8KB
3.4 LightGBM.md 8KB
1.Liner Regression.md 7KB
README.md 7KB
README.md 7KB
README.md 7KB
README.md 7KB
README.md 6KB
README.md 5KB
README.md 4KB
README.md 3KB
README.md 2KB
README.md 2KB
bert-Chinese-classification-task.md 2KB
README.md 1KB
README.md 747B
README.md 224B
README.md 1B
README.md 1B
README.md 1B
README.md 1B
2019-9-28_21-34-11.png 273KB
run_classifier_word.py 29KB
modeling.py 20KB
seq2seq_model.py 14KB
datautil.py 13KB
tokenization_word.py 11KB
handwritingClass.py 11KB
download_glue_data.py 8KB
optimization.py 7KB
gmm.py 5KB
共 123 条
- 1
- 2
资源评论
Lau师傅
- 粉丝: 142
- 资源: 107
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功