没有合适的资源?快使用搜索试试~ 我知道了~
张逸凯_171840708_report1
需积分: 0 0 下载量 86 浏览量
2022-08-03
11:51:01
上传
评论
收藏 1.58MB PDF 举报
温馨提示
试读
15页
摘要针对短文本的特征稀疏性和上下文依赖性等特点,本文提出一种基于CBOW多层神经网络的短文本分类方法. 利用短文本本身的情感倾向, 一方面采用改进权值的TF-I
资源详情
资源评论
资源推荐
为短文本推荐合适的emoji — 基于上下词及语境
的CBOW多层神经网络分类模型研究
张逸凯
1
1
南京大学, 学号: 171840708, 年级: 大二
Abstract Aiming at the feature sparsity and context dependence of short texts, this paper proposes a
short text classification method based on CBOW multilayer neural network. Using the sentiment
tendency of short text itself, this paper adopts TF-IDF-CF characterization method, on the other
hand, associates the short text context with the CBOW model to optimize the emoji of the chat
data. Experiments show that this hybrid model is higher in classification performance better
than the traditional Bayesian or SVM classification model. In the Kaggle competition private
leaderboard it achieved a higher accuracy of 0.17554.
Key words Short text classification CBOW model Improved weight TF-IDF-CF method Multi-layer
neural network classification Data Mining
摘要 针对短文本的特征稀疏性和上下文依赖性等特点, 本文提出一种基于CBOW多层神经网
络的短文本分类方 法. 利用短文本本身的情感倾向, 一方面采用改进权值的TF-IDF-CF特
征化方法, 另一方面关联短文本上下文语境运用CBOW模型对聊天数据进行最优emoji推
荐. 实验表明这种混合模型在分类性能上比传统的贝叶斯或支持向量机分类模型高出很
多, 在Kaggle竞赛private榜上取得0.17554的较高准确率.
1
关键词 短文本分类 CBOW模型 改进权值TF-IDF-CF方法 多层神经网络分类 数据挖掘
1 引言
在互联网高速发展的时代, 每天有数以亿计的信息流涌现, 海量的短文本信息中有许多关
键的信息, 对于未标记的聊天信息语料库, 很难从中获取有价值的信息, 因此如何从短文本(聊天
信息)中整合已有的标记样本, 并对未标记样本进行学习, 成为了短文本分类里一个至关重要的
问题.
本文基于一个有趣的例子: ”给短文本配上相应的emoji”, 即给定训练集聊天记录以及每 条
聊天信息对应的emoji, 模型将给测试集中每条聊天信息推荐最合适的emoji. 给定一条聊天信
息(短文本信息), 模型能给出这条信息最适配的emoji, 这可以很好地规约为一个短文本多分类
问题.
本文具体叙述了一种基于改进权值的TF-IDF-CF特征化结合朴素贝叶斯的文本分类算法,
并将其和其他多分类算法例如支持向量机进行对比; 本文重点提出了一种嵌入特征的集成学习
框架以及向量空间模型CBOW. 并构造全局平均池化等隐含层的全连接神经网络, 来获得较高
的分类准确率.
2 具体方法
本节简述了在短文本分类中各方法的实现细节. 因为短文本推荐合适的emoji其实可以化归
为一个短文本分类问题, 在下面的叙述中将以短文本分类为研究目标.
本文认为这一类的数据挖掘问题都可以化归为一下几个步骤:
1. 数据预处理. 旨在尽可能最大程度留下更多信息, 剔除干扰的离群的文本信息.
2. 特征化处理. 获取、处理和提取有意义的特征和属性, 数值化特征化文本数据.
3. 建模分析. 利用统计模型或机器学习模型等对数据集进行分类.
2.1 预处理
本文数据预处理采用人民日报 1947-2017, 知乎问答, 微博语料库, 对不符合要求的词进行
剔除, 分词器选择了jieba接触, jieba分词使用了基于前缀词典实现高效的词图扫描, 生成句子中
汉字所有可能生成词情况所构成的有向无环图(DAG), 再采用了动态规划查找最大概率路径, 找
出基于词频的最大切分组合. 还过滤了无意义的停用词, 标点等.
2
本文选择保留在中文以外的外国语言, 以及聊天信息中带有意义的符号.
在优化部分本文还使用了类库snowNLP进行短文本的情感分析.
2.2 特征选择方法 TF-IDF
TFIDF 函数常用于特征项权值的计算, 是向量空间模型中经典的特征权值函数, 用术语频
率乘逆文档频率来表示特征项的权值, 即:
T F × IDF = T F ×
1
DF
其中术语频率表示特征词出现的次数, 反映了特征相对于某个文档的重要程度. 特征项W在
文档中出现的次数越多, 对于文档的类别贡献越大, 因而特征项越重要. 逆文档频率表示出现特
征项W的文档次 数的倒数. 某特征项的文档越多, 则该特征对于文档类别的贡献越小, 因而特征
项越不重要.
本文将特征的类别信息引入函数, 对特征权值函数进行改造, 将其用于特征选择. 改进
的TDF方法使用类内术语频率、类内逆文档频率和类外术语频率、类内逆文档频率来计算特征
对文档类别的贡献大小. TDF 函数定义如下:
Largest of
t f
i
× id f
i
t f
other
× id f
other
!
− Second largest of
t f
i
× id f
i
t f
other
× id f
other
!
其中t f
i
表示第 i 类词的频率, t f
other
表示其他类词的频率, id f
i
表示第i 类的逆文档频率,
id f
other
表示其他类的逆文档频率
TF-IDF是一种统 计方法, 用以评估特征度量. 字词的重要性随着它在文件中出现的次数成
正比增加, 但同时会随着它在语料库中出现的频率成反比下降.
2.3 朴素贝叶斯分类器
基于概率的分类问题, 就是要求使得P(Y|X)最大的Y的取值. 设输入空间X ∈ R
n
为n维向量的
集合, X是定义在 X上的随机变量, 输出空间为类标记集合Y = {y
1
, ..., y
k
}, Y = {y
1
, ..., y
k
}, Y是定义
在输出空间Y上的随机变量, 训练数据集共有N个样本:
T =
{
(
x
1
, y
1
)
, . . . ,
(
x
N
, y
N
)
}
根据贝叶斯定理, 给定样本x的条件下, 其类别取y
k
的概率为:
P
(
Y = y
k
|X = x
)
=
P
(
X = x|Y = y
k
)
P
(
Y = y
k
)
P
j
P
X = x|Y = y
j
P
Y = y
j
3
剩余14页未读,继续阅读
love彤彤
- 粉丝: 33
- 资源: 311
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0