【免费】张逸凯_171840708_report1资源-CSDN文库

需积分: 0 86 浏览量 2022-08-03 11:51:01 上传评论收藏 1.58MB PDF 举报

资源详情

资源评论

资源推荐

为短文本推荐合适的emoji — 基于上下词及语境

的CBOW多层神经网络分类模型研究

张逸凯

南京大学, 学号: 171840708, 年级: 大二

Abstract Aiming at the feature sparsity and context dependence of short texts, this paper proposes a

short text classiﬁcation method based on CBOW multilayer neural network. Using the sentiment

tendency of short text itself, this paper adopts TF-IDF-CF characterization method, on the other

hand, associates the short text context with the CBOW model to optimize the emoji of the chat

data. Experiments show that this hybrid model is higher in classiﬁcation performance better

than the traditional Bayesian or SVM classiﬁcation model. In the Kaggle competition private

leaderboard it achieved a higher accuracy of 0.17554.

Key words Short text classiﬁcation CBOW model Improved weight TF-IDF-CF method Multi-layer

neural network classiﬁcation Data Mining

摘要针对短文本的特征稀疏性和上下文依赖性等特点, 本文提出一种基于CBOW多层神经网

络的短文本分类方法. 利用短文本本身的情感倾向, 一方面采用改进权值的TF-IDF-CF特

征化方法, 另一方面关联短文本上下文语境运用CBOW模型对聊天数据进行最优emoji推

荐. 实验表明这种混合模型在分类性能上比传统的贝叶斯或支持向量机分类模型高出很

多, 在Kaggle竞赛private榜上取得0.17554的较高准确率.

关键词短文本分类 CBOW模型改进权值TF-IDF-CF方法多层神经网络分类数据挖掘

1 引言

在互联网高速发展的时代, 每天有数以亿计的信息流涌现, 海量的短文本信息中有许多关

键的信息, 对于未标记的聊天信息语料库, 很难从中获取有价值的信息, 因此如何从短文本(聊天

信息)中整合已有的标记样本, 并对未标记样本进行学习, 成为了短文本分类里一个至关重要的

问题.

本文基于一个有趣的例子: ”给短文本配上相应的emoji”, 即给定训练集聊天记录以及每条

聊天信息对应的emoji, 模型将给测试集中每条聊天信息推荐最合适的emoji. 给定一条聊天信

息(短文本信息), 模型能给出这条信息最适配的emoji, 这可以很好地规约为一个短文本多分类

问题.

本文具体叙述了一种基于改进权值的TF-IDF-CF特征化结合朴素贝叶斯的文本分类算法,

并将其和其他多分类算法例如支持向量机进行对比; 本文重点提出了一种嵌入特征的集成学习

框架以及向量空间模型CBOW. 并构造全局平均池化等隐含层的全连接神经网络, 来获得较高

的分类准确率.

2 具体方法

本节简述了在短文本分类中各方法的实现细节. 因为短文本推荐合适的emoji其实可以化归

为一个短文本分类问题, 在下面的叙述中将以短文本分类为研究目标.

本文认为这一类的数据挖掘问题都可以化归为一下几个步骤:

1. 数据预处理. 旨在尽可能最大程度留下更多信息, 剔除干扰的离群的文本信息.

2. 特征化处理. 获取、处理和提取有意义的特征和属性, 数值化特征化文本数据.

3. 建模分析. 利用统计模型或机器学习模型等对数据集进行分类.

2.1 预处理

本文数据预处理采用人民日报 1947-2017, 知乎问答, 微博语料库, 对不符合要求的词进行

剔除, 分词器选择了jieba接触, jieba分词使用了基于前缀词典实现高效的词图扫描, 生成句子中

汉字所有可能生成词情况所构成的有向无环图(DAG), 再采用了动态规划查找最大概率路径, 找

出基于词频的最大切分组合. 还过滤了无意义的停用词, 标点等.

本文选择保留在中文以外的外国语言, 以及聊天信息中带有意义的符号.

在优化部分本文还使用了类库snowNLP进行短文本的情感分析.

2.2 特征选择方法 TF-IDF

TFIDF 函数常用于特征项权值的计算, 是向量空间模型中经典的特征权值函数, 用术语频

率乘逆文档频率来表示特征项的权值, 即:

T F × IDF = T F ×

其中术语频率表示特征词出现的次数, 反映了特征相对于某个文档的重要程度. 特征项W在

文档中出现的次数越多, 对于文档的类别贡献越大, 因而特征项越重要. 逆文档频率表示出现特

征项W的文档次数的倒数. 某特征项的文档越多, 则该特征对于文档类别的贡献越小, 因而特征

项越不重要.

本文将特征的类别信息引入函数, 对特征权值函数进行改造, 将其用于特征选择. 改进

的TDF方法使用类内术语频率、类内逆文档频率和类外术语频率、类内逆文档频率来计算特征

对文档类别的贡献大小. TDF 函数定义如下:

Largest of

t f

× id f

t f

other

× id f

other

− Second largest of

t f

× id f

t f

other

× id f

other

其中t f

表示第 i 类词的频率, t f

other

表示其他类词的频率, id f

表示第i 类的逆文档频率,

id f

other

表示其他类的逆文档频率

TF-IDF是一种统计方法, 用以评估特征度量. 字词的重要性随着它在文件中出现的次数成

正比增加, 但同时会随着它在语料库中出现的频率成反比下降.

2.3 朴素贝叶斯分类器

基于概率的分类问题, 就是要求使得P(Y|X)最大的Y的取值. 设输入空间X ∈ R

为n维向量的

集合, X是定义在 X上的随机变量, 输出空间为类标记集合Y = {y

, ..., y

}, Y = {y

, ..., y

}, Y是定义

在输出空间Y上的随机变量, 训练数据集共有N个样本：

T =

{

(

, y

)

, . . . ,

(

, y

)

}

根据贝叶斯定理, 给定样本x的条件下, 其类别取y

的概率为:

(

Y = y

|X = x

)

(

X = x|Y = y

)

(

Y = y

)



X = x|Y = y





Y = y



剩余14页未读，继续阅读

评论收藏

内容反馈

love彤彤

粉丝: 33
资源: 311

张逸凯_171840708_report1

评论0

最新资源

张逸凯_171840708_report1

评论0

171840708_张逸凯1

张逸凯_171840708_数电大实验报告1

171840708_张逸凯_第六章作业1

张逸凯_171840708_操作系统实验一1

张逸凯_171840708_操作系统第三章作业1

张逸凯_171840708_PA所有报告1

Oracle百分比分析函数RATIO_TO_REPORT() OVER()实例详解

Marine_Investigation__Draft_Report.pdf

订单数据数据集tmall_order_report.csv

张逸凯_171840708_数据库作业11

张逸凯_171840708_数据库作业21

张逸凯_171840708_实验报告_数据挖掘Assignment31

张逸凯_171840708_操作系统实验三1

171840708_张逸凯6

SIM800C_REACH_Test Report_2019.pdf

PB15111604_金泽文_Report_for_FoPL1

2019_Botnet_Trend_Report.pdf

xi3-1_web_intelligence_html_report_panel_zh_CN

xi3-1_web_intelligence_java_report_panel_zh_CN

张逸凯_171840708_操作系统实验四1

张逸凯_171840708_操作系统实验二1

171840708_张逸凯2

高程课设三_171840708_张逸凯1

171840708_张逸凯5

xi3-1_web_intelligence_on_report_analysis_zh_CN

NET.report.rar_NET.report_NET.report.rar_csharp report_report

Ansys_Wrokbench_基础课程_Report.pptx

YUXINYANG_B718119_REPORT.pdf

report+builder使用_reportbuilder_reportbuilder_C#_

最新资源