没有合适的资源?快使用搜索试试~ 我知道了~
基于XGBoost和文本聚焦模型的招标文件自动分类.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 128 浏览量
2023-02-23
20:33:46
上传
评论
收藏 1.12MB DOCX 举报
温馨提示
试读
14页
基于XGBoost和文本聚焦模型的招标文件自动分类.docx
资源推荐
资源详情
资源评论
摘要
针对招标文件中因数据稀疏导致的特征提取困难影响分类准确率的问题,提出了一种基于极端梯度
提升(eXtreme gradient boosting,XGBoost)和文本聚焦表示模型的分类方法。聚焦表示部
分通过提取对分类结果有显著影响的关键字段部分,使用 N-Gram 分词,结合词性级词频-逆文档
频率(term frequency–inverse document frequency,TF-IDF)的方法,实现招标文件文本
特征向量表示;基于 XGBoost 的招标文件分类预测模型部分将提取到的特征送入 XGBoost 模型,
实现了将招标文件按照行业分类和按照项目类型分类。结果表明:聚焦表示模型与计数向量和 TF-
IDF 文本表示模型相比,其特征提取的效果更好;同时,通过人工标注语料的验证表明,8 种行业
分类 准确率高 达 95.3%,按 照项目类型 的分类准 确率达到 96.6%左右。与 其他分类算 法比较,
XGBoost 分类算法表现更优。
Abstract
Aiming at the problem that the difficulty of feature extraction caused by sparse data
in bidding documents affects the classification accuracy,a classification method
based on eXtreme gradient boosting (XGBoost) and text focus representation model
is proposed.The focused representation part is to extract the key field parts that
have a significant impact on the classification results,use N-Gram word
segmentation,and combine the part of speech level term frequency-inverse
document frequency(TF-IDF) method to realize the text feature vector
representation of the bidding documents;at the part of the bidding document
classification prediction model based on XGBoost,the extracted features are sent
into the XGBoost model,the bidding documents are classified according to industry
and project types.The experimental results show that the focused representation
model has a better feature extraction effect than the count vector and TF-IDF text
representation model.At the same time,through the verification of the manual
annotation corpus,the classification accuracy rate of 8 industries is as high as
95.3%,and the classification accuracy rate according to the project type of XGBoost
reaches about 96.6%.Compared with other classification algorithms,the XGBoost
classification algorithm performs better.
译
关键词
文本分类; 文本表示; XGBoost; 聚焦模型
Keywords
text classification; text representation; eXtreme gradient boosting; focus model
译
招投标业务是企业进行项目管理的一项重要工作,相关数据产生的速度快、数量多,实现招标文件
的高效管理、应用、反馈等功能可以显著提高企业相关工作人员的工作效率,有效提高招投标质量。
通过建立一个负责招投标的企业用户使用的招标文件分类系统,能够降低项目实施的成本和风险因
素,保证招投标项目的顺利进行,帮助企业实现收益最大化,然而,企业对于招投标项目管理过程
中的招标文件等部分依然采用人工方式进行处理,消耗了大量不必要的人力物力。
本文采用端到端的文本分类方法实现招标文件分类,即从输入端的数据直接得到输出端的结果。在
招标文件分类任务中,由于数据样本标注的代价昂贵,且误差较大,因此需要采用端到端的文本分
类方法,从而节省中间任务的数据标注成本。但在端到端的模型中,由于可解释性降低、所需参数
增多,训练更加困难。
本文从人工处理招标文件的流程中总结出 2 个能够使用计算机技术进行优化的模块:标的物行业分
类、标的物项目类型分类。本文通过对模块功能和技术研究现状的调研,对文本分类技术进行研究。
在试 验 阶 段采用词频-逆文档频率( term frequency–inverse document frequency,TF-IDF)
结 合 N-Gram 的 文 本 聚 焦 模 型 提 取 招 标 文 件 特 征 , 并 使 用 极 端 梯 度 提 升 ( eXtreme gradient
boosting,XGBoost)模型实现分类。传统的文本分类方法有朴素贝叶斯、支持向量机等,深度
学习 方 法 有 基 于 候 选区 域 的卷 积 神 经 网络 ( region-based convolutional neural networks,
RCNN)、文本卷积神经网络(text convolutional neural networks,TextCNN)等神经网络
模型。
相较于传统方法,本文所采用的 XGBoost 得到的分类结果准确率更高。由于数据标注的代价昂贵,
相对于深度学习,在小数据集上表现较好的 XGBoost 更适用于招标文件的分类任务,基于行业的
招标文件分类准确率可以达到 95.3%左右,基于项目类型的分类准确率可以达到 96.6%左右。不
论在特征提取的效果上还是在分类算法的效果上,本文相较于其他算法都具有比较明显的优势。
1 模型设计
本文设计了基于文本聚焦和 XGBoost 的组合算法,实现了招标文件的分类。使用 N-Gram 和 TF-
IDF 相结合的文本聚焦模型提取招标文件特征,之后利用 XGBoost 算法根据特征对文本进行分类。
1.1 聚焦模型
1.1.1 N-Gram 分词
N-Gram(又称 n 元模型)将自然语言看作随机过程,将字、词、段等每个语言单元看作随机变量
并且满足一定概率分布,语言单元的上下文决定其是否出现在文本中。N-Gram 模型存在参数过多、
数据稀疏等问题,所以计算中引入 Markov 假设的思想:一个词(排在第 N 个)的出现只跟它前
面的(N-1)个词有关,句子出现的几率即各词出现概率之积。N 越大则模型的刻画能力越强,但
是参数空间会随着 N 的增加呈现指数型增大,物理存储空间的有限性必然导致 N 值大小受限。因
此应用 N-Gram 模型时常见的 N 值取为 2 和 3,即 Bi-Gram 和 Tri-Gram。
N-Gram 降低了在实现文本分类时对大型词语库的依赖、降低了分词处理流程的复杂程度,同时可
以使模型关注到的上下文信息更多。一方面考虑到使用 N-Gram 模型的便利性以及不需分词处理、
所需先验知识少、不需词典支持等优势,另一方面在特征提取阶段 Python 的 TfidfVectorizer()
方法自带 N-Gram 功能,可以通过参数控制非常方便地实现文本表示。因此本文使用了 N-Gram
来实现招标文件文本表示。
1.1.2 TF-IDF 向量化表示
TF-IDF 实际 是 词 频( term frequency,TF)乘以逆文本频率指数( inverse document frequency,
IDF),若词语 Ti 在某篇文本中出现的次数高(TF 高),而在其他文本中很少出现(IDF 高),
则认为 Ti 对这篇文本来说具有较高的类别区分作用(TF-IDF 高)。可以看出,TF 刻画出 Ti 对于
某篇文本的重要程度,IDF 刻画出 Ti 对于整个文本集(语料库)的重要程度。其计算步骤如下:
1)计算 TF:
TFi,j=Ni,j∑kNk,jTFi,j=Ni,j∑kNk,j
(1)
式中:Ni,j 为词语 Ti 在文本 Dj 中出现的次数,分母为所有词语在文本 Dj 里出现的次数之和,这里是
除以分母进行标准化,实际中也可以采用其他标准化方法。
2)计算 IDF:
IDFi=log|D||{j:Ti∈Dj}|IDFi=logD{j:Ti∈Dj}
(2)
式中:|{j:Ti∈Dj}|为含有词语 Ti 的文本数量;|D|为文本集中的文本总数。
IDF 的计算也有多种方式,比如
IDFi=log(|D||{j:Ti∈Dj}|+1)IDFi=log(D{j:Ti∈Dj}+1)
(3)
式中,分母+1 是消除分母为 0 的情况。
3)计算 TF-IDF:
TFI-DF=TF×IDF
(4)
1.2 XGBoost 分类模型
在得到文本特征后,使用 XGBoost 进行文本分类。XGBoost 算法的思路与集成学习中的提升树思
路一致,提升树是集成学习中的学习框架,它的训练是基于残差的,模型 n 的输入是模型 n−1 预
测结果的残差,模型的训练过程在时间上依次进行。每个模型训练的目标是使得残差越来越小,可
以看到最终的训练结果其实是每个模型训练结果的叠加。
前述训练过程中的各个模型被确定为“树”,XGBoost 训练时每一次迭代就增加一棵树来拟合上一
次迭代过程中的真实值和预测值之间的残差,进而逐渐逼近实际值。
XGBoost 训练模型过程中的目标函数 Obj 为
Obj=L+∑i=1nΩ(fi)Obj=L+∑i=1nΩ(fi)
(5)
式中:L 为误差项;∑i=1tΩ(fi)为复杂度函数项。
L=∑i(yi−yˆj)2L=∑i(yi-ŷj)2
(6)
yˆi=∑k=1Kfk(xi), fk∈Fŷi=∑k=1Kfk(xi), fk∈F
(7)
式中:xi 为训练数据;yi 为 xi 对应的标签;F 为特征空间;f 为 F 中的一个特征;K 为树的个数;yˆi
为训练数据 xi 经所有预测后得到的估计值。
剩余13页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3654
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功