基于XGBoost和文本聚焦模型的招标文件自动分类.docx资源-CSDN文库

版权申诉

128 浏览量 2023-02-23 20:33:46 上传评论收藏 1.12MB DOCX 举报

资源推荐

资源详情

资源评论

摘要

针对招标文件中因数据稀疏导致的特征提取困难影响分类准确率的问题，提出了一种基于极端梯度

提升（eXtreme gradient boosting，XGBoost）和文本聚焦表示模型的分类方法。聚焦表示部

分通过提取对分类结果有显著影响的关键字段部分，使用 N-Gram 分词，结合词性级词频-逆文档

频率（term frequency–inverse document frequency，TF-IDF）的方法，实现招标文件文本

特征向量表示；基于 XGBoost 的招标文件分类预测模型部分将提取到的特征送入 XGBoost 模型，

实现了将招标文件按照行业分类和按照项目类型分类。结果表明：聚焦表示模型与计数向量和 TF-

IDF 文本表示模型相比，其特征提取的效果更好；同时，通过人工标注语料的验证表明，8 种行业

分类准确率高达 95.3%，按照项目类型的分类准确率达到 96.6%左右。与其他分类算法比较，

XGBoost 分类算法表现更优。

Abstract

Aiming at the problem that the difficulty of feature extraction caused by sparse data

in bidding documents affects the classification accuracy,a classification method

based on eXtreme gradient boosting (XGBoost) and text focus representation model

is proposed.The focused representation part is to extract the key field parts that

have a significant impact on the classification results,use N-Gram word

segmentation,and combine the part of speech level term frequency-inverse

document frequency(TF-IDF) method to realize the text feature vector

representation of the bidding documents;at the part of the bidding document

classification prediction model based on XGBoost,the extracted features are sent

into the XGBoost model,the bidding documents are classified according to industry

and project types.The experimental results show that the focused representation

model has a better feature extraction effect than the count vector and TF-IDF text

representation model.At the same time,through the verification of the manual

annotation corpus,the classification accuracy rate of 8 industries is as high as

95.3%,and the classification accuracy rate according to the project type of XGBoost

reaches about 96.6%.Compared with other classification algorithms,the XGBoost

classification algorithm performs better.

译

关键词

文本分类; 文本表示; XGBoost; 聚焦模型

Keywords

text classification; text representation; eXtreme gradient boosting; focus model

译

招投标业务是企业进行项目管理的一项重要工作，相关数据产生的速度快、数量多，实现招标文件

的高效管理、应用、反馈等功能可以显著提高企业相关工作人员的工作效率，有效提高招投标质量。

通过建立一个负责招投标的企业用户使用的招标文件分类系统，能够降低项目实施的成本和风险因

素，保证招投标项目的顺利进行，帮助企业实现收益最大化，然而，企业对于招投标项目管理过程

中的招标文件等部分依然采用人工方式进行处理，消耗了大量不必要的人力物力。

本文采用端到端的文本分类方法实现招标文件分类，即从输入端的数据直接得到输出端的结果。在

招标文件分类任务中，由于数据样本标注的代价昂贵，且误差较大，因此需要采用端到端的文本分

类方法，从而节省中间任务的数据标注成本。但在端到端的模型中，由于可解释性降低、所需参数

增多，训练更加困难。

本文从人工处理招标文件的流程中总结出 2 个能够使用计算机技术进行优化的模块：标的物行业分

类、标的物项目类型分类。本文通过对模块功能和技术研究现状的调研，对文本分类技术进行研究。

在试验阶段采用词频-逆文档频率（ term frequency–inverse document frequency，TF-IDF）

结合 N-Gram 的文本聚焦模型提取招标文件特征，并使用极端梯度提升（ eXtreme gradient

boosting，XGBoost）模型实现分类。传统的文本分类方法有朴素贝叶斯、支持向量机等，深度

学习方法有基于候选区域的卷积神经网络（ region-based convolutional neural networks，

RCNN）、文本卷积神经网络（text convolutional neural networks，TextCNN）等神经网络

模型。

相较于传统方法，本文所采用的 XGBoost 得到的分类结果准确率更高。由于数据标注的代价昂贵，

相对于深度学习，在小数据集上表现较好的 XGBoost 更适用于招标文件的分类任务，基于行业的

招标文件分类准确率可以达到 95.3%左右，基于项目类型的分类准确率可以达到 96.6%左右。不

论在特征提取的效果上还是在分类算法的效果上，本文相较于其他算法都具有比较明显的优势。

1 模型设计

本文设计了基于文本聚焦和 XGBoost 的组合算法，实现了招标文件的分类。使用 N-Gram 和 TF-

IDF 相结合的文本聚焦模型提取招标文件特征，之后利用 XGBoost 算法根据特征对文本进行分类。

1.1　聚焦模型

1.1.1　N-Gram 分词

N-Gram（又称 n 元模型）将自然语言看作随机过程，将字、词、段等每个语言单元看作随机变量

并且满足一定概率分布，语言单元的上下文决定其是否出现在文本中。N-Gram 模型存在参数过多、

数据稀疏等问题，所以计算中引入 Markov 假设的思想：一个词（排在第 N 个）的出现只跟它前

面的（N-1）个词有关，句子出现的几率即各词出现概率之积。N 越大则模型的刻画能力越强，但

是参数空间会随着 N 的增加呈现指数型增大，物理存储空间的有限性必然导致 N 值大小受限。因

此应用 N-Gram 模型时常见的 N 值取为 2 和 3，即 Bi-Gram 和 Tri-Gram。

N-Gram 降低了在实现文本分类时对大型词语库的依赖、降低了分词处理流程的复杂程度，同时可

以使模型关注到的上下文信息更多。一方面考虑到使用 N-Gram 模型的便利性以及不需分词处理、

所需先验知识少、不需词典支持等优势，另一方面在特征提取阶段 Python 的 TfidfVectorizer（）

方法自带 N-Gram 功能，可以通过参数控制非常方便地实现文本表示。因此本文使用了 N-Gram

来实现招标文件文本表示。

1.1.2　TF-IDF 向量化表示

TF-IDF 实际是词频（ term frequency，TF）乘以逆文本频率指数（ inverse document frequency，

IDF），若词语 Ti 在某篇文本中出现的次数高（TF 高），而在其他文本中很少出现（IDF 高），

则认为 Ti 对这篇文本来说具有较高的类别区分作用（TF-IDF 高）。可以看出，TF 刻画出 Ti 对于

某篇文本的重要程度，IDF 刻画出 Ti 对于整个文本集（语料库）的重要程度。其计算步骤如下：

1）计算 TF：

TFi,j=Ni,j∑kNk,jTFi,j=Ni,j∑kNk,j

(1)

式中:Ni,j 为词语 Ti 在文本 Dj 中出现的次数，分母为所有词语在文本 Dj 里出现的次数之和，这里是

除以分母进行标准化，实际中也可以采用其他标准化方法。

2）计算 IDF：

IDFi=log|D||{j:Ti∈Dj}|IDFi=logD{j:Ti∈Dj}

(2)

式中：|{j:Ti∈Dj}|为含有词语 Ti 的文本数量；|D|为文本集中的文本总数。

IDF 的计算也有多种方式，比如

IDFi=log(|D||{j:Ti∈Dj}|+1)IDFi=log(D{j:Ti∈Dj}+1)

(3)

式中，分母+1 是消除分母为 0 的情况。

3）计算 TF-IDF：

TFI-DF=TF×IDF

(4)

1.2　XGBoost 分类模型

在得到文本特征后，使用 XGBoost 进行文本分类。XGBoost 算法的思路与集成学习中的提升树思

路一致，提升树是集成学习中的学习框架，它的训练是基于残差的，模型 n 的输入是模型 n−1 预

测结果的残差，模型的训练过程在时间上依次进行。每个模型训练的目标是使得残差越来越小，可

以看到最终的训练结果其实是每个模型训练结果的叠加。

前述训练过程中的各个模型被确定为“树”，XGBoost 训练时每一次迭代就增加一棵树来拟合上一

次迭代过程中的真实值和预测值之间的残差，进而逐渐逼近实际值。

XGBoost 训练模型过程中的目标函数 Obj 为

Obj=L+∑i=1nΩ(fi)Obj=L+∑i=1nΩ(fi)

(5)

式中：L 为误差项；∑i=1tΩ(fi)为复杂度函数项。

L=∑i(yi−yˆj)2L=∑i(yi-ŷj)2

(6)

yˆi=∑k=1Kfk(xi), fk∈Fŷi=∑k=1Kfk(xi), fk∈F

(7)

式中：xi 为训练数据；yi 为 xi 对应的标签；F 为特征空间；f 为 F 中的一个特征；K 为树的个数；yˆi

为训练数据 xi 经所有预测后得到的估计值。

剩余13页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3654
资源: 1万+

基于XGBoost和文本聚焦模型的招标文件自动分类.docx

基于XGBoost与Stacking融合模型的恶意程序多分类检测方法.docx

信息安全等级保护测评服务项目需求书V2.0招标文件.doc.docx

内蒙古工业大学数字化校园项目招标文件技术部分.docx

支持向量机等各种算法和模型的优点和缺点.docx

基于RTE和XGBoost组合模型的网络故障预测.docx

信息安全等级保护测评服务项目需求书V2.0(招标文件).docx

第10讲胡不归最值模型(解析版).docx

基于CNNCIFG-Attention模型的文本情感分类.docx

托管运维服务项目招标文件范本1.doc.docx

基于XGBoost和SHAP的急性肾损伤可解释预测模型.docx

重庆市环境监测中心信息系统运维服务招标文件.docx

“智慧张浦”城市公共信息服务平台建设方案(招标技术方案).docx

基于YNCIM模型的云南电网统一信息模型共享平台研究.docx

构建预测模型的七大步骤简述.docx

招标文件表格格式.docx

基于Python的上下班时间预测模型.docx

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

农村公交与异构无人机协同配送优化

李飞飞自传 我看见的世界 The World I see

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

4个亲测好用的ChatGPT4渠道

基于小波与卷积神经网络的多尺度时间序列分类.zip

学术海报模板+论文科研+研究生

北森能力测评题库.zip

2023泛娱乐社交出海手册-ZEGO即构科技

最新资源

李飞飞自传我看见的世界 The World I see