在本次实例的过程中,采取的数据集为50000条已经标注好的新闻文本信息,其中新闻的种类分别为:体育、娱乐、家居、房产、教育、时尚、时政、游戏、科技和财经,保存在cnew.txt文件中。 把文件读取出来,把文本信息和标签信息分别存储在sentences和labelbanes中,由于标签信息为中文,在模型训练的过程中,不能传入非结构化的数据,所以进行向量化,定义label2id将标签和序号相对应,并且把labelnames中的文字信息转化为数字存储在labels。具体的操作如图2所示。
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~