评测数据集说明
通用微博训练数据集包括27,768条微博,验证集(实时刷榜验证集)包含2,000条微博,测试数据集(最终评测集)包含5,000条微博。
疫情微博训练数据集包括8,606条微博,验证集(实时刷榜验证集)包含2,000条微博,测试数据集(最终评测集)包含3,000条微博。
注意:实际发布的测试集中会包含混淆数据(两个评测数据集均混淆至50000条),混淆数据不作为测点,在最终结果评测时会预先去除。
每个数据集提供txt和xlsx(WPS打开)两种版本,内容相同,仅格式不同。
usual_XX.txt表示通用微博数据集,virus_XX.txt表示疫情微博数据集。
XX_train.txt表示训练集。
XX_eval.txt表示验证集,是评测期间刷榜测试集。
XX_test.txt表示测试集,即最终评测集(分为含混淆数据版本和真实评测数据版本)。
XX_XX_labeled.txt表示数据集XX_XX.txt的有标签版本,在包含混淆数据的文件中,混淆数据的标签为None。
txt文件为json格式,格式样例如下所示:
[
{
"id": 1,
"content": "回忆起老爸的点点滴滴,心痛…为什么.接受不了",
"label": "angry"
},
{
"id": 2,
"content": "我竟然不知道kkw是丑女无敌里的那个",
"label": "happy"
},
{
"id": 3,
"content": "我们做不到选择缘分,却可以珍惜缘分。",
"label": "neutral"
}
]
相对应的,xlsx中的第一列为id,第二列为content,第三列为label(仅训练数据和XX_labeled.xlsx有label列)。
评测通知网站:https://smp2020ewect.github.io/
评测提交排行网:http://39.97.118.137/
最终排行榜:http://39.97.118.137/test_rank
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
SMP2020微博情绪分类技术评测数据集 本次技术评测使用的标注数据集由哈尔滨工业大学社会计算与信息检索研究中心提供,原始数据源于新浪微博,由微热点大数据研究院提供,数据集分为两部分。 第一部分为通用微博数据集,该数据集内的微博内容是随机获取到微博内容,不针对特定的话题,覆盖的范围较广。 第二部分为疫情微博数据集,该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博,其内容与新冠疫情相关。 因此,本次评测训练集包含上述两类数据:通用微博训练数据和疫情微博训练数据,相对应的,测试集也分为通用微博测试集和疫情微博测试集。参赛成员可以同时使用两种训练数据集来训练模型。 每条微博被标注为以下六个类别之一:neutral(无情绪)、happy(积极)、angry(愤怒)、sad(悲伤)、fear(恐惧)、surprise(惊奇)。 通用微博训练数据集包括27,768条微博,验证集包含2,000条微博,测试数据集包含5,000条微博。 疫情微博训练数据集包括8,606条微博,验证集包含2,000条微博,测试数据集包含3,000
资源推荐
资源详情
资源评论
收起资源包目录
SMP2020微博情绪分类技术评测数据集.zip (30个子文件)
SMP2020微博情绪分类技术评测数据集
评测数据集
.DS_Store 6KB
train
virus_train.txt 1.54MB
usual_train.txt 4.57MB
usual_train.xlsx 4.04MB
virus_train.xlsx 1.41MB
test(最终评测集)
.DS_Store 6KB
含混淆数据
virus_test.txt 13.14MB
virus_test.xlsx 11.51MB
usual_test.txt 10.32MB
virus_test_labeled.txt 13.87MB
usual_test.xlsx 8.83MB
usual_test_labeled.xlsx 9.47MB
virus_test_labeled.xlsx 12MB
真实评测集
virus_test.txt 486KB
virus_test.xlsx 457KB
usual_test.txt 748KB
virus_test_labeled.txt 539KB
usual_test.xlsx 675KB
usual_test_labeled.xlsx 769KB
usual_test_labeled.txt 837KB
virus_test_labeled.xlsx 518KB
eval(刷榜数据集)
usual_eval_labeled.txt 332KB
virus_eval_labeled.xlsx 358KB
usual_eval.txt 296KB
virus_eval.xlsx 331KB
usual_eval.xlsx 272KB
virus_eval.txt 339KB
usual_eval_labeled.xlsx 317KB
virus_eval_labeled.txt 375KB
readme.txt 2KB
共 30 条
- 1
资源评论
小爷毛毛(卓寿杰)
- 粉丝: 6301
- 资源: 6
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功