# GAIIC2022_track1_rank11
2022人工智能技术创新大赛-赛道1-电商关键属性匹配
[链接](https://www.heywhale.com/home/competition/620b34c41f3cf500170bd6ca/content/2)
**队友**:[XLF-xlf](https://github.com/XLF-xlf) & [Wuyu-love](https://github.com/Wuyu-love)
## 数据分析
#### 1. 原始数据处理
原始数据分为有标签(5万)和无标签(10万)
通过从有标签数据的title中检索属性,将原本的正样本无标签数据构造成有标签数据
#### 2. 数据增强
数据本身正负样本比例为8:2,需要构造负样本
- 将属性随机替换
- 随机交换标题中关键属性的位置
- 删除部分关键属性
经实验证明,当正负样本比例为1:2,效果最佳,实验数据约40万
## 模型
#### 1. CNN
在一位大佬分享的[baseline](https://github.com/DLLXW/data-science-competition/tree/main/heywhale/gaiic2022)上做了一些改动,初赛单模效果能到0.93+,最终CNN是跑了五折再进行投票融合,成绩能到0.94+
- 调整了正则化参数
- 融合了最大池化和平均池化来提取更多信息
- 在文字和图片特征concat后添加了attention模块
#### 2. BERT
使用ChineseBert在全部title上使用MLM任务预训练。文字输入Bert得到的Embedding结果与图片特征(经过降维处理)concat做13分类,初赛A榜分数0.93
- concat后处理结构与CNN相同
#### 3. Visual Bert
直接将图片向量降维到1024后与文字向量一同输入visualbert, 使用Huggface预训练权重,复赛A榜分数0.909
- 使用transform结构6层结果与12层结果相差不大
- 对图片向量的输入方式进行了探索,发现复制图片向量并单独经过处理后进行输入,有小幅的结果提升
## 一些尝试
- 使用jieba 分词,对字典根据数据集进行了调整(有提升)
- 分析数据发现图文、版型、领型预测效果不好,单独对其进行二分类(没提升)
- 复赛将训练数据分布设置成测试数据(没提升)
## 成绩
| | rank | 成绩 |
| :---- |:--- | :--: |
|初赛B榜 | 9 | 0.94891771 |
|复赛B榜 | 11 | 0.94819834 |
## 总结
总体来说我们组这次比赛开始使用的CNN网络,对这个网络进行了一系列的实验,
单模五折到0.94+后,再做调整效果就不明显了,但因为CNN这个模型非常小,只有12M,所以不用考虑模型大小的限制,最后方案融合了BERT,Visual BERT模型。
## 最后
BERT,Visual BERT这两个模型我们也尝试了很多种改进,效果不太理想,也希望可以看看别人的方案学习一下。
第一次打比赛,还有很多需要改进的地方,继续加油
没有合适的资源?快使用搜索试试~ 我知道了~
2022人工智能技术创新大赛-赛道1-电商关键属性匹配.zip
共26个文件
py:14个
pyc:5个
sh:3个
需积分: 5 0 下载量 20 浏览量
2024-04-22
17:29:23
上传
评论
收藏 74KB ZIP 举报
温馨提示
2022人工智能技术创新大赛-赛道1-电商关键属性匹配
资源推荐
资源详情
资源评论
收起资源包目录
2022人工智能技术创新大赛-赛道1-电商关键属性匹配.zip (26个子文件)
222二婷3789
data
word_to_idx_v1.json 112KB
init.sh 44B
test.sh 273B
requirements.txt 1KB
train.sh 188B
README.md 3KB
code
fusion.py 2KB
code_VisualBert
train4_copy.py 10KB
visual_bert_model_all_var.py 3KB
infer_all.py 4KB
code_textcnn
infer1.py 4KB
dataset.py 2KB
jieba_word.txt 1KB
train.py 7KB
__pycache__
net.cpython-38.pyc 2KB
dataset.cpython-38.pyc 2KB
net.py 4KB
make_neg_sample_v2.py 16KB
code_Bert
infer1.py 4KB
train_Bert1.py 9KB
src
dataset_Bert.py 3KB
__pycache__
dataset_Bert.cpython-38.pyc 2KB
bert_net.py 3KB
__pycache__
bert_net3.cpython-38.pyc 3KB
bert_net.cpython-38.pyc 3KB
make_neg_sample_v1.py 14KB
共 26 条
- 1
资源评论
奔强的程序
- 粉丝: 987
- 资源: 2709
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功