# Tianchi-LLM-retrieval
2023全球智能汽车AI挑战赛——赛道一:AI大模型检索问答, 76+ baseline
## 方案简介
1.LLM采用 internlm-7b-chat、Qwen-7b-chat和chatglm3-6b答案融合,这三个目前应该是开源模型中10B以下性能最优的。(把其中任意一个模型换成gpt-4,可以直接到79+....)
2.embedding 模型采用 BGE-large-zh-v1.5, 其它项目用下来这个开源embedding模型效果最好,top5召回和openai embedding模型差不多
3.pdf 解析使用pypdf2, 采用spacy分词,每个chunk近似切成256(可能大于256),pdf解析时去掉了目录,合并了一些简短的上下文
4.利用FAISS语义检索top5
## 可改进的地方(仅供参考)
1. pdf 解析目前相对来说比较粗糙,可改进的点还是很多的,这也是效果提升的主要来源
- 细粒度和完整上下文之间的平衡可以考虑改进,类似langchain ParentDocumentRetriever,小块的metadata存的是大块id,检索小块,利用id合并上下文
- 尽量去掉一些解析不正常的特殊符号啥的,保持语义的的连贯性,毕竟开源的模型理解能力有限
- 其它的一些解析方式,如按照目录解析,层级结构
2. 召回: 目前只使用了FAISS语义召回,可以尝试多种召回方式(BM25)+ rerank
3. prompt工程,你懂的,包含提示词和召回材料的组织格式,不同的提示词差别还是有挺大的
4. BGE embedding模型可以微调,从其它项目来看是会有提升的,只是数据集的构造可能需要借助能力更强的大模型,同理LLM,可以instruct QA 微调。建议精力不多的还是放在前三种方案
没有合适的资源?快使用搜索试试~ 我知道了~
《AI大模型》--2023全球智能汽车AI挑战赛——赛道一:AI大模型检索问答, 75+ baseline.zip
共6个文件
py:4个
pdf:1个
md:1个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 127 浏览量
2024-03-22
16:24:01
上传
评论
收藏 11.03MB ZIP 举报
温馨提示
人工智能学习总结成果,希望可以帮到大家,有疑问欢迎随时沟通~ 人工智能学习总结成果,希望可以帮到大家,有疑问欢迎随时沟通~ 人工智能学习总结成果,希望可以帮到大家,有疑问欢迎随时沟通~ 人工智能学习总结成果,希望可以帮到大家,有疑问欢迎随时沟通~ 人工智能学习总结成果,希望可以帮到大家,有疑问欢迎随时沟通~
资源推荐
资源详情
资源评论
收起资源包目录
《AI大模型》--2023全球智能汽车AI挑战赛——赛道一:AI大模型检索问答, 75+ baseline.zip (6个子文件)
pdfparser.py 2KB
embeddings.py 3KB
main.py 2KB
初赛训练数据集.pdf 14.46MB
LLM.py 3KB
README.md 2KB
共 6 条
- 1
资源评论
季风泯灭的季节
- 粉丝: 599
- 资源: 2921
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功