# Tianchi-LLM-retrieval
2023全球智能汽车AI挑战赛——赛道一:AI大模型检索问答, 76+ baseline
## 方案简介
1.LLM采用 internlm-7b-chat、Qwen-7b-chat和chatglm3-6b答案融合,这三个目前应该是开源模型中10B以下性能最优的。(把其中任意一个模型换成gpt-4,可以直接到79+....)
2.embedding 模型采用 BGE-large-zh-v1.5, 其它项目用下来这个开源embedding模型效果最好,top5召回和openai embedding模型差不多
3.pdf 解析使用pypdf2, 采用spacy分词,每个chunk近似切成256(可能大于256),pdf解析时去掉了目录,合并了一些简短的上下文
4.利用FAISS语义检索top5
## 可改进的地方(仅供参考)
1. pdf 解析目前相对来说比较粗糙,可改进的点还是很多的,这也是效果提升的主要来源
- 细粒度和完整上下文之间的平衡可以考虑改进,类似langchain ParentDocumentRetriever,小块的metadata存的是大块id,检索小块,利用id合并上下文
- 尽量去掉一些解析不正常的特殊符号啥的,保持语义的的连贯性,毕竟开源的模型理解能力有限
- 其它的一些解析方式,如按照目录解析,层级结构
2. 召回: 目前只使用了FAISS语义召回,可以尝试多种召回方式(BM25)+ rerank
3. prompt工程,你懂的,包含提示词和召回材料的组织格式,不同的提示词差别还是有挺大的
4. BGE embedding模型可以微调,从其它项目来看是会有提升的,只是数据集的构造可能需要借助能力更强的大模型,同理LLM,可以instruct QA 微调。建议精力不多的还是放在前三种方案
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的竞赛项目学习资料,作为参考学习借鉴。 3、本资源作为“参考资料”如果需要实现其他功能,需要能看懂代码,并且热爱钻研,自行调试。 2023全球智能汽车AI挑战赛赛道一AI大模型检索问答源码+学习说明(75+ baseline).zip
资源推荐
资源详情
资源评论
收起资源包目录
2023全球智能汽车AI挑战赛赛道一AI大模型检索问答源码+学习说明(75+ baseline).zip (6个子文件)
code_20105
pdfparser.py 2KB
embeddings.py 3KB
main.py 2KB
初赛训练数据集.pdf 14.46MB
LLM.py 3KB
README.md 2KB
共 6 条
- 1
资源评论
土豆片片
- 粉丝: 1527
- 资源: 5641
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于MPC的仿真轨迹跟踪模块MPC-based Simulink trajectory tracking module
- 递归地求解Fibonacci数列.pdf
- python十三种图像特征提取代码合集.zip
- 基于51单片机DS1302实时时钟数码管显示
- 简单的Python示例母亲节祝福.pdf
- 基于Python+FFmpeg的视频和音频的处理+剪辑+源码+开发文档+项目解析(高分优秀项目)
- 母亲节祝福html源码示例.pdf
- 基于51单片机DS1302实时时钟LCD1602显示
- (54节)视频号0粉起号课,逻辑梳理,技能提升,完整版-课程网盘链接提取码下载 .txt
- Mendix5-添加自定义逻辑
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功