检索服务提供分词和建立索引功能，可自定义中文词库，支持包括字段检索、字段排序、布尔搜索、范围检索、地理位置（POI、AOI）查询资源-CSDN文库

共1704个文件

h：870个

cc：566个

proto：72个

版权申诉

程序开发

搜索引擎

191 浏览量 2023-11-18 10:36:22 上传评论收藏 27.77MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

检索服务提供分词和建立索引功能，可自定义中文词库，支持包括字段检索、字段排序、布尔搜索、范围检索、地理位置（POI、AOI）查询（1704个子文件）

libgtest.a 1.96MB

libgmock.a 776KB

libjsoncpp.a 387KB

libz64.a 123KB

libz32.a 108KB

libattr_api_32.a 35KB

libapp-client.a 26KB

libattr_api_64.a 22KB

libgtest_main.a 4KB

analyze_data 56B

analyze_data 49B

bad_utf8_string 3B

md5.c 11KB

value.c 3KB

proc_title.c 2KB

bitsop.c 2KB

version.c 2KB

system_lock.c 1KB

localip.c 1KB

version.c 1KB

somain.c 760B

unix_lock.c 688B

descriptor.pb.cc 467KB

descriptor_unittest.cc 293KB

descriptor.cc 282KB

js_generator.cc 141KB

cpp_message.cc 139KB

map_test.cc 126KB

parser_unittest.cc 120KB

message_differencer_unittest.cc 111KB

command_line_interface_unittest.cc 97KB

db_process_rocks.cc 94KB

generated_message_reflection.cc 93KB

protostream_objectwriter_test.cc 91KB

test_util_lite.cc 90KB

text_format.cc 89KB

command_line_interface.cc 86KB

strutil.cc 86KB

type.pb.cc 83KB

parser.cc 83KB

extension_set.cc 81KB

wrappers.pb.cc 78KB

text_format_unittest.cc 77KB

message_differencer.cc 72KB

cpp_helpers.cc 70KB

wire_format.cc 66KB

plugin.pb.cc 65KB

php_generator.cc 63KB

repeated_field_unittest.cc 62KB

buffer_process.cc 61KB

python_generator.cc 57KB

objectivec_helpers.cc 56KB

extension_set_unittest.cc 55KB

java_message.cc 53KB

arena_unittest.cc 52KB

cpp_file.cc 51KB

api.pb.cc 51KB

tree_data.cc 50KB

wire_format_unittest.cc 50KB

MarkupSTL.cc 50KB

markup_stl.cc 50KB

java_message_field.cc 49KB

coded_stream_unittest.cc 46KB

protostream_objectwriter.cc 46KB

cpp_string_field.cc 45KB

pt_malloc.cc 43KB

java_string_field.cc 42KB

java_enum_field.cc 42KB

struct.pb.cc 42KB

protostream_objectsource.cc 41KB

generated_message_reflection_unittest.cc 41KB

buffer_pool.cc 40KB

t_tree.cc 40KB

lite_unittest.cc 39KB

tokenizer.cc 37KB

java_primitive_field.cc 37KB

admin_process.cc 36KB

field_mask_util_test.cc 36KB

protostream_objectsource_test.cc 35KB

tokenizer_unittest.cc 34KB

strutil_unittest.cc 34KB

sequence_search_index.cc 34KB

java_map_field_lite.cc 34KB

java_enum_field_lite.cc 33KB

java_helpers.cc 33KB

dynamic_message.cc 33KB

search_util.cc 32KB

java_map_field.cc 32KB

raw_data_process.cc 31KB

zero_copy_stream_unittest.cc 31KB

cpp_message_field.cc 31KB

java_string_field_lite.cc 30KB

coded_stream.cc 30KB

generated_message_util.cc 30KB

java_message_field_lite.cc 30KB

repeated_field_reflection_unittest.cc 30KB

dtcsvr.cc 29KB

json_stream_parser.cc 29KB

vector.pb.cc 29KB

index_tbl_op.cc 29KB

共 1704 条

Isearch 向量检索

参考手册 V1.1.0

一、引言 ........................................................................................................................................3

二、索引命名规则 ........................................................................................................................3

（一）前缀 ............................................................................................................................4

（二）向量转换规则.............................................................................................................4

（三）非穷举检索类型规则.................................................................................................4

（四）向量编码规则.............................................................................................................5

（五）后缀 ............................................................................................................................6

三、选型策略 ................................................................................................................................6

四、 Isearch 可用索引....................................................................................................................7

五、 Isearch 向量服务及工具介绍 ................................................................................................8

六、参考文档 ..............................................................................................................................10

一、引言

向量检索是指用一组数字(向量)来量化一个事物，用大量向量来表示事物集合，用

向量计算的方式寻找相似事物的一种检索方式。

向量检索主要处理非结构化数据(如图片、视频、语音、文本等)的分析与检索(商品

图片检索,推荐,声纹匹配,人脸识别等)。

目前主流的框架有 Facebook AI 的 Faiss、Google 的 ScaNN、Microsoft AI lab 的 SPTAG

等。

FAISS 支持开发人员对检索速度、内存使用和检索精度等的优化设置。但它仅仅是

一个算法库，并且对开发人员有较高的使用要求。

SPTAG 的优点是搜索速度快，毫秒内智能搜索数十亿条向量，并且在查询精确度

和内存占用上表现佳。但缺点也很明显，其建图时间长，而且每此添加新向量进数据库，

必须重新建图。

现有的实现也都还只是算法库，而并非一个系统。随着 AI 应用的大规模落地，提

供一个面向海量特征向量检索的数据库系统，已经是市场对于数据库厂商提出的新需求。

目前 Isearch 检索系统只支持标量数据的检索，本项目在 Isearch 已有功能的基础上

新增对向量检索数据的支持。

二、索引命名规则

向量检索服务配置文件 app_field_define.json 字段”indexType”缩写规则，严格遵守

Faiss 的索引命名规则。保证索引类型选型一致性，可减少学习成本，代码易维护，可

读性强，拓展性强。

索引命名规则，包括 5 处顺序部分，依次为：（1）前缀（2）向量转换规则（3）

非穷举检索类型规则（4）向量编码规则（5）后缀。各部分以逗号（“,”）作为分隔符。

有效命名，需包含（3）中非粗量化器或（3）中粗量化器 +（4）任意缩写，其他

规则部分，视性能要求适度选择。index_model_trainer 服务，提供训练索引模型文件功

能的同时，也可检查索引命名规则有效性，见第五章。

文档中涉及到的特殊符合说明，如下：

*:代表任意大小的整数，正则由([0-9]+)表示

*1:占位作用，占第一个数字位，依此类推

(...):符合索引命名规则的缩写全称

示例说明，有效索引 A 命名规则如下：

”IDMap,OPQ16_64,IVF512(PQ32x4fs,RFlat),PQ16x4fsr,Refine(OPQ56_112,PQ56)”

IDMap,:A 的前缀，代表适配 add_with_ids()函数；

OPQ16_64：A 的向量转换规则为“OPQ*1_*2”，详情见下表二；

IVF512(PQ32x4fs,RFlat)：A 的非穷举检索类型规则为“IVF*1(...)”，详情见下表三；

PQ16x4fsr：A 的向量编码规则为“PQ*1x4fsr”，详情见下表四；

Refine(OPQ56_112,PQ56)：A 的后缀为“Refine(...)”，详情见下表五；

（一）前缀

（1）前缀

评论收藏

内容反馈

版权申诉

Java程序员-张凯

粉丝: 1w+
资源: 6723

检索服务提供分词和建立索引功能，可自定义中文词库，支持包括字段检索、字段排序、布尔搜索、范围检索、地理位置（POI、AOI）查询

信息检索-布尔检索和倒排索引

全文检索服务中文分词技术

用于中文分词的中文词库包

中文自动分词&全文检索@统计工具(GBK版

oracle 全文检索 全文索引 多列字段索引

lucene.net+盘古分词多条件全文检索并匹配度排序

lucene全文检索简单索引和搜索实例

支持检索关键词语义扩展的可排序密文检索方案.pdf

Xunsearch 免费开源的专业全文检索解决方案

基于分词索引全文检索介绍

大数据ES数据存储，查询之IK中文分词器

中文分词检索系统

CALIS_数字图书馆资源统一检索系统与书附光盘数据库系统简介与利用.ppt

Friso高性能中文分词器框架源码.rar

solr搭建（含拼音检索，三种分词器，停词器，扩展词库）

中文分词库数据.rar(包含access,sql，xlsx各一份)

中文索引检索盘古分词管理

EXCEL+ACCESS工作管理系统 最终版更新四 功能增强 增加类似百度检索功能（BI报表+数据库+全文检索）

北邮 基于多媒体的信息检索平台设计_小学期

第十五届蓝桥杯大赛软件赛省赛C++B组题目

C/C++中文参考手册离线最新版

代码随想录-八股文 pdf

编译器（gcc、g++）

Qt5.9 C++开发指南.pdf 及示例源码

Qt （高仿Visio）流程图组件开发，源码分享

mingw-w64-install.exe

Qt、QCustomPlot、实时波形绘制、实时曲线绘制

C/C++中文帮助文档

GitKrakenSetup-6.5.1 版本，包括win和linux

最新资源

oracle 全文检索全文索引多列字段索引

EXCEL+ACCESS工作管理系统最终版更新四功能增强增加类似百度检索功能（BI报表+数据库+全文检索）

北邮基于多媒体的信息检索平台设计_小学期