- 人工智能大小:1MB项目介绍 短文本聚类是常用的文本预处理步骤,可以用于洞察文本常见模式、分析设计语义解析规范、加速相似句子查询等。本项目实现了内存友好的短文本聚类方法,并提供了相似句子查询接口。 依赖库 pip install tqdm jieba 使用方法 聚类 python cluster.py --infile ./data/infile \ --output ./data/output 具体参数设置可以参考cluster.py文件内_get_parser()函数参数说明,包含设置分词词典、停用词、匹配采样数、匹配度阈值等。 查询 参考search.py代码里Searcher类的使用方法,如果用于查询标注数据的场景,使用分隔符:::将句子与标注信息拼接起来。如我是海贼王:::(λx.海贼王),处理时会只对句子进行匹配。项目介绍 短文本聚类是常用的文本预处理步骤,可以用于洞察文本常见模式、分析设计语义解析规范、加速相似句子查询等。本项目实现了内存友好的短文本聚类方法,并提供了相似句子查询接口。 依赖库 pip install tqdm jieba 使用方法 聚类 python cluster.py --infile ./data/infile \ --output ./data/output 具体参数设置可以参考cluster.py文件内_get_parser()函数参数说明,包含设置分词词典、停用词、匹配采样数、匹配度阈值等。 查询 参考search.py代码里Searcher类的使用方法,如果用于查询标注数据的场景,使用分隔符:::将句子与标注信息拼接起来。如我是海贼王:::(λx.海贼王),处理时会只对句子进行匹配。0 49浏览¥ 9.90
- 数据集大小:613KB目录下 pip install -r requirements.txt python classifier.py目录下 pip install -r requirements.txt python classifier.py0 220浏览¥ 14.90
- 人工智能大小:104KB人工智能-项目实践-自然语言处理-基于Word2vec和Fasttext的句子级别文本匹配与打分(主要用于QA知识问答) IntelligentSentenceMatch 基于Word2vec和Fasttext的句子级别文本匹配与打分(主要用于QA知识问答)人工智能-项目实践-自然语言处理-基于Word2vec和Fasttext的句子级别文本匹配与打分(主要用于QA知识问答) IntelligentSentenceMatch 基于Word2vec和Fasttext的句子级别文本匹配与打分(主要用于QA知识问答)0 58浏览¥ 9.90
- 自然语言处理大小:3MB这是基于tf2实现的Transformer体系结构。Keras,它可以快速加载预训练的Bert模型进行下游微调训练。欢迎来到star,我将在未来继续更新。这是基于tf2实现的Transformer体系结构。Keras,它可以快速加载预训练的Bert模型进行下游微调训练。欢迎来到star,我将在未来继续更新。5 125浏览¥ 17.90
- 人工智能大小:46MB依赖库说明 python2.7 Go 1.14.2 由于go的优良并发性能,使用go做模型预测server部署。 Tensorflow 1.5.0 核心代码使用tf 1.5实现。 tf_metrics 0.0.1 tf官方的tf.metrics对precision/recall的统计依然停留在二分类上,无法支持多分类准召统计,所以采用第三方tf_metrics库。 Tqdm 4.46.0 比较酷的进度条打印库,方便展示训练进度,同时会自动显示剩余预估训练时间。依赖库说明 python2.7 Go 1.14.2 由于go的优良并发性能,使用go做模型预测server部署。 Tensorflow 1.5.0 核心代码使用tf 1.5实现。 tf_metrics 0.0.1 tf官方的tf.metrics对precision/recall的统计依然停留在二分类上,无法支持多分类准召统计,所以采用第三方tf_metrics库。 Tqdm 4.46.0 比较酷的进度条打印库,方便展示训练进度,同时会自动显示剩余预估训练时间。0 40浏览¥ 9.90
- pytorch大小:802KB虽然可以从huggingface、pytorch_pretrained_bert等框架中导入Bert,但是我们也可以自己实现Bert. 参考 pytorch_pretrained_bert 中的Bert实现。 Other文件夹下有Bert的单独测试,可以参考。虽然可以从huggingface、pytorch_pretrained_bert等框架中导入Bert,但是我们也可以自己实现Bert. 参考 pytorch_pretrained_bert 中的Bert实现。 Other文件夹下有Bert的单独测试,可以参考。0 54浏览¥ 14.90
- 人工智能大小:13KB人工智能-项目实践-推荐系统-将DCN双塔模型应用于排序过程 (1)input:连续型变量 + 离散型embedding (2)resnet残差模块特征交叉:x‘ = x0xT w + b + x = f(x,w,b) + x (3) 权重共享w 对X0XT进行降维 + 减少参数量 personal小结: 中间拟合残差,类似GDBT 增加cross,避免梯度反向传播时梯度消失,可以使深层模型更易训练 DeepCrosssing论文--提到归一化作用,在sample size变化时候表 X0与X隐形特征交叉(embedding交叉),相对于FM来说提高交叉程度,相对于mlp来说减少参数人工智能-项目实践-推荐系统-将DCN双塔模型应用于排序过程 (1)input:连续型变量 + 离散型embedding (2)resnet残差模块特征交叉:x‘ = x0xT w + b + x = f(x,w,b) + x (3) 权重共享w 对X0XT进行降维 + 减少参数量 personal小结: 中间拟合残差,类似GDBT 增加cross,避免梯度反向传播时梯度消失,可以使深层模型更易训练 DeepCrosssing论文--提到归一化作用,在sample size变化时候表 X0与X隐形特征交叉(embedding交叉),相对于FM来说提高交叉程度,相对于mlp来说减少参数0 82浏览¥ 9.90
- 自然语言处理大小:11KB运行 0. 配置config下文件 数据格式见:./data/data_sample.json 1. 数据预处理,获得word2idx, label2idx python preprocess_data.py 2. 训练bert python train_bert.py 3. 训练textcnn(主要用于观察没有蒸馏时的性能) python train_textcnn.py 4. 训练蒸馏模型 python train_KD.py运行 0. 配置config下文件 数据格式见:./data/data_sample.json 1. 数据预处理,获得word2idx, label2idx python preprocess_data.py 2. 训练bert python train_bert.py 3. 训练textcnn(主要用于观察没有蒸馏时的性能) python train_textcnn.py 4. 训练蒸馏模型 python train_KD.py0 130浏览¥ 9.90
- 人工智能大小:6KB人工智能-项目实践-数据增强-使用翻译技术做数据增强 cn-data-enhance 利用开放的翻译api做数据增强。 先将中文翻译成英文 英文再翻译回来人工智能-项目实践-数据增强-使用翻译技术做数据增强 cn-data-enhance 利用开放的翻译api做数据增强。 先将中文翻译成英文 英文再翻译回来0 34浏览¥ 9.90
- 人工智能大小:4MB基于知识库的问答:seq2seq模型实践 假设要回答“Where was Leslie Cheung born”这个问题,主要分四步: 实体识别(Named Entity Recognition),即把问题中的主要实体的名字从问题中抽出来,这样才知道应该去知识库中搜取哪个实体的信息来解决问题,即图中把“Leslie Cheung”这个人名抽出来; 实体链接(Entity Linking),把抽取出来的实体名和知识库中具体的实体对应起来,做这一步是因为,由于同名实体的存在,名字不是实体的唯一标识,实体独一无二的编号(id)才是,找到了实体名没卵用,必须要对应到知识库中具体的实体id,才能在知识库中把具体实体找到,获取相关信息。即图中将“Leslie Cheung”映射到“m.sdjk1s”这个 id 上(Freebase 的实体 id 是这个格式的)。这一步会存在一些问题,比如直接搜“姓名”叫“Leslie Cheung”的实体是搜不到的,因为“Leslie Cheung”其实是某个实体的“外文名”,他的“姓名”叫“张国荣”,以及有时候还会有多个叫“Leslie Cheung”的人。基于知识库的问答:seq2seq模型实践 假设要回答“Where was Leslie Cheung born”这个问题,主要分四步: 实体识别(Named Entity Recognition),即把问题中的主要实体的名字从问题中抽出来,这样才知道应该去知识库中搜取哪个实体的信息来解决问题,即图中把“Leslie Cheung”这个人名抽出来; 实体链接(Entity Linking),把抽取出来的实体名和知识库中具体的实体对应起来,做这一步是因为,由于同名实体的存在,名字不是实体的唯一标识,实体独一无二的编号(id)才是,找到了实体名没卵用,必须要对应到知识库中具体的实体id,才能在知识库中把具体实体找到,获取相关信息。即图中将“Leslie Cheung”映射到“m.sdjk1s”这个 id 上(Freebase 的实体 id 是这个格式的)。这一步会存在一些问题,比如直接搜“姓名”叫“Leslie Cheung”的实体是搜不到的,因为“Leslie Cheung”其实是某个实体的“外文名”,他的“姓名”叫“张国荣”,以及有时候还会有多个叫“Leslie Cheung”的人。0 138浏览¥ 9.90
- Java大小:85KB自然语言处理理论知识讲解以及所使用的一些文档自然语言处理理论知识讲解以及所使用的一些文档0 61浏览¥ 9.90
- 人工智能/神经网络/深度学习大小:4MB很不错的讲解Python自然语言处理的书籍很不错的讲解Python自然语言处理的书籍0 70浏览¥ 9.90