### 官网:
[官网链接](http://www.aias.top/)
### 词向量SDK【中文】
词向量/词嵌入(Word embedding)是自然语言处理(NLP)中语言模型与表征学习技术的统称。
概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,
每个单词或词组被映射为实数域上的向量。
- 词向量
![img](https://aias-home.oss-cn-beijing.aliyuncs.com/AIAS/nlp_sdks/word_vector.jpeg)
### SDK功能:
- 词向量提取
- 相似度计算:
- 余弦相似度
- 内积
### SDK包含9个模型数据:
#### WordEncoderExample1 (w2v_wiki_dim300 403M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为352219,
训练采用的语料是——Wikipedia_zh 中文维基百科。
- 运行例子 - WordEncoderExample1
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 中国-特征值: [0.365368, 0.506662, ..., -0.157893, 0.346256]
[INFO ] - 美国-特征值: [0.365368, 0.506662, ..., -0.157893, 0.346256]
[INFO ] - 余弦相似度: 0.41243544
[INFO ] - 内积: 11.631776
```
#### WordEncoderExample2 (w2v_weibo_dim300 - 大小约 223M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为195204,
训练采用的语料是——Weibo微博。
- 运行例子 - WordEncoderExample2
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 中国-特征值: [-0.186542, 0.153161, ..., -0.344588, 0.269266]
[INFO ] - 美国-特征值: [-0.186542, 0.153161, ..., -0.344588, 0.269266]
[INFO ] - 余弦相似度: 0.30708003
[INFO ] - 内积: 6.5972724
```
#### WordEncoderExample3 (w2v_financial_dim300 - 大小约 535M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为467324,
训练采用的语料是——Financial News 金融新闻。
- 运行例子 - WordEncoderExample3
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 投资-特征值: [-0.146902, 0.203111, ..., -0.371138, 0.073174]
[INFO ] - 投机-特征值: [-0.146902, 0.203111, ..., -0.371138, 0.073174]
[INFO ] - 余弦相似度: 0.26770666
[INFO ] - 内积: 5.2186356
```
#### WordEncoderExample4 (w2v_sikuquanshu_dim300 - 大小约 22M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为19529,
训练采用的语料是——Complete Library in Four Sections 四库全书。
- 运行例子 - WordEncoderExample4
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 曰-特征值: [0.063528, 0.068379, ..., -0.022315, -0.103614]
[INFO ] - 云-特征值: [0.063528, 0.068379, ..., -0.022315, -0.103614]
[INFO ] - 余弦相似度: 0.3282848
[INFO ] - 内积: 1.2609351
```
#### WordEncoderExample5 (w2v_literature_dim300 - 大小约 215M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为187962,
训练采用的语料是——Literature 文学作品。
- 运行例子 - WordEncoderExample5
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 玄幻-特征值: [-1.036695, -0.648525, ..., -0.323885, 0.069166]
[INFO ] - 科幻-特征值: [-1.036695, -0.648525, ..., -0.323885, 0.069166]
[INFO ] - 余弦相似度: 0.50576097
[INFO ] - 内积: 26.441778
```
#### WordEncoderExample6 (w2v_people_daily_dim300 - 大小约 407M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为356055,
训练采用的语料是——People's Daily News 人民日报。
- 运行例子 - WordEncoderExample6
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 发展-特征值: [0.618088, -0.389146, ..., 0.040372, 0.327205]
[INFO ] - 提升-特征值: [0.618088, -0.389146, ..., 0.040372, 0.327205]
[INFO ] - 余弦相似度: 0.36809018
[INFO ] - 内积: 21.746298
```
#### WordEncoderExample7 (w2v_sogou_dim300 - 大小约 418M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为365112,
训练采用的语料是——Sogou News 搜狗新闻。
- 运行例子 - WordEncoderExample7
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 中国-特征值: [-0.358933, 0.34152, ..., 0.367553, 0.098403]
[INFO ] - 美国-特征值: [-0.358933, 0.34152, ..., 0.367553, 0.098403]
[INFO ] - 余弦相似度: 0.47674376
[INFO ] - 内积: 29.667158
```
#### WordEncoderExample8 (w2v_baidu_encyclopedia_dim300 - 大小约 728M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为635976,
训练采用的语料是——Baidu Encyclopedia 百度百科。
- 运行例子 - WordEncoderExample8
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 中国-特征值: [0.46702, -0.137223, ..., -0.059722, -0.271998]
[INFO ] - 美国-特征值: [0.46702, -0.137223, ..., -0.059722, -0.271998]
[INFO ] - 余弦相似度: 0.51087683
[INFO ] - 内积: 24.71891
```
#### WordEncoderExample9 (w2v_zhihu_dim300 - 大小约 297M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为259871,
训练采用的语料是——Zhihu_QA 知乎问答。
- 运行例子 - WordEncoderExample9
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 中国-特征值: [-0.050675, 0.389359, ..., -0.203935, -0.371196]
[INFO ] - 美国-特征值: [-0.050675, 0.389359, ..., -0.203935, -0.371196]
[INFO ] - 余弦相似度: 0.5643151
[INFO ] - 内积: 9.433272
```
### 帮助
- 添加依赖库:lib/aias-word-encoder-cn-lib-0.1.0.jar
### 下载相应的模型特征数据
添加到 src/test/resources/ 路径下。
- WordEncoderExample1
[w2v_wiki_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_wiki_vocab.txt)
[w2v_wiki_dim300](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_wiki_dim300.npy)
- WordEncoderExample2
[w2v_weibo_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_weibo_vocab.txt)
[w2v_weibo_dim300](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_weibo_dim300.npy)
- WordEncoderExample3
[w2v_financial_dim300_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_financial_dim300_vocab.txt)
[w2v_financial_dim300](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_financial_dim300.npy)
- WordEncoderExample4
[w2v_sikuquanshu_dim300_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_sikuquanshu_dim300_vocab.txt)
[w2v_sikuquanshu_dim300](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_sikuquanshu_dim300.npy)
- WordEncoderExample5
[w2v_literature_dim300_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_literature_dim300_vocab.txt)
[w2v_literature_dim300](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_literature_dim300.npy)
- WordEncoderExample6
[w2v_people_daily_dim300_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_people_daily_dim300_vocab.txt)
[w2v_people_daily_dim300](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_people_daily_dim300.npy)
- WordEncoderExample7
[w2v_sogou_dim300_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_sogou_dim300_vocab.txt)
[w2v_sogou_dim300](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_sogou_dim300.npy)
- WordEncoderExample8
[w2v_baidu_encyclopedia_dim300_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_baidu
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
AIAS-main.zip (2000个子文件)
gradlew.bat 2KB
executionHistory.bin 1.94MB
classAnalysis.bin 479KB
jarAnalysis.bin 145KB
fileHashes.bin 143KB
outputFiles.bin 85KB
sha1-checksums.bin 82KB
taskHistory.bin 42KB
md5-checksums.bin 27KB
resourceHashesCache.bin 19KB
last-build.bin 1B
mvnw.cmd 6KB
mvnw.cmd 6KB
mvnw.cmd 6KB
example.csv 40KB
example.csv 40KB
.env.development 93B
.env.development 90B
.env.development 90B
.env.development 90B
.env.development 90B
.env.development 90B
.env.development 90B
.env.development 90B
.env.development 90B
.env.development 90B
.env.development 90B
sougou.dict 983KB
user.dict 85B
GraphMolWrap.dll 13.06MB
GraphMolWrap.dll 7.43MB
boost_serialization-vc140-mt-1_65_1.dll 198KB
libwebrtcvadwrapper.dll 30KB
libfvad.dll 11KB
.editorconfig 243B
.editorconfig 243B
.editorconfig 243B
.editorconfig 243B
.editorconfig 243B
.editorconfig 243B
.editorconfig 243B
.editorconfig 243B
.editorconfig 243B
.editorconfig 243B
.editorconfig 243B
.eslintignore 34B
.eslintignore 34B
.eslintignore 34B
.eslintignore 34B
.eslintignore 34B
.eslintignore 34B
.eslintignore 34B
.eslintignore 34B
.eslintignore 34B
.eslintignore 34B
.eslintignore 34B
build.gradle 2KB
build.gradle 1KB
build.gradle 1KB
build.gradle 537B
settings.gradle 42B
settings.gradle 39B
gradlew 5KB
gradlew 5KB
3d5160f217754a5994d875a55d3c06f3.html 1KB
f020adecbd444eaab56ef5a4ba95b65e.html 1KB
7aa0e5e47c0440bf8fa4b7a3fe35b3fb.html 1KB
index.html 691B
index.html 620B
index.html 620B
index.html 620B
index.html 620B
index.html 620B
index.html 620B
index.html 620B
index.html 620B
index.html 620B
index.html 620B
favicon.ico 17KB
favicon.ico 17KB
favicon.ico 17KB
favicon.ico 17KB
favicon.ico 17KB
favicon.ico 17KB
favicon.ico 17KB
favicon.ico 17KB
favicon.ico 17KB
favicon.ico 17KB
favicon.ico 17KB
iocr-demo.iml 33KB
ocr-demo.iml 29KB
voiceprint_sdk.iml 26KB
asr_sdk.iml 25KB
asr_long_audio_sdk.iml 24KB
face_align_sdk.iml 23KB
sv2tts_waveglow_sdk.iml 22KB
tacotron2_sdk.iml 22KB
camera_face_sdk.iml 22KB
mp4_face_sdk.iml 22KB
camera_facemask_sdk.iml 22KB
共 2000 条
- 1
- 2
- 3
- 4
- 5
- 6
- 20
资源评论
m0_72731342
- 粉丝: 2
- 资源: 1832
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于 Java的扫雷程序毕业设计
- axure9 里面有码 axure9 里面有码
- 551-2404242311-1.amr
- 自己搭建的关于springboot整合mybatis的框架.zip
- 这是一个保存Springboot+MyBaits项目的仓库.zip
- tensorflow-gpu-2.7.2-cp39-cp39-manylinux2010-x86-64.whl
- tensorflow-2.7.4-cp38-cp38-manylinux2010-x86-64.whl
- tensorflow-gpu-2.7.4-cp38-cp38-manylinux2010-x86-64.whl
- 詹佳 陈敏 口语2.mp3
- 图书管理系统毕业设计Java语言实现
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功