### 官网:
[官网链接](http://www.aias.top/)
### 词向量SDK【中文】
词向量/词嵌入(Word embedding)是自然语言处理(NLP)中语言模型与表征学习技术的统称。
概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,
每个单词或词组被映射为实数域上的向量。
- 词向量
![img](https://aias-home.oss-cn-beijing.aliyuncs.com/AIAS/nlp_sdks/word_vector.jpeg)
### SDK功能:
- 词向量提取
- 相似度计算:
- 余弦相似度
- 内积
### SDK包含9个模型数据:
#### WordEncoderExample1 (w2v_wiki_dim300 403M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为352219,
训练采用的语料是——Wikipedia_zh 中文维基百科。
- 运行例子 - WordEncoderExample1
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 中国-特征值: [0.365368, 0.506662, ..., -0.157893, 0.346256]
[INFO ] - 美国-特征值: [0.365368, 0.506662, ..., -0.157893, 0.346256]
[INFO ] - 余弦相似度: 0.41243544
[INFO ] - 内积: 11.631776
```
#### WordEncoderExample2 (w2v_weibo_dim300 - 大小约 223M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为195204,
训练采用的语料是——Weibo微博。
- 运行例子 - WordEncoderExample2
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 中国-特征值: [-0.186542, 0.153161, ..., -0.344588, 0.269266]
[INFO ] - 美国-特征值: [-0.186542, 0.153161, ..., -0.344588, 0.269266]
[INFO ] - 余弦相似度: 0.30708003
[INFO ] - 内积: 6.5972724
```
#### WordEncoderExample3 (w2v_financial_dim300 - 大小约 535M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为467324,
训练采用的语料是——Financial News 金融新闻。
- 运行例子 - WordEncoderExample3
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 投资-特征值: [-0.146902, 0.203111, ..., -0.371138, 0.073174]
[INFO ] - 投机-特征值: [-0.146902, 0.203111, ..., -0.371138, 0.073174]
[INFO ] - 余弦相似度: 0.26770666
[INFO ] - 内积: 5.2186356
```
#### WordEncoderExample4 (w2v_sikuquanshu_dim300 - 大小约 22M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为19529,
训练采用的语料是——Complete Library in Four Sections 四库全书。
- 运行例子 - WordEncoderExample4
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 曰-特征值: [0.063528, 0.068379, ..., -0.022315, -0.103614]
[INFO ] - 云-特征值: [0.063528, 0.068379, ..., -0.022315, -0.103614]
[INFO ] - 余弦相似度: 0.3282848
[INFO ] - 内积: 1.2609351
```
#### WordEncoderExample5 (w2v_literature_dim300 - 大小约 215M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为187962,
训练采用的语料是——Literature 文学作品。
- 运行例子 - WordEncoderExample5
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 玄幻-特征值: [-1.036695, -0.648525, ..., -0.323885, 0.069166]
[INFO ] - 科幻-特征值: [-1.036695, -0.648525, ..., -0.323885, 0.069166]
[INFO ] - 余弦相似度: 0.50576097
[INFO ] - 内积: 26.441778
```
#### WordEncoderExample6 (w2v_people_daily_dim300 - 大小约 407M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为356055,
训练采用的语料是——People's Daily News 人民日报。
- 运行例子 - WordEncoderExample6
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 发展-特征值: [0.618088, -0.389146, ..., 0.040372, 0.327205]
[INFO ] - 提升-特征值: [0.618088, -0.389146, ..., 0.040372, 0.327205]
[INFO ] - 余弦相似度: 0.36809018
[INFO ] - 内积: 21.746298
```
#### WordEncoderExample7 (w2v_sogou_dim300 - 大小约 418M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为365112,
训练采用的语料是——Sogou News 搜狗新闻。
- 运行例子 - WordEncoderExample7
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 中国-特征值: [-0.358933, 0.34152, ..., 0.367553, 0.098403]
[INFO ] - 美国-特征值: [-0.358933, 0.34152, ..., 0.367553, 0.098403]
[INFO ] - 余弦相似度: 0.47674376
[INFO ] - 内积: 29.667158
```
#### WordEncoderExample8 (w2v_baidu_encyclopedia_dim300 - 大小约 728M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为635976,
训练采用的语料是——Baidu Encyclopedia 百度百科。
- 运行例子 - WordEncoderExample8
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 中国-特征值: [0.46702, -0.137223, ..., -0.059722, -0.271998]
[INFO ] - 美国-特征值: [0.46702, -0.137223, ..., -0.059722, -0.271998]
[INFO ] - 余弦相似度: 0.51087683
[INFO ] - 内积: 24.71891
```
#### WordEncoderExample9 (w2v_zhihu_dim300 - 大小约 297M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为259871,
训练采用的语料是——Zhihu_QA 知乎问答。
- 运行例子 - WordEncoderExample9
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 中国-特征值: [-0.050675, 0.389359, ..., -0.203935, -0.371196]
[INFO ] - 美国-特征值: [-0.050675, 0.389359, ..., -0.203935, -0.371196]
[INFO ] - 余弦相似度: 0.5643151
[INFO ] - 内积: 9.433272
```
### 帮助
- 添加依赖库:lib/aias-word-encoder-cn-lib-0.1.0.jar
### 下载相应的模型特征数据
添加到 src/test/resources/ 路径下。
- WordEncoderExample1
[w2v_wiki_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_wiki_vocab.txt)
[w2v_wiki_dim300](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_wiki_dim300.npy)
- WordEncoderExample2
[w2v_weibo_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_weibo_vocab.txt)
[w2v_weibo_dim300](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_weibo_dim300.npy)
- WordEncoderExample3
[w2v_financial_dim300_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_financial_dim300_vocab.txt)
[w2v_financial_dim300](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_financial_dim300.npy)
- WordEncoderExample4
[w2v_sikuquanshu_dim300_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_sikuquanshu_dim300_vocab.txt)
[w2v_sikuquanshu_dim300](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_sikuquanshu_dim300.npy)
- WordEncoderExample5
[w2v_literature_dim300_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_literature_dim300_vocab.txt)
[w2v_literature_dim300](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_literature_dim300.npy)
- WordEncoderExample6
[w2v_people_daily_dim300_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_people_daily_dim300_vocab.txt)
[w2v_people_daily_dim300](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_people_daily_dim300.npy)
- WordEncoderExample7
[w2v_sogou_dim300_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_sogou_dim300_vocab.txt)
[w2v_sogou_dim300](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_sogou_dim300.npy)
- WordEncoderExample8
[w2v_baidu_encyclopedia_dim300_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_baidu
没有合适的资源?快使用搜索试试~ 我知道了~
AIAS-main.zip
共2410个文件
java:908个
js:328个
xml:199个
0 下载量 174 浏览量
2023-03-07
16:36:42
上传
评论
收藏 126.27MB ZIP 举报
温馨提示
AIAS (AI Acceleration Suite) - 人工智能加速器套件。提供: 包括SDK,平台引擎,场景套件在内,合计超过100个项目组成的项目集
资源推荐
资源详情
资源评论
收起资源包目录
AIAS-main.zip (2410个子文件)
gradlew.bat 2KB
executionHistory.bin 1.94MB
classAnalysis.bin 479KB
jarAnalysis.bin 145KB
fileHashes.bin 143KB
outputFiles.bin 85KB
sha1-checksums.bin 82KB
taskHistory.bin 42KB
md5-checksums.bin 27KB
resourceHashesCache.bin 19KB
last-build.bin 1B
mvnw.cmd 6KB
mvnw.cmd 6KB
example.csv 40KB
example.csv 40KB
.env.development 93B
.env.development 90B
.env.development 90B
.env.development 90B
.env.development 90B
.env.development 90B
.env.development 90B
.env.development 90B
.env.development 90B
.env.development 90B
sougou.dict 983KB
user.dict 85B
GraphMolWrap.dll 13.06MB
GraphMolWrap.dll 7.43MB
boost_serialization-vc140-mt-1_65_1.dll 198KB
libwebrtcvadwrapper.dll 30KB
libfvad.dll 11KB
.editorconfig 243B
.editorconfig 243B
.editorconfig 243B
.editorconfig 243B
.editorconfig 243B
.editorconfig 243B
.editorconfig 243B
.editorconfig 243B
.editorconfig 243B
.editorconfig 243B
.eslintignore 34B
.eslintignore 34B
.eslintignore 34B
.eslintignore 34B
.eslintignore 34B
.eslintignore 34B
.eslintignore 34B
.eslintignore 34B
.eslintignore 34B
.eslintignore 34B
build.gradle 2KB
build.gradle 1KB
build.gradle 1KB
build.gradle 537B
settings.gradle 42B
settings.gradle 39B
gradlew 5KB
gradlew 5KB
index.html 691B
index.html 620B
index.html 620B
index.html 620B
index.html 620B
index.html 620B
index.html 620B
index.html 620B
index.html 620B
index.html 620B
favicon.ico 17KB
favicon.ico 17KB
favicon.ico 17KB
favicon.ico 17KB
favicon.ico 17KB
favicon.ico 17KB
favicon.ico 17KB
favicon.ico 17KB
favicon.ico 17KB
favicon.ico 17KB
voiceprint_sdk.iml 26KB
asr_sdk.iml 25KB
asr_long_audio_sdk.iml 24KB
face_align_sdk.iml 23KB
sv2tts_waveglow_sdk.iml 22KB
tacotron2_sdk.iml 22KB
camera_face_sdk.iml 22KB
mp4_face_sdk.iml 22KB
camera_facemask_sdk.iml 22KB
rtsp_facemask_sdk.iml 22KB
mp4_facemask_sdk.iml 22KB
rtsp_face_sdk.iml 22KB
camera-face-sdk.iml 22KB
mp4-face-sdk.iml 22KB
camera-facemask-sdk.iml 22KB
rtsp-facemask-sdk.iml 22KB
mp4-facemask-sdk.iml 22KB
rtsp-face-sdk.iml 22KB
ndarray_audio_sdk.iml 22KB
sv2tts_speakencoder_sdk.iml 22KB
共 2410 条
- 1
- 2
- 3
- 4
- 5
- 6
- 25
资源评论
m0_72731342
- 粉丝: 2
- 资源: 1832
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- vscode-1.64.1.tar源码文件
- vscode-1.64.0.tar源码文件
- vscode-1.52.0.tar源码文件
- Music-Player +PlayerActivity+ rockplayer+ SeeJoPlayer 播放器JAVA源码
- vscode-1.46.0.tar源码文件
- 最近很火植物大战僵尸杂交版2.08苹果+安卓+PC+防闪退工具V2+修改工具+高清工具+通关存档整合包更新
- 超级好用的截图工具PixPin,可录制Gif图
- Screenshot_2024-05-21-17-06-42-64_2332cb9b27b851b548ba47a91682926c.jpg
- 毕业设计参考 - 基于树莓派、OpenCV及Python的人脸识别
- node-v18.20.2-linux-arm64
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功