# 词向量SDK【中文】
词向量/词嵌入(Word embedding)是自然语言处理(NLP)中语言模型与表征学习技术的统称。
概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,
每个单词或词组被映射为实数域上的向量。
- 词向量
![img](https://aias-home.oss-cn-beijing.aliyuncs.com/AIAS/nlp_sdks/word_vector.jpeg)
### SDK功能:
- 词向量提取
- 相似度计算:
- 余弦相似度
- 内积
### SDK包含9个模型数据:
#### WordEncoderExample1 (w2v_wiki_dim300 403M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为352219,
训练采用的语料是——Wikipedia_zh 中文维基百科。
- 运行例子 - WordEncoderExample1
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 中国-特征值: [0.365368, 0.506662, ..., -0.157893, 0.346256]
[INFO ] - 美国-特征值: [0.365368, 0.506662, ..., -0.157893, 0.346256]
[INFO ] - 余弦相似度: 0.41243544
[INFO ] - 内积: 11.631776
```
#### WordEncoderExample2 (w2v_weibo_dim300 - 大小约 223M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为195204,
训练采用的语料是——Weibo微博。
- 运行例子 - WordEncoderExample2
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 中国-特征值: [-0.186542, 0.153161, ..., -0.344588, 0.269266]
[INFO ] - 美国-特征值: [-0.186542, 0.153161, ..., -0.344588, 0.269266]
[INFO ] - 余弦相似度: 0.30708003
[INFO ] - 内积: 6.5972724
```
#### WordEncoderExample3 (w2v_financial_dim300 - 大小约 535M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为467324,
训练采用的语料是——Financial News 金融新闻。
- 运行例子 - WordEncoderExample3
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 投资-特征值: [-0.146902, 0.203111, ..., -0.371138, 0.073174]
[INFO ] - 投机-特征值: [-0.146902, 0.203111, ..., -0.371138, 0.073174]
[INFO ] - 余弦相似度: 0.26770666
[INFO ] - 内积: 5.2186356
```
#### WordEncoderExample4 (w2v_sikuquanshu_dim300 - 大小约 22M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为19529,
训练采用的语料是——Complete Library in Four Sections 四库全书。
- 运行例子 - WordEncoderExample4
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 曰-特征值: [0.063528, 0.068379, ..., -0.022315, -0.103614]
[INFO ] - 云-特征值: [0.063528, 0.068379, ..., -0.022315, -0.103614]
[INFO ] - 余弦相似度: 0.3282848
[INFO ] - 内积: 1.2609351
```
#### WordEncoderExample5 (w2v_literature_dim300 - 大小约 215M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为187962,
训练采用的语料是——Literature 文学作品。
- 运行例子 - WordEncoderExample5
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 玄幻-特征值: [-1.036695, -0.648525, ..., -0.323885, 0.069166]
[INFO ] - 科幻-特征值: [-1.036695, -0.648525, ..., -0.323885, 0.069166]
[INFO ] - 余弦相似度: 0.50576097
[INFO ] - 内积: 26.441778
```
#### WordEncoderExample6 (w2v_people_daily_dim300 - 大小约 407M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为356055,
训练采用的语料是——People's Daily News 人民日报。
- 运行例子 - WordEncoderExample6
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 发展-特征值: [0.618088, -0.389146, ..., 0.040372, 0.327205]
[INFO ] - 提升-特征值: [0.618088, -0.389146, ..., 0.040372, 0.327205]
[INFO ] - 余弦相似度: 0.36809018
[INFO ] - 内积: 21.746298
```
#### WordEncoderExample7 (w2v_sogou_dim300 - 大小约 418M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为365112,
训练采用的语料是——Sogou News 搜狗新闻。
- 运行例子 - WordEncoderExample7
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 中国-特征值: [-0.358933, 0.34152, ..., 0.367553, 0.098403]
[INFO ] - 美国-特征值: [-0.358933, 0.34152, ..., 0.367553, 0.098403]
[INFO ] - 余弦相似度: 0.47674376
[INFO ] - 内积: 29.667158
```
#### WordEncoderExample8 (w2v_baidu_encyclopedia_dim300 - 大小约 728M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为635976,
训练采用的语料是——Baidu Encyclopedia 百度百科。
- 运行例子 - WordEncoderExample8
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 中国-特征值: [0.46702, -0.137223, ..., -0.059722, -0.271998]
[INFO ] - 美国-特征值: [0.46702, -0.137223, ..., -0.059722, -0.271998]
[INFO ] - 余弦相似度: 0.51087683
[INFO ] - 内积: 24.71891
```
#### WordEncoderExample9 (w2v_zhihu_dim300 - 大小约 297M)
基于W2V训练得到的中文Embedding模型,词向量的纬度为300,词表大小为259871,
训练采用的语料是——Zhihu_QA 知乎问答。
- 运行例子 - WordEncoderExample9
运行成功后,命令行应该看到下面的信息:
```text
...
[INFO ] - 中国-特征值: [-0.050675, 0.389359, ..., -0.203935, -0.371196]
[INFO ] - 美国-特征值: [-0.050675, 0.389359, ..., -0.203935, -0.371196]
[INFO ] - 余弦相似度: 0.5643151
[INFO ] - 内积: 9.433272
```
### 帮助
- 添加依赖库:lib/aias-word-encoder-cn-lib-0.1.0.jar
### 下载相应的模型特征数据
添加到 src/test/resources/ 路径下。
- WordEncoderExample1
[w2v_wiki_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_wiki_vocab.txt)
[w2v_wiki_dim300](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_wiki_dim300.npy)
- WordEncoderExample2
[w2v_weibo_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_weibo_vocab.txt)
[w2v_weibo_dim300](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_weibo_dim300.npy)
- WordEncoderExample3
[w2v_financial_dim300_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_financial_dim300_vocab.txt)
[w2v_financial_dim300](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_financial_dim300.npy)
- WordEncoderExample4
[w2v_sikuquanshu_dim300_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_sikuquanshu_dim300_vocab.txt)
[w2v_sikuquanshu_dim300](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_sikuquanshu_dim300.npy)
- WordEncoderExample5
[w2v_literature_dim300_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_literature_dim300_vocab.txt)
[w2v_literature_dim300](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_literature_dim300.npy)
- WordEncoderExample6
[w2v_people_daily_dim300_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_people_daily_dim300_vocab.txt)
[w2v_people_daily_dim300](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_people_daily_dim300.npy)
- WordEncoderExample7
[w2v_sogou_dim300_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_sogou_dim300_vocab.txt)
[w2v_sogou_dim300](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_sogou_dim300.npy)
- WordEncoderExample8
[w2v_baidu_encyclopedia_dim300_vocab](https://aias-home.oss-cn-beijing.aliyuncs.com/models/nlp_models/embedding_cn/w2v_baidu_encyclopedia_dim300_vocab.txt)
[w2v_baidu_encycloped
没有合适的资源?快使用搜索试试~ 我知道了~
AIAS人工智能加速器套件 v1.0.zip
共2000个文件
java:935个
js:331个
xml:228个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 34 浏览量
2024-03-18
21:20:47
上传
评论
收藏 105.56MB ZIP 举报
温馨提示
AIAS人工智能加速器套件 v1.0.zip
资源推荐
资源详情
资源评论
收起资源包目录
AIAS人工智能加速器套件 v1.0.zip (2000个子文件)
executionHistory.bin 1.94MB
classAnalysis.bin 479KB
jarAnalysis.bin 145KB
outputFiles.bin 85KB
sha1-checksums.bin 82KB
taskHistory.bin 42KB
md5-checksums.bin 27KB
last-build.bin 1B
说明.htm 4KB
f020adecbd444eaab56ef5a4ba95b65e.html 1KB
3d5160f217754a5994d875a55d3c06f3.html 1KB
index.html 691B
index.html 620B
index.html 620B
index.html 620B
index.html 620B
index.html 620B
index.html 620B
index.html 620B
index.html 620B
index.html 620B
face_align_sdk.iml 23KB
first_order_sdk.iml 20KB
imagekit_java.iml 19KB
image_sdk.iml 19KB
dishes_sdk.iml 4KB
pedestrian_sdk.iml 4KB
vehicle_sdk.iml 4KB
super_resolution_sdk.iml 4KB
pose_estimation_sdk.iml 4KB
traffic_sdk.iml 4KB
animal_sdk.iml 4KB
object_detection_v4_sdk.iml 4KB
depth_estimation_sdk.iml 4KB
face_landmark_sdk.iml 3KB
face_sdk.iml 3KB
mask_sdk.iml 3KB
object-detection-v4-sdk.iml 3KB
super-resolution-sdk.iml 3KB
crowd_sdk.iml 3KB
classification_imagenet_sdk.iml 3KB
object_detection_coco_sdk.iml 3KB
instance_segmentation_sdk.iml 3KB
object_detection_voc_sdk.iml 3KB
action_recognition_ucf101_sdk.iml 3KB
reflective_vest_sdk.iml 3KB
fire_smoke_sdk.iml 3KB
safety_helmet_sdk.iml 3KB
traffic-sdk.iml 3KB
animal-sdk.iml 3KB
dish-sdk.iml 3KB
depth-estimation-sdk.iml 3KB
smart_construction_sdk.iml 3KB
style_transfer_sdk.iml 3KB
feature_extraction_sdk.iml 3KB
pedestrian-sdk.iml 3KB
vehicle-sdk.iml 3KB
pose-estimation-sdk.iml 3KB
instance-segmentation-sdk.iml 3KB
biggan_sdk.iml 3KB
face_feature_sdk.iml 3KB
retinaface_sdk.iml 3KB
feature-extraction-sdk.iml 3KB
reflective-vest-sdk.iml 3KB
ndarray_lessons.iml 3KB
safety-helmet-sdk.iml 3KB
object-detection-coco-sdk.iml 3KB
object-detection-voc-sdk.iml 3KB
classification-imagenet-sdk.iml 3KB
action-recognition-ucf101-sdk.iml 3KB
biggan-sdk.iml 190B
aias-fire-smoke-lib-0.1.0.jar 24KB
AudioFloatConverter.java 40KB
CameraConnectionFragment.java 23KB
PhonemeUtils.java 15KB
PhonemeUtils.java 15KB
PhonemeUtils.java 15KB
SearchServiceImpl.java 15KB
SearchServiceImpl.java 15KB
SearchServiceImpl.java 15KB
SearchServiceImpl.java 15KB
SearchServiceImpl.java 15KB
SearchServiceImpl.java 15KB
Tokenizer.java 14KB
TableUtils.java 12KB
FileUtil.java 12KB
FileUtil.java 12KB
FileUtil.java 12KB
FileUtil.java 12KB
LAppModel.java 11KB
BaseImageTranslator.java 11KB
BaseImageTranslator.java 11KB
BaseImageTranslator.java 11KB
FileUtil.java 11KB
FileUtil.java 11KB
FileUtil.java 11KB
BaseImageTranslator.java 11KB
FaceDetectionActivity.java 11KB
TableController.java 11KB
ClipBPETokenizer.java 10KB
共 2000 条
- 1
- 2
- 3
- 4
- 5
- 6
- 20
资源评论
芝麻粒儿
- 粉丝: 6w+
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功