bert模型的Python实现_python实现bert,bert模型python资源-CSDN文库

共14个文件

py：8个

csv：2个

txt：1个

bert

Python

需积分: 41 199 浏览量 2019-04-15 17:13:23 上传评论 9 收藏 2.48MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

bert-utils-master.zip （14个子文件）

bert-utils-master

similarity.py 28KB

tokenization.py 10KB

modeling.py 37KB

requirements.txt 110B

__init__.py 616B

extract_feature.py 13KB

optimization.py 6KB

LICENSE 11KB

README.md 2KB

args.py 703B

data

dev.csv 2.58MB

train.csv 5.54MB

graph.py 5KB

.gitignore 83B

# bert-utils 本文基于Google开源的[BERT](https://github.com/google-research/bert)代码进行了进一步的简化，方便生成句向量与做文本分类 1、下载BERT中文模型下载地址: https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip 2、把下载好的模型添加到当前目录下 3、句向量生成生成句向量不需要做fine tune，使用预先训练好的模型即可，可参考`extract_feature.py`的`main`方法，注意参数必须是一个list。首次生成句向量时需要加载graph，并在output_dir路径下生成一个新的graph文件，因此速度比较慢，再次调用速度会很快 ``` from bert.extrac_feature import BertVector bv = BertVector() bv.encode(['今天天气不错']) ``` 4、文本分类文本分类需要做fine tune，首先把数据准备好存放在`data`目录下，训练集的名字必须为`train.csv`，验证集的名字必须为`dev.csv`，测试集的名字必须为`test.csv`，必须先调用`set_mode`方法，可参考`similarity.py`的`main`方法，训练： ``` from similarity import BertSim import tensorflow as tf bs = BertSim() bs.set_mode(tf.estimator.ModeKeys.TRAIN) bs.train() ``` 验证： ``` from similarity import BertSim import tensorflow as tf bs = BertSim() bs.set_mode(tf.estimator.ModeKeys.EVAL) bs.eval() ``` 测试： ``` from similarity import BertSim import tensorflow as tf bs = BertSim() bs.set_mode(tf.estimator.ModeKeys.PREDICT) bs.test ``` 5、DEMO中自带了蚂蚁金服的测试数据供大家使用，但该份数据区分度不大，建议使用QA_corpus数据集，这里给出[地址](http://icrc.hitsz.edu.cn/info/1037/1162.htm)

评论收藏

内容反馈