句子边界检测
使用机器学习检测句子边界,使用朴素贝叶斯算法,您也可以使用选项-rnn训练LSTM,但是为获得不错的结果而训练时间太长。
Python版本
该项目已使用pyenv在python 3.5.2中进行了pyenv
在您的环境变量PYTHONPATH添加$(pwd)/srcs/ ,否则某些脚本将无法运行
依存关系
运行以下命令
./install.sh
用短绒棉签检查代码质量
./linter.sh
用法
您可以在每个脚本上使用选项-h以获得具有可用选项的帮助指示。
获取数据集
(大约压缩一个200Mo,未压缩大约600Mo)最多可能需要10分钟才能从源中检索数据集(远程服务器速度很慢)
python scripts/acquire.py
预处理数据集
python scripts/preprocess.py --samples 10000000 [--samples NB_IN
评论0
最新资源