没有合适的资源?快使用搜索试试~ 我知道了~
构件:用于文本预处理的构件
共22个文件
py:9个
md:9个
gitattributes:1个
需积分: 5 0 下载量 165 浏览量
2021-02-19
07:10:47
上传
评论
收藏 21KB ZIP 举报
温馨提示
建筑模块 以下是我们在文本语料库实验室中使用的语料库工具的列表。 它们旨在作为通用的构建基块,允许我们在不同流程之间进行转换。 每个工具都应视为独立工具,并且包括代码( ~/code )和文档( ~/docs )。 ~/code所有工具的合并的requirements.txt文件。 该文档将包括有关代码用途以及如何运行代码的说明。 先决条件 所有脚本均遵循我们的标准和指令。 剧本 所有脚本命令均以PowerShell语法显示。 如果您使用其他外壳程序,则语法会有所不同。 在任何脚本的前面添加-O “优化”模式运行它。 在某些情况下,这可以提高50%,但可以防止出错。 如果运行中有错误,请除去-O ,捕获错误,然后提交。 一个JSON文件文件夹为一个JSONL文件。 一个TXT文件文件夹为一个JSONL文件。 通过仅保留一些元素,JSONL文件转换为较小的JSONL文件。 TXT
资源推荐
资源详情
资源评论
收起资源包目录
building-blocks-master.zip (22个子文件)
building-blocks-master
docs
extract_itxt_from_jsonl.md 2KB
flatten_corpus.md 1KB
combine_txt_to_jsonl.md 969B
extract_csv_from_jsonl.md 854B
extract_json_from_jsonl.md 1011B
extract_txt_from_jsonl.md 1KB
combine_json_to_jsonl.md 927B
convert_jsonl.md 846B
LICENSE 1KB
code
convert_jsonl.py 3KB
utils.py 2KB
combine_json_to_jsonl.py 3KB
extract_txt_from_jsonl.py 4KB
extract_json_from_jsonl.py 3KB
flatten_corpus.py 5KB
combine_txt_to_jsonl.py 3KB
requirements.txt 77B
extract_csv_from_jsonl.py 4KB
extract_itxt_from_jsonl.py 6KB
.gitignore 47B
README.md 2KB
.gitattributes 12B
共 22 条
- 1
资源评论
A玩具爆款孙大帅
- 粉丝: 18
- 资源: 4712
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- DHCP+NAPT+RIP+ACL
- Qt实战Qt项目(7)Qt实现网页浏览器
- Unity-WebGL配置系统教程(含iis本地部署)
- GIS图幅号计算工具,用于计算图幅号
- Python中Hadoop MapReduce的一个简单示例.zip
- Panoply软件是大名鼎鼎的NASA下属的GISS研究所开发的可视化软件,该软件可以实现对地学常用数据的读取,其中包括netC
- 一些高质量的学习Ruby的资源清单.zip
- 基于STM32智能家居(智能云)
- 适合江苏地带的别墅小院子图纸D038-两层-11.04&11.94米-施工图.dwg
- 农村小别墅图纸四合院图纸D037-两层-13.20&12.90米-施工图.dwg
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功