没有合适的资源?快使用搜索试试~ 我知道了~
corpuscrawler:语言语料库检索器
共1023个文件
py:1017个
md:3个
gitignore:1个
需积分: 11 0 下载量 187 浏览量
2021-05-06
10:48:43
上传
评论
收藏 770KB ZIP 举报
温馨提示
语料库检索器 语料库爬虫是的工具。 现代语言学研究的是语言语料库,这是“真实世界”文本的大样本。 这个搜寻器有助于建立这样的语料库:它链接到已知以某种语言编写的可公开访问的网页的链接; 删除样板和HTML标记; 最后,它将其输出写入纯文本文件。 搜寻器实现了,它故意变慢,因此不会对搜寻到的网站造成太大的负载。 这不是Google的官方产品。 但是,如果您是语言研究人员,或者正在为“外来”语言编写拼写检查器(或类似的语言处理软件),则可能会发现Corpus Crawler很有用。 要为尚未支持的语言构建语料库,请阅读并向我们发送。 在Unicode的已爬网的语料库已用于计算单词频率。 支持的语言 IETF BCP47代码 语 代币¹ aai 阿里法玛(Arifama-Miniafia) 181K aak 安卡夫 19.4万 aau 阿保 313K aaz 阿
资源推荐
资源详情
资源评论
收起资源包目录
corpuscrawler:语言语料库检索器 (1023个子文件)
corpuscrawler 919B
.gitignore 44B
LICENSE 10B
README.md 142KB
CONTRIBUTING.md 1KB
LICENSE.md 573B
main.py 57KB
util.py 38KB
crawl_ga.py 17KB
crawl_vec.py 8KB
crawl_gv.py 7KB
crawl_haw.py 6KB
crawl_ae.py 6KB
crawl_sat.py 6KB
crawl_mi.py 6KB
crawl_gsw.py 5KB
crawl_oc.py 4KB
crawl_shn.py 4KB
crawl_lb.py 4KB
crawl_mn_Mong.py 4KB
crawl_pl.py 4KB
crawl_tpi.py 3KB
crawl_it.py 3KB
crawl_pt_PT.py 3KB
crawl_mnw.py 3KB
crawl_et.py 3KB
crawl_kab.py 3KB
crawl_pa.py 3KB
crawl_ba.py 3KB
crawl_mt.py 3KB
crawl_sk.py 3KB
crawl_fo.py 3KB
crawl_ca_valencia.py 3KB
crawl_la.py 2KB
crawl_ky.py 2KB
crawl_nl.py 2KB
crawl_sah.py 2KB
crawl_iba.py 2KB
crawl_ny.py 2KB
crawl_tt.py 2KB
crawl_sn.py 2KB
crawl_hy.py 2KB
crawl_mr.py 2KB
crawl_lt.py 2KB
crawl_kj.py 2KB
crawl_sl.py 2KB
crawl_iu.py 2KB
crawl_kar.py 2KB
crawl_my_t_d0_zawgyi.py 2KB
crawl_dz.py 2KB
crawl_be_tarask.py 2KB
crawl_gd.py 2KB
crawl_ha.py 2KB
crawl_os.py 2KB
crawl_rm.py 2KB
crawl_osa.py 2KB
crawl_id.py 1KB
crawl_ccp.py 1KB
crawl_ar.py 1KB
crawl_bg.py 1KB
crawl_yue.py 1KB
crawl_bo.py 1015B
crawl_km.py 1011B
crawl_fuv.py 1003B
crawl_yo.py 1000B
crawl_sw.py 992B
crawl_es.py 990B
crawl_pt.py 985B
crawl_ti.py 982B
crawl_be.py 980B
crawl_fr.py 978B
crawl_th.py 978B
crawl_vi.py 977B
crawl_am.py 976B
crawl_uk.py 966B
crawl_bm.py 963B
crawl_sv.py 949B
crawl_ps.py 945B
crawl_my.py 931B
crawl_si.py 931B
crawl_rw.py 930B
crawl_ug.py 929B
crawl_ta.py 929B
crawl_ku.py 928B
crawl_ig.py 928B
crawl_cs.py 927B
crawl_de.py 925B
crawl_az.py 924B
crawl_kk.py 923B
crawl_su.py 922B
crawl_lo.py 921B
crawl_el.py 919B
crawl_mk.py 919B
crawl_bn.py 919B
crawl_sq.py 919B
crawl_hi.py 919B
crawl_ja.py 917B
crawl_pcm.py 915B
crawl_bs.py 914B
crawl_ro.py 914B
共 1023 条
- 1
- 2
- 3
- 4
- 5
- 6
- 11
资源评论
李彼岸
- 粉丝: 28
- 资源: 4691
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功