# ECDICT
Free English to Chinese Dictionary Database.
## 简介
这是一份英文->中文字典的双解词典数据库,根据各类考试大纲和语料库词频收录数十万条各类单词的英文和中文释义,并按照各类考试大纲和词频进行标注。
最初开发看书软件时需要给软件添加一个内嵌字典,在网上找到了一份别人提供的 EDictAZ.txt 的文本文件,里面有差不多两万英文单词的释义,于是开始用这个文件来提供字典查询,用着用着不够用了,又找到一份四六级到 GRE 包含释义的词汇表,但是缺少音标,于是写了个爬虫从各种资料里面把音标给爬下来,外加自己补充了一些组成了一份三万基本词汇的数据库。
其后数年根据各种资料和网友贡献词库增长到 10 万左右,又找到 Linux 下面的 cdict-1.0-1.rpm 这个开源字典数据(mdict 的主词库也是根据 cdict 转换得到),并按照英国国家语料库的前 16 万单词进行校对,补全很多语料库里词频较高但是却没有收录的词条。
## 单词标注
给数据库中每个单词标注:是否是各类考试大纲词汇?以及他们在 BNC 和其他语料库里的词频顺序。BNC 词频统计的是最近几百年的历史各类英文资料,而当代语料库只统计了最近 20 年的,为什么两者都要提供呢?
很简单,quay(码头)这个词在当代语料库里拍两万以外,你可能觉得是个没必要掌握的生僻词,而 BNC 里面却排在第 8906 名,基本算是一个高频词,为啥呢?可以想象过去航海还是一个重要的交通工具,所以以往的各类文字资料对这个词提的比较多,你要看懂 19 世纪即以前的各类名著,你会发现 BNC 的词频很管用。
而你要阅读各类现代杂志,当代语料库的作用就体现出来了,比如 Taliban(塔利班),在 BNC 词频里基本就没收录(没进前 20 万词汇),而在当代语料库里,它已经冒到 6089 号了,高频中的高频。
BNC 较为全面和传统,针对性学习能帮助你阅读各类国外帝王将相的文学名著,当代语料库较为现代和实时,以和科技紧密相关。所以两者搭配,干活不累。
经过标注后,你查任何一个单词,都会告诉你这个词汇是不是四六级词汇?雅思词汇?柯林斯星级是多少?是否是牛津 3000 核心词汇?传统词频和现代词频各是多少?这样单词的重要程度你就能了解个大概了。
其次是标注动词的各个时态,每个动词有现在分词,过去式,过去分词,第三人称现在时等四种时态,用 NodeBox 和 WordNet 工具包可以方便的查询每个动词的变化形式,如此你查单词时能够给你显示出来各种变体,同时将这些变体作为新的生词再次加入到字典中,大部分字典都没法查询动词的各种时态,ECDICT 可以让你方便的查询一万多个动词(几乎所有动词)的所有派生词。
## 数据格式
采用 CSV 文件存储所有词条数据,用 UTF-8 进行编码,用 Excel 的话,别直接打开,否则编码是错的。在 Excel 里选择数据,来自文本,然后设定逗号分割,UTF-8 编码即可。
| 字段 | 解释 |
| ----------- | ---------------------------------------------------------- |
| word | 单词名称 |
| phonetic | 音标,以英语英标为主 |
| definition | 单词释义(英文),每行一个释义 |
| translation | 单词释义(中文),每行一个释义 |
| pos | 词语位置,用 "/" 分割不同位置 |
| collins | 柯林斯星级 |
| oxford | 是否是牛津三千核心词汇 |
| tag | 字符串标签:zk/中考,gk/高考,cet4/四级 等等标签,空格分割 |
| bnc | 英国国家语料库词频顺序 |
| frq | 当代语料库词频顺序 |
| exchange | 时态复数等变换,使用 "/" 分割不同项目,见后面表格 |
| detail | json 扩展信息,字典形式保存例句(待添加) |
| audio | 读音音频 url (待添加) |
提供一段 Python 程序来读取这些数据,可以用它转换到 SQLite 和 MySQL 的数据库里,方便你用更高级的方法筛选查询。词条数据大小写不敏感,不论从查询还是排序,还是编程接口。
## 词形变化
某个动词的各种时态是什么?某个形容词的比较级和最高级又是什么?某个名词的复数呢?这个单词是由哪个单词怎么演变而来的?它的原型单词(Lemma)是什么?
可能大家注意到上表有一个 `Exchange` 字段,它就是来做这个事情的,这是本词典一大特色之一,格式如下:
```text
类型1:变换单词1/类型2:变换单词2
```
比如 perceive 这个单词的 exchange 为:
```text
d:perceived/p:perceived/3:perceives/i:perceiving
```
意思是 perceive 的过去式(`p`) 为 perceived,过去分词(`d`)为 perceived, 现在分词('i')是 perceiving,第三人称单数(`3`)为 perceives。冒号前面具体项目为:
| 类型 | 说明 |
| ---- | ---------------------------------------------------------- |
| p | 过去式(did) |
| d | 过去分词(done) |
| i | 现在分词(doing) |
| 3 | 第三人称单数(does) |
| r | 形容词比较级(-er) |
| t | 形容词最高级(-est) |
| s | 名词复数形式 |
| 0 | Lemma,如 perceived 的 Lemma 是 perceive |
| 1 | Lemma 的变换形式,比如 s 代表 apples 是其 lemma 的复数形式 |
这个是根据 BNC 语料库和 NodeBox / WordNet 的语言处理工具生成的,有了这个 Exchange ,你的 App 能为用户提供更多信息。
## 编程接口
代码 stardict.py 用于操作该数据(兼容 Python 2/3),同时实现三个类:
| 类名 | 说明 |
| --------- | ----------------------------------------------------------------------- |
| DictCsv | 用于读写 ecdict.csv 数据格式文件 |
| StarDict | 用来读写 SQLite 词典数据文件,数据字段和上面相同,接口也和 CSV 版本相同 |
| DictMySQL | MySQL 版本的数据文件读写,同样字段和接口和上面两者相同 |
以上三个类都统一提供如下接口:
| 接口 | 说明 |
| ----------- | ------------------------------------------------------------------------------------------- |
| query | 查询单词,可以查整数 id(CSV 里 id 为行号,其他两者是自增量)或单词字符串,返回 Python 字典 |
| match | 单词匹配,匹配最相似的前 N 个单词 |
| query_batch | 批量查询 |
| count | 返回数据库词条总数
没有合适的资源?快使用搜索试试~ 我知道了~
基于树莓派设计的背单词小工具.zip(毕设/课设/竞赛/实训/项目开发)
共22个文件
py:15个
md:2个
ttf:1个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 113 浏览量
2024-03-29
20:24:14
上传
评论
收藏 33.94MB ZIP 举报
温馨提示
嵌入式优质项目,资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松copy复刻,拿到资料包后可轻松复现出一样的项目。 本人单片机开发经验充足,深耕嵌入式领域,有任何使用问题欢迎随时与我联系,我会及时为你解惑,提供帮助。 【资源内容】:包含完整源码+工程文件+说明,项目具体内容可查看下方的资源详情。 【附带帮助】: 若还需要嵌入式物联网单片机相关领域开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步。 【本人专注嵌入式领域】: 有任何使用问题欢迎随时与我联系,我会及时解答,第一时间为你提供帮助,CSDN博客端可私信,为你解惑,欢迎交流。 【建议小白】: 在所有嵌入式开发中硬件部分若不会画PCB/电路,可选择根据引脚定义将其代替为面包板+杜邦线+外设模块的方式,只需轻松简单连线,下载源码烧录进去便可轻松复刻出一样的项目 【适合场景】: 相关项目设计中,皆可应用在项目开发、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面中 可借鉴此优质项目实现复刻,也可以基于此项目进行扩展来开发出更多功能
资源推荐
资源详情
资源评论
收起资源包目录
基于树莓派zero的背单词小工具.zip (22个子文件)
Archie700
init.py 116B
lib
__init__.py 0B
epd
__init__.py 0B
epd.py 11KB
epdconfig.py 5KB
test.py 3KB
ecdict
__init__.py 0B
stardict.py 61KB
README.md 17KB
dev_test.py 86B
font
en_font.ttf 1012KB
zh_font.ttc 18.74MB
main.py 955B
src
__init__.py 0B
draw.py 1KB
dict.py 623B
LICENSE 11KB
main_dev.py 685B
epd_test.py 575B
.gitignore 21B
README.md 672B
ecdict.csv 62.15MB
共 22 条
- 1
资源评论
阿齐Archie
- 粉丝: 1w+
- 资源: 2303
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 常用爆破用户名字典top500
- meta-llama-3-8b-instruct 的 model-00003-of-00004.safetensors 的2/3
- bootstrap-select.js bootstrap-select.css
- EasyPoi Excel和 Word简易工具类
- 华为实验一 MPI 矩阵运算
- 网卡MAC地址修改工具 HardDiskSNC HWID changer 等电脑信息修改工具小软件合集(8个).zip
- 华为实验一 MPI 矩阵运算
- mysql语句大全及用法简介及基础教程及特点阐述.txt
- 指令调度和延迟分支简介及基础教程及特点阐述.txt
- HTML5小游戏【动态视力-考眼力的小游戏】游戏源码分享下载 - dtsl.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功