中文词库使用手册
目录
系统简介
安装和运行环境
界面窗口
快速入门
单词间关系
同义
上下位
类型-实例
整体-部分
角色
并列
集合-元素
拥有
属性
功能-工具
发出动作
接受动作
因果
领域
词类
其它关系
分组
基本操作
输入主词
选择义项
选择关系
查看相关词
释义或其它提示
主要技巧
使用通配符
输入拼音
显示树形
显示更多词
排序
多义词概览
显示近似词
其它功能
特殊符号一览
系统简介
CSC 中文语义词库 (原名 CWB 中文词库) 是自主研制的软件系统。其核心是一
个初具规模的中文词库。该词库目前收入了将近 230,000 的书面形式的词条 (带
270,000 以上的义项) , 包括单词、固定词组、成语、一定比例的专名、少量在中
文文献中较常见的英文缩写或含有字母的词语, 等等。该系统还在不断发展之中。
它也是一种较简化的知识本体 (ontology) 或知识库, 有类似著名英文词库 WordNet
的用途, 可作为智能搜索、自然语言处理等领域的辅助资源。
主要特点
·对词库中的每个词条, 尽量给出与它关系比较密切的各种相关词, 例如同义
词、反义词、上位词、下位词等等。目前词库中绝大多数词有所属的意义类别,
150,000 以上的词或义项有较准确的同义词, 15,000 以上的词或义项有反义或并
列词, 多数词条中还带有其它相关词, 总共含有 2,500,000 以上个关系实例。整
个词库在一些方面类似英文词库 WordNet, 但两者也有不少差别。与一些知识图谱
不同, 这种语义库比较侧重通用的日常词语或概念的描述。
·多种检索途径。能够以词形、读音、意义为入口快速地查词。可通过意义上
的联系在词条之间漫游。可使用通配符模糊查词。内置的拼音输入法能提高查词的
效率。
·多种显示方式。可以按拼音、长度等顺序显示相关词, 可以用树形显示一些
单词中的上下位等关系的等级层次。
安装和运行环境
该系统可在 Windows 的简体中文版中运行。运行时需要下面几个系统文件:
CSC.EXE
CSC.DIC
CSC.HLP
不论您是使用“Setup”安装, 还是解压缩, 或者直接拷贝, 都应该得到上述
文件。它们通常应放在一个专门的文件夹中, 例如“C:\Program Files\CSC”或
“C:\CSC”。系统文件占据大约 36M 的硬盘空间, 运行时另需少量的硬盘空间。
请注意不能在只读光盘上直接运行该系统, 否则无法建立临时文件。该系统需要的
内存很小, 远远低于目前绝大多数机器的标准配置。如果使用该系统内置的拼音输
入法查词, 则不再需要其它汉字输入法。
使用动态链接库的话则需要下面文件:
CSC.DLL
CSC.DIC
该系统的开发未花过纳税人一分钱。动态链接库等形式通常是收费的。
界面窗口
进入 CSC 系统并输入词之后出现如下窗口 (本手册所举的例子在该系统的某
些版本中可能略有变化, 恕不另外说明):
左上角是主词窗口, 其中的词语称为主词。其右边是义项号窗口和工具按钮。
中间占据最大面积的是相关词窗口。其左边是关系窗口。最下面是释义窗口。
主词窗口是一个下拉组合框, 可在里面输入要查阅的词语。义项号窗口是下拉
列表组合框, 可选择要显示的义项。关系窗口列出主词的当前义项所具有的关系。
关系的各种类型将在后面介绍。相关词窗口显示主词的各种相关词。释义窗口显示
主词或相关词的释义或提示信息, 但目前这里不一定有内容。
除了使用鼠标外, 还可以使用 Tab 或 Shift+Tab 键在各个窗口之间切换。关
系窗口、相关词窗口和释义窗口构成了切分窗口, 可以用鼠标拖动边框或窗棱调整
各窗格的大小。
目前界面不美观, 因为用户通常只须调用数据而不需要这里的界面。
快速入门
下面要点使新用户不必仔细阅读该手册就能初步使用该系统:
·运行 CSC.EXE。
·按照您喜欢的方式调整各窗口的大小。在不同的软硬件环境中窗口的初始大
小可能有差异。建议在一般情况下将最下面的释义窗口调整为不超过该系统总高度
的几分之一或两行左右, 例如“界面窗口”中那样。
·在主词窗口中输入单词或拼音之后按回车, 就可显示有关内容。
·在任一相关词上双击鼠标 (注意不是单击) 或按回车, 这个词就会出现在主
词窗口中成为新的主词。
·如果一个词有多个义项 (意思), 只有一个义项被显示出来。必须在义项窗
口中选择或使用工具按钮才能得到其它义项。
·较快熟悉该系统的方法之一是试试该手册中的一些例子。您甚至可以简单地
将该手册中的一些单词复制到主词窗口中并观察结果。
单词间关系
显示在关系窗口中的就是单词之间的关系, 它们指出了主词和相关词之间的联
系方式, 包括一些概念关系和词汇关系。目前主要有同义、上下位、类型-实例、
整体-部分、角色、并列、集合-元素、拥有、功能-工具、发出动作、接受动作、
因果、时间、地点、材料、领域、词类, 等等, 连同一些逆关系在内超过 50 种。
重点是同义、上下位等。其它的多数关系中, 只能表示为词组的, 或可由上位词隐
含的, 目前通常没表示出来。由于未实现显式的继承机制, 由上位词隐含的关系也
未能直接出现。
·同义。指两个或更多的词意思相同或接近。例如:
电脑-电子计算机
甘薯-白薯 红薯 红苕 番薯 山芋 香薯 地瓜 山药 芋头 苕 山药蛋
该词库的同义词包括: 内涵不同而外延相同的概念; 异形词; 全称与简称、缩
略语; 术语与俗称; 现代叫法和旧称、古称; 普通话和某些方言词; 不统一的译名;
敬辞、谦辞; 等等。目前同义关系涉及 150,000 以上的词或义项, 占总义项数的
一半以上。其中最大的同义词集 (也可称为“同义词组”, 每个集合含一至多个单
词, 表示一个概念) 包含 71 个同义词。因此该词库应可当成同义词典使用。我们
对同义的要求一般比有的工具书严格些。其它工具书中的一些同义词, 可能因意义
有差别而在该系统中被处理为上下位等。
该系统能将一些最密切的同义词排在一起。例如在同义词集“功夫 工夫 闲暇
…”中, “功夫”和“工夫”被认为最密切。于是当“功夫”作为主词时, “工夫”
总是出现为第一个同义词; 当“闲暇”等是主词时, “功夫”和“工夫”总是在其
同义词中紧挨着。所谓最密切的同义, 指内涵、非理性意义 (或附加意义) 等都相
同, 包括通常所说的异形词, 但还有若干其它类型, 其中不少是译名, 目前涉及
30,000 以上的词或义项。它们基本对应一些教科书中的“完全同义”, 但我们采
取更严格的标准。下面是一些有代表性的例子:
奥运会-奥林匹克运动会
天翻地覆-地覆天翻
成年累月-整年累月
伊妹儿-依妹儿
防患未然-防患于未然
拉大旗作虎皮-拉大旗,作虎皮
·上位(是一种)-下位(分成类别)。是较狭义的上下位。例如:
打-梆 抽 抽打 打 吊 钉 击 擂 拍板 拍打 扑
打-碰撞
正方形-矩形 菱形 正多边形
上位和下位通常是互逆的。如果 A 是一种 B, 则 B 可分成 A 等类别。上位
中也可包含不止一个词, 如上面的“正方形”中。我们不回避多个上位。上位关系
易支持继承。目前超过 1/4 的词或义项带有多个上位或类别。今后还会更多些。
上下位关系构成庞大的等级体系。越在下面的词就越专指, 也即外延就越小。
下面是从这种等级中抽取的片段:
信徒-教徒-佛教徒-僧尼-和尚-高僧
几何图形-多边形-三角形-等腰三角形-等边三角形
动物-脊索动物-脊椎动物-哺乳动物-马-骏马-千里马
事情-活动-文体-运动-田径运动-田径赛-径赛-长跑-马拉松
数量-物理量-标量-面积-地积
反应-答理-理茬-回答-答复-回电
玩耍-游玩-游览-郊游-春游-踏春-踏青
正确-合理-公平-公正-正直-刚直
无法-力不从心-眼高手低-志大才疏
适得其反-弄巧成拙-聪明反被聪明误-机关算尽太聪明,反算了卿卿性命
信徒是有某种信仰的人。如果他信仰的是宗教, 则就是教徒。如果他信仰的宗
教是佛教, 则就是佛教徒。如果他还出家, 则就是僧尼。如果他是男子, 则就是和
尚。如果他还造诣精深, 则就是高僧。
这样的例子在该词库中不胜枚举。目前这种等级的最大深度超过十几层。上面
例子中的一些词可能在有些工具书中被处理成同义词。这样做有时也是可以接受的,
因为印刷本的词典不易分成很多层次, 否则难于印刷和查阅。而在一些应用系统中,
有时不必分得太细也能满足需要, 有时甚至不必说明两个词是什么关系, 只须指出
它们密切相关即可。另外, 同义和上下位等确实经常不易区分。一些词的含义或用
法比较灵活、模糊, 不易准确描述。对它们的处理也就不能太严格。
目前绝大多数词都含有上位或后面要介绍的“类型”、“由…充当”的关系。
还有少数词不含这些关系, 其中有些是合理的, 个别词则有待补充。
有时相关词之间还应该协调。例如, 方向的相关词不应该是“东 西方 南边
北面”, 而应该是“东 西 南 北”或“东方 西方 南方 北方”等。这个问题在汉
语中似乎突出些。本系统在早期确实出现过类似的问题。现在已经基本能够避免。
·类型(是一个)-实例(…是一个)。例如:
太阳-恒星
中国-国家 临海国
南京-省会 省辖市 古都 河港城市 江城