汉字数据库
版本
作者 (井作恆)、(曲理查)
发布日期
当前版本
http://www.unicode.org/Public/5.0.0/ucd/
Unihan.html
上一版本
!!"""#$!%#&'!(!#!
)'
最新版本
!!"""#$!%#&'!*+*!
)'
原文: !!"""#$!%#&'!!#!)'
译文:北大中文论坛
译者:韦剑
整理:
于
1. 译序
本文作为对 汉字数据库文件 格式的分析和解读,列出并解释了文件
中的常用属性,如 的区位码映射 ,!" 编码对应汉字的汉
语拼音 。
# 文件描述了每个 编码包含的众多属性,这些属性包括各种字符编码
的映射关系、英文释意、字典索引、中文笔画、部首、汉语拼音等等。用户可根据这些属
性生成自己的汉字数据库、字符编码映射表、输入法字典映射表等。
以下给出 中一个 编码的格式实例,‘$,后为注释:
#%&' () *&& $+( 码
#%&' ,,,-- $,,,-- 编码
#%&' ,./0 && $-./ 编码
#%&' ,./ && $,./ 编码
#%&' ,(1 ! $倉頡输入法编码
#%&' ,2 1
#%&' ,3
#%&' ,42
#%&' 56
#%&' 57 8984 $英文解释此字意为 个
#%&' '*,,
#%&' ) *
#%&' )- 0:00
#%&' )","",
#%&' )";< $使用频度( 为最高)
#%&' : $ 中的区位码
#%&' : $& 中的区位码
#%&' /= &
#%&' ">4
#%&' ?5@=" ⼀A#%)B
#%&' ?C4<
#%&' ?D
#%&' ?(4 일
#%&' ?<E4 <:&: $汉语出现的频率
#%&' --,"
#%&' -=56
#%&' -=5C@
#%&' -=?<5@
#%&' -=C(F :
#%&' -=G/"
#%&' -=G6/"0,
#%&' -=GCE/" CE),50
#%&' -=GC/" 0,0
#%&' -=G3/" &&
#%&' -=GH/" &*
#%&' 62C ?-3I3/#?-3I3*-?*6-!'
#%&' 62I -,?--3/#
#%&' 62 0:0
#%&' CE/ ),50
#%&' C/, :0:
#%&' C(F :
#%&' C"4(" :
#%&' C" ->
#%&' > &
#%&' !434("
#%&' !" D- $汉语拼音< 的第一声,第二声为 <
#%&' !2 0
#%&' !<"J :
#%&' !"2
#%&' .42
#%&' E &
#%&' E""<."
#%&' =/*+G6G0 ,%%
#%&' =/C(F
#%&' =/#
#%&' /D &0&
#%&' /H" #%),K>9!29!<"J
#%)K>9!29!<"J
#%&' /4L/H" #%)
#%&' 334("
#%&' 3( M;;
#%&' 34/"2 $笔画数
#%&' H2 N
#%&' F?, <00&<O00<P
#%&' F" &&
2. 摘要
本文分析了
字符数据库( ) 里的 Unihan.txt
文件的格式和内
容。
3. 关于本文
本文和本文中所指的“文件”属于 字符数据库的一部分,统一受
标准资源使用协议( !!"""#$!
)121#)')的管理。
文末所列的参考资料 提供了有助于理解本文所需的一些相关知识。
注意:本文所要解释的 字符属性和作用的用法并不完全都由本文给出,
有时可能会要结合 字符数据库里面其他文件的数据来使用,这种数据
链接所需的符号及其定义请参考
标准 。除非特别说明,本文所提及的
“字符”均来自 标准 版。
4. 目录
1. 译序........................................................................................................................................................1
2. 摘要........................................................................................................................................................3
3. 关于本文................................................................................................................................................3
4. 目录........................................................................................................................................................3
5. 文档结构................................................................................................................................................5
字段
1
数据含义
................................................................................................................................5
字段
2
数据含义
................................................................................................................................5
字段
3
数据含义
................................................................................................................................5
6. UNIHAN 属性.......................................................................................................................................6
0#.-?*. 属性列表(按字母顺序排列):
0#.-?*. 属性分类:
字典索引
...........................................................................................................................................7
字典素材
...........................................................................................................................................7
IRG
字源资料
....................................................................................................................................8
数值
...................................................................................................................................................8
与其他编码字符集的映射
...............................................................................................................8
部首/笔画数
...................................................................................................................................8
变体
...................................................................................................................................................8
0#.-?*. 属性分级
常规
...................................................................................................................................................8
资料
...................................................................................................................................................9
暂定
...................................................................................................................................................9
0&属性详解
kAccountingNumeric
(财会数字)
................................................................................................9
kBigFive
(
Big5
编码)
..................................................................................................................10
kCCCII
(
CCCII
编码)
.................................................................................................................10
kCNS1986
(
CNS 11643-1986
编码)
............................................................................................10
kCNS1992
(
CNS 11643-1992
编码)
............................................................................................11
kCangjie
(仓颉码)
.......................................................................................................................11
kCantonese
(广东话读音)
...........................................................................................................12
kCheungBauer
(
CheungBauer
资料)
..........................................................................................13
kCheungBauerIndex
(
CheungBauer
索引)
.................................................................................13
kCihaiT
(《辞海》索引)
..........................................................................................................14
kCompatibilityVariant
(相容变体)
..............................................................................................14
kCowles
(
Cowles
索引)
...............................................................................................................15
kDaeJaweon
(《大字源》索引)
...............................................................................................15
kDefinition
(英文释义)
...............................................................................................................16
kEACC
(
EACC
编码)
..................................................................................................................16
kFenn
(
Fenn
资料)
......................................................................................................................17
kFennIndex
(
Fenn
索引)
.............................................................................................................18
kFourCornerCode
(四角号码)
...................................................................................................18
kFrequency
(频度等级)
..............................................................................................................19
kGB0
(
GB 2312-80
区位码)
........................................................................................................19
kGB1
(
GB 12345-90
区位码)
......................................................................................................20
kGB3
(
GB 7589-87
区位码)
........................................................................................................20
kGB5
(
GB 7590-87
区位码)
........................................................................................................21
kGB7
(
GB 8565-89
区位码)
........................................................................................................21
kGB8
(
GB 8565-89
区位码)
........................................................................................................21
kGSR
(《漢文典(修訂本)》索引)
......................................................................................22
kGradeLevel
(香港汉字教学水平等级)
.....................................................................................23
kHDZRadBreak
(《汉语大字典》部首字头索引)
..................................................................24
kHKGlyph
(香港《常用字字形表》索引)
................................................................................24
kHKSCS
(香港增补字符集
Big5
编码)
......................................................................................25
kHanYu
(《汉语大字典》索引)
...............................................................................................25
kHangul
(谚文注音)
...................................................................................................................27
kHanyuPinlu
(现代汉语读音频率)
............................................................................................27
kIBMJapan
(
IBM
日文编码)
.......................................................................................................29
kIICore
(国际表意文字核心集资料)
.........................................................................................29
kIRGDaeJaweon
(四字典定序用《大字源》索引)
..................................................................30
kIRGDaiKanwaZiten
(四字典定序用《大汉和辞典》索引)
...................................................30
kIRGHanyuDaZidian
(四字典定序用《汉语大字典》索引)
...................................................31
kIRGKangXi
(四字典定序用《康熙字典》索引)
.....................................................................32
kMandarin(
汉语拼音
).....................................................................................................................33
5. 文档结构
3 文件数据正文中的每条记录都由三个字段组成,各字段之间用 +&
制表符分开。
字段 1 数据含义
形如 45676666这样的 编码点(即 4前缀的后面加上 ( 个或 个
十六进制数字)。
字段 2 数据含义
说明记录中第三个字段数据的类型或来源。
字段 3 数据含义
本条记录的(关键)数据值(+8/ 格式,事实上整个 3 都是 +8
/ 编码格式的)。
下表列出了 Unihan.txt 中字段 1 的汉字编码点有效取值范围:
编码点范围 区域名称 首发版本
49(4(
:
中日韩统一表意文字扩展集
*
9
4(4.8
*
中日韩统一表意文字
评论2
最新资源