附录 A. 字符编码
3. 在 Linux C 编程中使用 Unicode 和 UTF-8
目前各种 Linux 发行版都支持 UTF-8 编码,当前系统的语言和字符编码设置保
存在一些环境变量中,可以通过 locale 命令查看:
$ locale
LANG=en_US.UTF-8
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE="en_US.UTF-8"
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_PAPER="en_US.UTF-8"
LC_NAME="en_US.UTF-8"
LC_ADDRESS="en_US.UTF-8"
LC_TELEPHONE="en_US.UTF-8"
LC_MEASUREMENT="en_US.UTF-8"
LC_IDENTIFICATION="en_US.UTF-8"
LC_ALL=
常用汉字也都位于 BMP 中,所以一个汉字的存储通常占 3 个字节。例如编辑一
个 C 程序:
#include <stdio.h>
int main(void)